F-ASR
文档说明 介绍
F-ASR · 企业级语音识别服务

介绍 · 服务概览

F-ASR 是一套面向企业级业务系统的异步语音识别服务解决方案。通过统一的 RESTful API 接口,您只需上传一段音频文件或提供音频链接,服务端将自动完成格式预处理、长音频智能切分、模型推理与结果聚合等全流程处理, 最终返回完整转写文本及带精确时间戳的 utterances 结构化结果,便于全文搜索、内容质检与多模态应用集成。

服务内核基于团队自研的 FASR-Paraformer-Large 非自回归语音识别模型, 结合 VAD(语音活动检测)CT-Punctuation(标点恢复)Speaker(说话人分离) 等模块, 支持数小时级长录音转写与多说话人自动分离。当前环境统一接入了优化后的 SeACoParaformer 配置, 客户端无需关心具体模型参数与底层实现细节,只需按照统一的 REST 接口规范进行对接即可。

高性能识别

采用非自回归架构,推理速度相比传统自回归模型提升数倍,同时保持极低字错率(CER)。

长音频支持

集成高效 VAD 模块,可稳定处理数小时级长音频,自动识别静音与语音片段,避免截断。

多说话人分离

支持自动识别并分离不同说话人,为会议、访谈等多说话人场景提供精准的说话人标注。

工作原理

F-ASR 采用端到端的异步处理架构,将语音识别任务分解为多个阶段,每个阶段都有专门的优化策略。整个流程从音频输入到最终结果输出,经过格式标准化、语音检测、模型推理、后处理等多个环节,确保识别结果的准确性和完整性。

1
音频预处理与格式转换

录音文件首先通过 FFmpeg 进行格式检测与转换,统一转换为标准 16kHz 采样率 / 单声道 / WAV 格式。 支持 wav、mp3、m4a、pcm、amr、webm、ogg、aac 等多种音频格式自动识别与转换。 对于远程 URL 音频,服务端会智能下载文件头进行格式验证,避免下载完整大文件。

2
语音活动检测(VAD)与智能切片

转换后的音频进入模型推理引擎,由 VAD(Voice Activity Detection) 模块进行语音活动检测。 VAD 能够自动识别静音段与语音段,将长音频智能切分为多个语音片段,有效过滤背景噪声和无效静音, 为后续识别提供高质量的语音输入,同时避免因音频过长导致的显存溢出问题。

3
FASR-Paraformer-Large 非自回归解码

切分后的语音片段送入 FASR-Paraformer-Large 模型进行非自回归(Non-autoregressive)解码。 相比传统逐字生成的自回归模型,Paraformer 采用并行解码机制,通过 CIF(Continuous Integrate-and-Fire) 预测机制 实现声学特征与文字的精准对齐,在保证识别精度的同时,推理速度提升数倍。

4
标点恢复与说话人识别

识别结果经过 CT-Punctuation 标点恢复模型,自动补充分号、句号、问号、感叹号等标点符号, 显著提升文本可读性。同时,Speaker 模块对多说话人场景进行说话人分离与标注, 为每个语音片段分配说话人标识(如 spk0、spk1),便于后续对话回放与内容分析。

5
结果聚合与结构化输出

所有处理结果进行时间戳对齐与聚合,生成完整转写文本(text)和句级结构化结果(utterances)。 每个 utterance 包含精确的开始时间(start_time)、结束时间(end_time)、 文本内容(text)和说话人信息(speaker),支持字级时间戳,可用于字幕生成、视频对齐等精细化应用。

服务类型

长语音识别
Long Audio Recognition

适用于已录制完成的音频文件,支持数小时级长音频转写。通过 RESTful API 上传文件或提供 URL, 异步处理并返回完整转写文本和结构化结果。

适用场景:会议录音、访谈转写、媒体归档
实时语音识别
Real-time Speech Recognition

通过 WebSocket 连接实现低延迟的流式语音识别,支持实时音频流输入,即时返回部分和最终识别结果。 适用于需要实时反馈的场景。

适用场景:实时字幕、语音助手、直播转写

核心能力

多源音频输入
Multi-source Audio Input

支持本地文件上传(multipart/form-data)与远程 URL 拉取(application/json)两种方式。 服务端会根据输入类型自动选择合适的下载与预处理策略,对于远程 URL 仅下载文件头进行验证,特别适合超长音频场景。

支持格式:wav, mp3, m4a, pcm, amr, webm, ogg, aac
长音频处理
Long Audio Processing

依赖高效的 VAD(语音活动检测) 模块与流式推理机制,可稳定处理数小时级长录音。 VAD 自动识别静音段与语音段,将长音频智能切分为多个片段,避免显存溢出,同时保证识别质量。

处理能力:支持 2 小时以上长音频,无时长限制
结构化输出
Structured Output

生成完整转写文本(text)和句级结构化结果(utterances)。 每个 utterance 包含精确的开始时间、结束时间、文本内容和说话人信息, 支持字级时间戳,可用于字幕生成、视频对齐等精细化应用。

时间精度:毫秒级(ms)时间戳
多说话人分离
Speaker Diarization

集成说话人分离(Speaker Diarization)模块,能够自动识别并分离不同说话人, 为每个语音片段分配说话人标识(如 spk0、spk1), 适用于会议、访谈、对话等多说话人场景,便于后续内容分析与对话回放。

识别能力:自动识别并标注多个说话人
智能缓存机制
Smart Caching

基于文件 SHA256 哈希值的智能缓存机制,相同音频文件无需重复识别。 支持音频 URL 缓存复用,提升处理效率,降低计算成本。Redis 缓存加速状态查询,任务完成后自动清理。

缓存策略:基于文件哈希的去重缓存
异步任务处理
Asynchronous Processing

采用异步任务队列架构,上传接口立即返回任务 ID,实际识别在后台异步执行。 客户端通过轮询状态接口获取任务进度和最终结果,支持高并发场景,避免长时间阻塞。

任务状态:PENDING → PROCESSING → SUCCESS/FAILED

性能与架构

系统架构

API 网关层

FastAPI 框架提供 RESTful API 接口,支持文件上传、URL 提交和状态查询。 统一的请求验证、错误处理和响应格式化。

任务管理层

Redis 任务队列 + MySQL 持久化存储。任务状态实时更新,支持高并发任务调度。 Redis 缓存加速状态查询,任务完成后自动清理。

识别引擎层

自研的 FASR-Paraformer-Large 推理引擎。自动检测 GPU/CPU,优先使用 GPU 加速。 模型常驻内存,减少冷启动开销。

硬件加速

自动检测系统 GPU/CPU 资源,优先在 GPU 上运行 FASR-Paraformer-Large 模型,充分利用硬件加速能力。 支持 NVIDIA GPU(CUDA)和 CPU 两种运行模式,根据系统配置自动选择最优方案。

性能提升:GPU 模式下推理速度提升 3-5 倍
动态参数调整

根据音频时长动态调整 batch_size_s 参数,在长音频场景兼顾显存占用与处理吞吐。 短音频使用较大 batch 提升效率,长音频降低 batch 避免显存溢出。

优化策略:自适应 batch 大小,平衡性能与资源
并发安全

识别过程采用锁机制保护,保证多任务并发执行时的数据安全与结果准确性。 模型与热词常驻内存,避免重复加载,减少冷启动开销,提升响应速度。

并发能力:支持多任务并行处理
性能指标

识别准确率:在通用中文场景中字错率(CER)< 3%
处理速度:GPU 模式下实时率(RTF)< 0.3
响应时间:任务创建 < 100ms,状态查询 < 50ms

适用场景:企业级生产环境

适用场景

会议/访谈录音转写
Meeting & Interview Transcription

将长时间多说话人录音转成可检索的会议纪要。支持自动说话人分离,为每个发言标注说话人身份, 便于后续内容检索、会议总结和决策追踪。适用于企业会议、客户访谈、学术研讨等场景。

多说话人分离 长音频支持 全文检索
内容生产与审核
Content Production & Review

为播客、电台、课程等音频内容生成文本底稿与质检数据。自动标点恢复提升文本可读性, 支持关键词检索和内容审核,便于内容管理和版权保护。适用于音频内容平台、在线教育、媒体机构等。

标点恢复 内容审核 批量处理
字幕生成与对齐
Subtitle Generation & Alignment

利用精确到毫秒级的时间戳生成 SRT/VTT 字幕文件,支持视频字幕对齐和文字高亮跟随。 字级时间戳可用于精细化剪辑和多模态展示,适用于视频制作、在线教育、直播回放等场景。

毫秒级精度 字幕格式 视频对齐
私有化语音入口
Private Speech Interface

在内网或断网环境下为各类业务系统提供稳定的语音转文本能力。完全离线化部署, 音频数据无需出网,满足隐私与合规要求。适用于金融、医疗、政务等对数据安全要求高的行业。

离线部署 数据安全 API 集成
媒体归档与检索
Media Archiving & Retrieval

对电台、播客、采访等海量音频资料进行结构化转写与索引,支持全文搜索与内容聚类。 基于时间戳的精确检索,便于快速定位关键内容。适用于媒体资料库、知识管理系统等。

全文检索 批量归档 内容聚类
客服质检与分析
Customer Service QA

将客服通话录音转写为文本,支持关键词检索、情感分析和质量评估。 说话人分离功能便于区分客服与客户对话,提升质检效率。适用于呼叫中心、在线客服等场景。

通话转写 质量评估 情感分析