介绍 · 服务概览
F-ASR 是一套面向企业级业务系统的异步语音识别服务解决方案。通过统一的 RESTful API 接口,您只需上传一段音频文件或提供音频链接,服务端将自动完成格式预处理、长音频智能切分、模型推理与结果聚合等全流程处理, 最终返回完整转写文本及带精确时间戳的 utterances 结构化结果,便于全文搜索、内容质检与多模态应用集成。
服务内核基于团队自研的 FASR-Paraformer-Large 非自回归语音识别模型, 结合 VAD(语音活动检测)、CT-Punctuation(标点恢复) 和 Speaker(说话人分离) 等模块, 支持数小时级长录音转写与多说话人自动分离。当前环境统一接入了优化后的 SeACoParaformer 配置, 客户端无需关心具体模型参数与底层实现细节,只需按照统一的 REST 接口规范进行对接即可。
采用非自回归架构,推理速度相比传统自回归模型提升数倍,同时保持极低字错率(CER)。
集成高效 VAD 模块,可稳定处理数小时级长音频,自动识别静音与语音片段,避免截断。
支持自动识别并分离不同说话人,为会议、访谈等多说话人场景提供精准的说话人标注。
工作原理
F-ASR 采用端到端的异步处理架构,将语音识别任务分解为多个阶段,每个阶段都有专门的优化策略。整个流程从音频输入到最终结果输出,经过格式标准化、语音检测、模型推理、后处理等多个环节,确保识别结果的准确性和完整性。
录音文件首先通过 FFmpeg 进行格式检测与转换,统一转换为标准 16kHz 采样率 / 单声道 / WAV 格式。 支持 wav、mp3、m4a、pcm、amr、webm、ogg、aac 等多种音频格式自动识别与转换。 对于远程 URL 音频,服务端会智能下载文件头进行格式验证,避免下载完整大文件。
转换后的音频进入模型推理引擎,由 VAD(Voice Activity Detection) 模块进行语音活动检测。 VAD 能够自动识别静音段与语音段,将长音频智能切分为多个语音片段,有效过滤背景噪声和无效静音, 为后续识别提供高质量的语音输入,同时避免因音频过长导致的显存溢出问题。
切分后的语音片段送入 FASR-Paraformer-Large 模型进行非自回归(Non-autoregressive)解码。 相比传统逐字生成的自回归模型,Paraformer 采用并行解码机制,通过 CIF(Continuous Integrate-and-Fire) 预测机制 实现声学特征与文字的精准对齐,在保证识别精度的同时,推理速度提升数倍。
识别结果经过 CT-Punctuation 标点恢复模型,自动补充分号、句号、问号、感叹号等标点符号, 显著提升文本可读性。同时,Speaker 模块对多说话人场景进行说话人分离与标注, 为每个语音片段分配说话人标识(如 spk0、spk1),便于后续对话回放与内容分析。
所有处理结果进行时间戳对齐与聚合,生成完整转写文本(text)和句级结构化结果(utterances)。 每个 utterance 包含精确的开始时间(start_time)、结束时间(end_time)、 文本内容(text)和说话人信息(speaker),支持字级时间戳,可用于字幕生成、视频对齐等精细化应用。
服务类型
适用于已录制完成的音频文件,支持数小时级长音频转写。通过 RESTful API 上传文件或提供 URL, 异步处理并返回完整转写文本和结构化结果。
通过 WebSocket 连接实现低延迟的流式语音识别,支持实时音频流输入,即时返回部分和最终识别结果。 适用于需要实时反馈的场景。
核心能力
支持本地文件上传(multipart/form-data)与远程 URL 拉取(application/json)两种方式。 服务端会根据输入类型自动选择合适的下载与预处理策略,对于远程 URL 仅下载文件头进行验证,特别适合超长音频场景。
依赖高效的 VAD(语音活动检测) 模块与流式推理机制,可稳定处理数小时级长录音。 VAD 自动识别静音段与语音段,将长音频智能切分为多个片段,避免显存溢出,同时保证识别质量。
生成完整转写文本(text)和句级结构化结果(utterances)。 每个 utterance 包含精确的开始时间、结束时间、文本内容和说话人信息, 支持字级时间戳,可用于字幕生成、视频对齐等精细化应用。
集成说话人分离(Speaker Diarization)模块,能够自动识别并分离不同说话人, 为每个语音片段分配说话人标识(如 spk0、spk1), 适用于会议、访谈、对话等多说话人场景,便于后续内容分析与对话回放。
基于文件 SHA256 哈希值的智能缓存机制,相同音频文件无需重复识别。 支持音频 URL 缓存复用,提升处理效率,降低计算成本。Redis 缓存加速状态查询,任务完成后自动清理。
采用异步任务队列架构,上传接口立即返回任务 ID,实际识别在后台异步执行。 客户端通过轮询状态接口获取任务进度和最终结果,支持高并发场景,避免长时间阻塞。
性能与架构
系统架构
FastAPI 框架提供 RESTful API 接口,支持文件上传、URL 提交和状态查询。 统一的请求验证、错误处理和响应格式化。
Redis 任务队列 + MySQL 持久化存储。任务状态实时更新,支持高并发任务调度。 Redis 缓存加速状态查询,任务完成后自动清理。
自研的 FASR-Paraformer-Large 推理引擎。自动检测 GPU/CPU,优先使用 GPU 加速。 模型常驻内存,减少冷启动开销。
自动检测系统 GPU/CPU 资源,优先在 GPU 上运行 FASR-Paraformer-Large 模型,充分利用硬件加速能力。 支持 NVIDIA GPU(CUDA)和 CPU 两种运行模式,根据系统配置自动选择最优方案。
根据音频时长动态调整 batch_size_s 参数,在长音频场景兼顾显存占用与处理吞吐。 短音频使用较大 batch 提升效率,长音频降低 batch 避免显存溢出。
识别过程采用锁机制保护,保证多任务并发执行时的数据安全与结果准确性。 模型与热词常驻内存,避免重复加载,减少冷启动开销,提升响应速度。
识别准确率:在通用中文场景中字错率(CER)< 3%
处理速度:GPU 模式下实时率(RTF)< 0.3
响应时间:任务创建 < 100ms,状态查询 < 50ms
适用场景
将长时间多说话人录音转成可检索的会议纪要。支持自动说话人分离,为每个发言标注说话人身份, 便于后续内容检索、会议总结和决策追踪。适用于企业会议、客户访谈、学术研讨等场景。
为播客、电台、课程等音频内容生成文本底稿与质检数据。自动标点恢复提升文本可读性, 支持关键词检索和内容审核,便于内容管理和版权保护。适用于音频内容平台、在线教育、媒体机构等。
利用精确到毫秒级的时间戳生成 SRT/VTT 字幕文件,支持视频字幕对齐和文字高亮跟随。 字级时间戳可用于精细化剪辑和多模态展示,适用于视频制作、在线教育、直播回放等场景。
在内网或断网环境下为各类业务系统提供稳定的语音转文本能力。完全离线化部署, 音频数据无需出网,满足隐私与合规要求。适用于金融、医疗、政务等对数据安全要求高的行业。
对电台、播客、采访等海量音频资料进行结构化转写与索引,支持全文搜索与内容聚类。 基于时间戳的精确检索,便于快速定位关键内容。适用于媒体资料库、知识管理系统等。
将客服通话录音转写为文本,支持关键词检索、情感分析和质量评估。 说话人分离功能便于区分客服与客户对话,提升质检效率。适用于呼叫中心、在线客服等场景。