概览

API 参考

F-ASR · 企业级语音识别服务

介绍 · 服务概览

F-ASR 是一套面向企业级业务系统的异步语音识别服务解决方案。通过统一的 RESTful API 接口，您只需上传一段音频文件或提供音频链接，服务端将自动完成格式预处理、长音频智能切分、模型推理与结果聚合等全流程处理，最终返回完整转写文本及带精确时间戳的 utterances 结构化结果，便于全文搜索、内容质检与多模态应用集成。

服务内核基于团队自研的 FASR-Paraformer-Large 非自回归语音识别模型，结合 VAD（语音活动检测）、CT-Punctuation（标点恢复）和 Speaker（说话人分离）等模块，支持数小时级长录音转写与多说话人自动分离。当前环境统一接入了优化后的 SeACoParaformer 配置，客户端无需关心具体模型参数与底层实现细节，只需按照统一的 REST 接口规范进行对接即可。

高性能识别

采用非自回归架构，推理速度相比传统自回归模型提升数倍，同时保持极低字错率（CER）。

长音频支持

集成高效 VAD 模块，可稳定处理数小时级长音频，自动识别静音与语音片段，避免截断。

多说话人分离

支持自动识别并分离不同说话人，为会议、访谈等多说话人场景提供精准的说话人标注。

工作原理

F-ASR 采用端到端的异步处理架构，将语音识别任务分解为多个阶段，每个阶段都有专门的优化策略。整个流程从音频输入到最终结果输出，经过格式标准化、语音检测、模型推理、后处理等多个环节，确保识别结果的准确性和完整性。

音频预处理与格式转换

录音文件首先通过 FFmpeg 进行格式检测与转换，统一转换为标准 16kHz 采样率 / 单声道 / WAV 格式。支持 wav、mp3、m4a、pcm、amr、webm、ogg、aac 等多种音频格式自动识别与转换。对于远程 URL 音频，服务端会智能下载文件头进行格式验证，避免下载完整大文件。

语音活动检测（VAD）与智能切片

转换后的音频进入模型推理引擎，由 VAD（Voice Activity Detection）模块进行语音活动检测。 VAD 能够自动识别静音段与语音段，将长音频智能切分为多个语音片段，有效过滤背景噪声和无效静音，为后续识别提供高质量的语音输入，同时避免因音频过长导致的显存溢出问题。

FASR-Paraformer-Large 非自回归解码

切分后的语音片段送入 FASR-Paraformer-Large 模型进行非自回归（Non-autoregressive）解码。相比传统逐字生成的自回归模型，Paraformer 采用并行解码机制，通过 CIF（Continuous Integrate-and-Fire）预测机制实现声学特征与文字的精准对齐，在保证识别精度的同时，推理速度提升数倍。

标点恢复与说话人识别

识别结果经过 CT-Punctuation 标点恢复模型，自动补充分号、句号、问号、感叹号等标点符号，显著提升文本可读性。同时，Speaker 模块对多说话人场景进行说话人分离与标注，为每个语音片段分配说话人标识（如 spk0、spk1），便于后续对话回放与内容分析。

结果聚合与结构化输出

所有处理结果进行时间戳对齐与聚合，生成完整转写文本（text）和句级结构化结果（utterances）。每个 utterance 包含精确的开始时间（start_time）、结束时间（end_time）、文本内容（text）和说话人信息（speaker），支持字级时间戳，可用于字幕生成、视频对齐等精细化应用。

服务类型

长语音识别

Long Audio Recognition

适用于已录制完成的音频文件，支持数小时级长音频转写。通过 RESTful API 上传文件或提供 URL，异步处理并返回完整转写文本和结构化结果。

适用场景：会议录音、访谈转写、媒体归档

实时语音识别

Real-time Speech Recognition

通过 WebSocket 连接实现低延迟的流式语音识别，支持实时音频流输入，即时返回部分和最终识别结果。适用于需要实时反馈的场景。

适用场景：实时字幕、语音助手、直播转写

核心能力

多源音频输入

Multi-source Audio Input

支持本地文件上传（multipart/form-data）与远程 URL 拉取（application/json）两种方式。服务端会根据输入类型自动选择合适的下载与预处理策略，对于远程 URL 仅下载文件头进行验证，特别适合超长音频场景。

支持格式：wav, mp3, m4a, pcm, amr, webm, ogg, aac

长音频处理

Long Audio Processing

依赖高效的 VAD（语音活动检测）模块与流式推理机制，可稳定处理数小时级长录音。 VAD 自动识别静音段与语音段，将长音频智能切分为多个片段，避免显存溢出，同时保证识别质量。

处理能力：支持 2 小时以上长音频，无时长限制

结构化输出

Structured Output

生成完整转写文本（text）和句级结构化结果（utterances）。每个 utterance 包含精确的开始时间、结束时间、文本内容和说话人信息，支持字级时间戳，可用于字幕生成、视频对齐等精细化应用。

时间精度：毫秒级（ms）时间戳

多说话人分离

Speaker Diarization

集成说话人分离（Speaker Diarization）模块，能够自动识别并分离不同说话人，为每个语音片段分配说话人标识（如 spk0、spk1），适用于会议、访谈、对话等多说话人场景，便于后续内容分析与对话回放。

识别能力：自动识别并标注多个说话人

智能缓存机制

Smart Caching

基于文件 SHA256 哈希值的智能缓存机制，相同音频文件无需重复识别。支持音频 URL 缓存复用，提升处理效率，降低计算成本。Redis 缓存加速状态查询，任务完成后自动清理。

缓存策略：基于文件哈希的去重缓存

异步任务处理

Asynchronous Processing

采用异步任务队列架构，上传接口立即返回任务 ID，实际识别在后台异步执行。客户端通过轮询状态接口获取任务进度和最终结果，支持高并发场景，避免长时间阻塞。

任务状态：PENDING → PROCESSING → SUCCESS/FAILED

性能与架构

系统架构

API 网关层

FastAPI 框架提供 RESTful API 接口，支持文件上传、URL 提交和状态查询。统一的请求验证、错误处理和响应格式化。

任务管理层

Redis 任务队列 + MySQL 持久化存储。任务状态实时更新，支持高并发任务调度。 Redis 缓存加速状态查询，任务完成后自动清理。

识别引擎层

自研的 FASR-Paraformer-Large 推理引擎。自动检测 GPU/CPU，优先使用 GPU 加速。模型常驻内存，减少冷启动开销。

硬件加速

自动检测系统 GPU/CPU 资源，优先在 GPU 上运行 FASR-Paraformer-Large 模型，充分利用硬件加速能力。支持 NVIDIA GPU（CUDA）和 CPU 两种运行模式，根据系统配置自动选择最优方案。

性能提升：GPU 模式下推理速度提升 3-5 倍

动态参数调整

根据音频时长动态调整 batch_size_s 参数，在长音频场景兼顾显存占用与处理吞吐。短音频使用较大 batch 提升效率，长音频降低 batch 避免显存溢出。

优化策略：自适应 batch 大小，平衡性能与资源

并发安全

识别过程采用锁机制保护，保证多任务并发执行时的数据安全与结果准确性。模型与热词常驻内存，避免重复加载，减少冷启动开销，提升响应速度。

并发能力：支持多任务并行处理

性能指标

识别准确率：在通用中文场景中字错率（CER）< 3%
处理速度：GPU 模式下实时率（RTF）< 0.3
响应时间：任务创建 < 100ms，状态查询 < 50ms

适用场景：企业级生产环境

适用场景

会议/访谈录音转写

Meeting & Interview Transcription

将长时间多说话人录音转成可检索的会议纪要。支持自动说话人分离，为每个发言标注说话人身份，便于后续内容检索、会议总结和决策追踪。适用于企业会议、客户访谈、学术研讨等场景。

多说话人分离长音频支持全文检索

内容生产与审核

Content Production & Review

为播客、电台、课程等音频内容生成文本底稿与质检数据。自动标点恢复提升文本可读性，支持关键词检索和内容审核，便于内容管理和版权保护。适用于音频内容平台、在线教育、媒体机构等。

标点恢复内容审核批量处理

字幕生成与对齐

Subtitle Generation & Alignment

利用精确到毫秒级的时间戳生成 SRT/VTT 字幕文件，支持视频字幕对齐和文字高亮跟随。字级时间戳可用于精细化剪辑和多模态展示，适用于视频制作、在线教育、直播回放等场景。

毫秒级精度字幕格式视频对齐

私有化语音入口

Private Speech Interface

在内网或断网环境下为各类业务系统提供稳定的语音转文本能力。完全离线化部署，音频数据无需出网，满足隐私与合规要求。适用于金融、医疗、政务等对数据安全要求高的行业。

离线部署数据安全 API 集成

媒体归档与检索

Media Archiving & Retrieval

对电台、播客、采访等海量音频资料进行结构化转写与索引，支持全文搜索与内容聚类。基于时间戳的精确检索，便于快速定位关键内容。适用于媒体资料库、知识管理系统等。

全文检索批量归档内容聚类

客服质检与分析

Customer Service QA

将客服通话录音转写为文本，支持关键词检索、情感分析和质量评估。说话人分离功能便于区分客服与客户对话，提升质检效率。适用于呼叫中心、在线客服等场景。

通话转写质量评估情感分析

长语音识别 API

通过 RESTful API 接口进行语音识别任务的创建与查询，适用于已录制完成的音频文件。

基础信息

Base URL：https://fasr.shanghaijiyue.com
API 前缀：/api/v1/asr
除上传接口外，统一使用 application/json

调用流程

上传音频（文件或 URL），获得 task_id
根据 task_id 轮询 /status/{task_id}
状态为 SUCCESS 时读取 text 与 utterances
状态为 FAILED 时根据 error_msg 做兜底/重试

上传音频文件（推荐）

通过表单方式上传本地音频文件，服务会自动上传到对象存储、创建任务并进入异步处理队列，适合大部分客户端/后端对接场景。

接口信息

• POST /api/v1/asr/upload
• 请求体为 multipart/form-data，仅包含音频文件字段。


POST /api/v1/asr/upload
Content-Type: multipart/form-data

curl -X POST "https://fasr.shanghaijiyue.com/api/v1/asr/upload" \
  -F "file=@audio.wav"

支持的音频格式： wav mp3 m4a pcm amr webm ogg aac

请求参数

参数名	类型	必填	说明
file	File	是	待识别的音频文件，支持 wav、mp3、m4a、pcm、amr、webm、ogg、aac 格式。

返回说明

字段名	类型	说明
code	integer	业务状态码，0 表示成功，-1 表示失败。
data.task_id	string	任务 ID，格式为 asr-{16位hex}，用于后续查询任务状态。
message	string	提示信息，成功时通常为 "task initialized successfully"，失败时包含错误详情。

返回示例（成功）

{
  "code": 0,
  "data": {
    "task_id": "asr-1234567890abcdef"
  },
  "message": "task initialized successfully"
}

返回示例（失败）

{
  "code": -1,
  "data": {
    "task_id": "asr-1234567890abcdef"
  },
  "message": "upload failed: TOS upload error"
}

注意事项

• 该接口会立即返回任务 ID，实际识别在后台异步执行，客户端需通过 /status/{task_id} 轮询任务状态。
• 如果文件已存在（通过 file_hash 匹配），服务会直接复用已有音频 URL，无需重复上传。
• 上传失败时仍会返回 task_id，但任务状态为 FAILED，可通过状态接口查询具体错误信息。

通过 URL 创建任务

如果音频已经存储在对象存储或 CDN，可以直接传入公网 URL，服务端只拉取文件头进行可访问性与类型校验，特别适合超过 2 小时的长音频。

接口信息

• POST /api/v1/asr/upload/url
• 请求体为 application/json，仅传递音频地址及可选的文件元信息。


POST /api/v1/asr/upload/url
Content-Type: application/json

curl -X POST "https://fasr.shanghaijiyue.com/api/v1/asr/upload/url" \
  -H "Content-Type: application/json" \
  -d '{
    "audio_url": "https://example.com/audio.wav",
    "file_name": "会议录音.wav",
    "file_type": ".wav",
    "file_hash": "abc123..."
  }'

请求参数

参数名	类型	必填	说明
audio_url	string	是	可直接访问的音频文件公网 URL，服务端会验证 URL 可访问性并下载文件头进行类型校验。
file_name	string	否	用于在管理端展示的人类可读文件名，如 "会议录音.wav"。
file_type	string	否	文件扩展名，如 ".wav"、".mp3"。不传则由服务端根据 URL 路径或文件头自动检测。
file_size	integer	否	音频文件大小（字节），用于更精确的进度评估。服务端会尝试从 HTTP 响应头获取，但客户端提供更准确。
file_hash	string	否	音频文件的 SHA256 哈希值。强烈建议提供，用于命中去重缓存，避免重复识别相同文件。

返回说明

字段名	类型	说明
code	integer	业务状态码，0 表示成功，-1 表示失败。
data.task_id	string	任务 ID，格式为 asr-{16位hex}，用于后续查询任务状态。
message	string	提示信息，成功时通常为 "task initialized successfully"，失败时包含错误详情。

返回示例（成功）

{
  "code": 0,
  "data": {
    "task_id": "asr-1234567890abcdef"
  },
  "message": "task initialized successfully"
}

返回示例（失败）

{
  "code": -1,
  "data": {
    "task_id": "asr-1234567890abcdef"
  },
  "message": "redis enqueue failed: Connection error"
}

// 或 URL 验证失败时：
{
  "code": -1,
  "message": "Invalid URL format: Missing scheme"
}

注意事项

• 该接口会立即返回任务 ID，后续通过 /status/{task_id} 查询最终识别结果。
• 服务端会验证 URL 可访问性，只下载文件头（最多 2MB）进行类型校验，不会下载完整文件，特别适合超长音频。
• 如果提供了 file_hash 且缓存中存在相同 hash 的识别结果，服务会直接复用，无需重新识别。
• 对于大文件（超过 10MB），如果客户端未提供 file_hash，服务端不会计算 hash，建议客户端预先计算并传入。
• URL 必须为公网可访问地址，支持 HTTP/HTTPS 协议，服务端会跟随重定向。

查询任务状态

所有识别均为异步任务，通过任务 ID 轮询状态接口即可获取进行中的进度以及最终结果。

接口信息

• GET /api/v1/asr/status/{task_id}
• 路径参数 task_id 为上传接口返回的任务 ID。


GET /api/v1/asr/status/{task_id}

curl "https://fasr.shanghaijiyue.com/api/v1/asr/status/asr-1234567890abcdef"

请求参数

参数名	类型	位置	说明
task_id	string	路径参数	必填，任务 ID，格式为 asr-{16位hex}，由上传接口返回。

返回说明

字段名	类型	说明
code	integer	业务状态码，0 表示成功，-1 表示失败（如任务不存在）。
data	object	任务数据对象，包含任务状态、识别结果等信息。当 code = -1 时，data 字段不存在。
message	string	提示信息，成功时通常为 "success"，失败时包含错误原因。

返回示例（成功 - 处理中）

{
  "code": 0,
  "data": {
    "task_id": "asr-1234567890abcdef",
    "status": "PROCESSING",
    "file_hash": "abc123...",
    "audio_url": "https://example.com/audio.wav",
    "file_name": "会议录音.wav",
    "file_type": ".wav",
    "file_size": 1024000
  },
  "message": "success"
}

返回示例（成功 - 识别完成）

{
  "code": 0,
  "data": {
    "task_id": "asr-1234567890abcdef",
    "status": "SUCCESS",
    "text": "完整识别文本……",
    "utterances": [
      {
        "start_time": 0,
        "end_time": 2000,
        "text": "第一句话。",
        "speaker": "spk0"
      },
      {
        "start_time": 2000,
        "end_time": 5000,
        "text": "第二句话。",
        "speaker": "spk1"
      }
    ],
    "processing_time_ms": 18352,
    "audio_duration_ms": 60213,
    "sample_rate": 16000,
    "file_hash": "abc123...",
    "audio_url": "https://example.com/audio.wav",
    "file_name": "会议录音.wav",
    "file_type": ".wav",
    "file_size": 1024000,
    "created_at": "2024-01-01T10:00:00",
    "updated_at": "2024-01-01T10:00:30"
  },
  "message": "success"
}

返回示例（失败）

{
  "code": -1,
  "message": "task not found"
}

// 或任务处理失败时：
{
  "code": 0,
  "data": {
    "task_id": "asr-1234567890abcdef",
    "status": "FAILED",
    "error_msg": "ASR processing failed: Model error",
    "file_hash": "abc123...",
    "audio_url": "https://example.com/audio.wav",
    "file_name": "会议录音.wav",
    "file_type": ".wav",
    "file_size": 1024000
  },
  "message": "success"
}

返回字段说明

字段名	类型	说明
code	integer	统一业务码，0 表示成功，-1 表示失败。
data.status	string	任务状态：PENDING（排队）、 PROCESSING（处理中）、 SUCCESS（成功）、 FAILED（失败）。
data.text	string	任务成功时返回的完整识别文本。
data.utterances	array	句级结果数组，每项包含 start_time、end_time、text 等信息。
data.processing_time_ms	integer	任务整体处理耗时（毫秒），便于监控与调优。
data.audio_duration_ms	integer	音频时长（毫秒），仅在任务成功时返回。
data.file_hash	string	音频文件的哈希值（如果可用），可用于结果去重与缓存命中。
data.audio_url	string	音频在存储中的访问地址（如对象存储 URL）。
data.file_name	string	任务记录中的文件名，通常来源于上传文件名或 file_name 字段。
data.file_type	string	文件类型 / 扩展名，例如 .wav、.mp3。
data.sample_rate	integer	识别时使用的采样率（Hz），通常为 16000。
message	string	补充说明信息，失败时通常包含错误原因。

注意事项

• 任务进行中时（PENDING 或 PROCESSING），优先从 Redis 缓存读取状态，响应速度快。
• 任务完成后（SUCCESS 或 FAILED），会从数据库读取完整信息，包括 text 和 utterances。
• 建议客户端采用轮询机制，每 2-5 秒查询一次，直到状态变为 SUCCESS 或 FAILED。
• 当 status = FAILED 时，error_msg 字段会包含失败原因，可用于错误处理和重试逻辑。
• 任务完成后，Redis 缓存会被删除，后续查询直接从数据库读取。

实时语音识别 API

通过 WebSocket 连接实现低延迟的流式语音识别，支持实时音频流输入，即时返回识别结果。

基础信息

WebSocket URL：wss://fasr.shanghaijiyue.com/api/v1/asr/realtime
协议：WebSocket (RFC 6455)
数据格式：MessagePack 二进制格式（推荐）或 JSON 文本格式
音频格式：16kHz 采样率 / 16bit (int16) / 单声道 / PCM

功能特性

• 实时音频流识别，低延迟反馈
• 支持部分结果（partial）和最终结果（final）
• 自动标点符号添加（如果模型可用）
• 连接唯一标识，便于管理
• 自动超时断开（默认 5 分钟无活动）
• 最大连接数限制（默认 200）

建立 WebSocket 连接

客户端通过 WebSocket 连接到服务端，连接成功后即可开始发送音频数据进行实时识别。

连接信息

• 连接地址：wss://fasr.shanghaijiyue.com/api/v1/asr/realtime
• 连接成功后，服务端会立即发送连接成功消息，包含 connection_id
• 如果超过最大连接数，服务端会返回 1008 状态码并关闭连接

// 建立 WebSocket 连接
const ws = new WebSocket('wss://fasr.shanghaijiyue.com/api/v1/asr/realtime');

ws.onopen = () => {
    console.log('WebSocket 连接已建立');
};

ws.onmessage = (event) => {
    // 处理服务端消息
    const message = JSON.parse(event.data);
    console.log('收到消息:', message);
};

ws.onerror = (error) => {
    console.error('WebSocket 错误:', error);
};

ws.onclose = () => {
    console.log('WebSocket 连接已关闭');
};

消息格式

客户端 → 服务端

客户端需要持续发送音频数据（二进制格式）：

• 格式：int16 PCM 音频数据（二进制）
• 采样率：16000 Hz
• 块大小：建议每次发送 100-200ms 的音频数据（1600-3200 字节）

// 使用 Web Audio API 采集音频并发送
const audioContext = new AudioContext({ sampleRate: 16000 });
const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });
const source = audioContext.createMediaStreamSource(mediaStream);
const processor = audioContext.createScriptProcessor(4096, 1, 1);

processor.onaudioprocess = (e) => {
    if (ws.readyState === WebSocket.OPEN) {
        const inputData = e.inputBuffer.getChannelData(0);
        // 转换为 int16
        const int16Data = new Int16Array(inputData.length);
        for (let i = 0; i < inputData.length; i++) {
            int16Data[i] = Math.max(-32768, Math.min(32767, inputData[i] * 32768));
        }
        // 发送二进制数据
        ws.send(int16Data.buffer);
    }
};

source.connect(processor);
processor.connect(audioContext.destination);

服务端 → 客户端

服务端会发送以下类型的消息：

1. 连接成功消息

{
  "status": "connected",
  "connection_id": "ws-1234567890abcdef",
  "message": "连接成功，可以开始发送音频数据"
}

2. 部分识别结果（Partial）

{
  "status": "partial",
  "text": "你好世界",
  "connection_id": "ws-1234567890abcdef"
}

3. 最终识别结果（Final）

{
  "status": "final",
  "text": "你好，世界！",
  "connection_id": "ws-1234567890abcdef"
}

4. 错误消息

{
  "status": "error",
  "message": "错误描述信息",
  "connection_id": "ws-1234567890abcdef"
}

5. 超时消息

{
  "status": "timeout",
  "message": "连接超时：5分钟无活动",
  "connection_id": "ws-1234567890abcdef"
}

调用示例

以下示例展示了如何建立 WebSocket 连接、发送音频数据和处理识别结果。

1. 建立 WebSocket 连接

// 建立 WebSocket 连接
const ws = new WebSocket('wss://fasr.shanghaijiyue.com/api/v1/asr/realtime');

ws.onopen = () => {
    console.log('WebSocket 连接已建立');
};

ws.onmessage = (event) => {
    // 处理服务端消息
    const message = JSON.parse(event.data);
    console.log('收到消息:', message);
};

ws.onerror = (error) => {
    console.error('WebSocket 错误:', error);
};

ws.onclose = () => {
    console.log('WebSocket 连接已关闭');
};

2. 处理识别结果消息

ws.onmessage = (event) => {
    let message;
    
    // 尝试解析消息（支持 MessagePack 或 JSON）
    try {
        if (event.data instanceof ArrayBuffer) {
            // 二进制数据，可能是 MessagePack
            // 如果没有 msgpack 库，转换为文本后解析 JSON
            message = JSON.parse(new TextDecoder().decode(event.data));
        } else {
            // 文本数据，直接解析 JSON
            message = JSON.parse(event.data);
        }
    } catch (e) {
        console.error('解析消息失败:', e);
        return;
    }
    
    const { status, text, connection_id, message: msg } = message;
    
    switch (status) {
        case 'connected':
            console.log('连接成功:', connection_id);
            break;
        case 'partial':
            console.log('[部分结果]', text);
            // 更新 UI 显示部分结果
            document.getElementById('result').textContent = text;
            break;
        case 'final':
            console.log('[最终结果]', text);
            // 更新 UI 显示最终结果
            document.getElementById('result').textContent = text;
            break;
        case 'error':
            console.error('错误:', msg);
            break;
        case 'timeout':
            console.warn('超时:', msg);
            break;
    }
};

3. 采集音频并发送

// 获取麦克风权限并开始采集音频
async function startRecording() {
    try {
        // 获取麦克风权限
        const mediaStream = await navigator.mediaDevices.getUserMedia({
            audio: {
                sampleRate: 16000,
                channelCount: 1,
                echoCancellation: true,
                noiseSuppression: true
            }
        });
        
        // 创建音频上下文
        const audioContext = new AudioContext({ sampleRate: 16000 });
        const source = audioContext.createMediaStreamSource(mediaStream);
        
        // 创建音频处理节点
        const processor = audioContext.createScriptProcessor(4096, 1, 1);
        
        processor.onaudioprocess = (e) => {
            if (ws.readyState === WebSocket.OPEN) {
                const inputData = e.inputBuffer.getChannelData(0);
                
                // 转换为 int16
                const int16Data = new Int16Array(inputData.length);
                for (let i = 0; i < inputData.length; i++) {
                    int16Data[i] = Math.max(-32768, Math.min(32767, inputData[i] * 32768));
                }
                
                // 发送二进制音频数据
                ws.send(int16Data.buffer);
            }
        };
        
        source.connect(processor);
        processor.connect(audioContext.destination);
        
        console.log('开始录音');
    } catch (error) {
        console.error('启动录音失败:', error);
    }
}

// 连接成功后开始录音
ws.onopen = () => {
    console.log('WebSocket 连接已建立');
    startRecording();
};

4. 完整客户端类（可选）

如果需要更完整的封装，可以使用以下客户端类：

class RealtimeASRClient {
    constructor(wsUrl) {
        this.wsUrl = wsUrl;
        this.ws = null;
        this.audioContext = null;
        this.mediaStream = null;
        this.processor = null;
        this.connectionId = null;
    }
    
    async connect() {
        return new Promise((resolve, reject) => {
            this.ws = new WebSocket(this.wsUrl);
            this.ws.onopen = () => resolve();
            this.ws.onmessage = (e) => this.handleMessage(e.data);
            this.ws.onerror = (e) => reject(e);
            this.ws.onclose = () => console.log('连接已关闭');
        });
    }
    
    handleMessage(data) {
        let msg = data instanceof ArrayBuffer 
            ? JSON.parse(new TextDecoder().decode(data))
            : JSON.parse(data);
        const { status, text, connection_id } = msg;
        if (status === 'connected') this.connectionId = connection_id;
        if (status === 'partial') this.onPartialResult(text);
        if (status === 'final') this.onFinalResult(text);
    }
    
    async startRecording() {
        this.mediaStream = await navigator.mediaDevices.getUserMedia({
            audio: { sampleRate: 16000, channelCount: 1 }
        });
        this.audioContext = new AudioContext({ sampleRate: 16000 });
        const source = this.audioContext.createMediaStreamSource(this.mediaStream);
        this.processor = this.audioContext.createScriptProcessor(4096, 1, 1);
        this.processor.onaudioprocess = (e) => {
            if (this.ws.readyState === WebSocket.OPEN) {
                const data = e.inputBuffer.getChannelData(0);
                const int16 = new Int16Array(data.length);
                for (let i = 0; i < data.length; i++) {
                    int16[i] = Math.max(-32768, Math.min(32767, data[i] * 32768));
                }
                this.ws.send(int16.buffer);
            }
        };
        source.connect(this.processor);
        this.processor.connect(this.audioContext.destination);
    }
    
    disconnect() {
        if (this.processor) this.processor.disconnect();
        if (this.audioContext) this.audioContext.close();
        if (this.mediaStream) this.mediaStream.getTracks().forEach(t => t.stop());
        if (this.ws) this.ws.close();
    }
    
    onPartialResult(text) { console.log('[部分]', text); }
    onFinalResult(text) { console.log('[最终]', text); }
}

// 使用
const client = new RealtimeASRClient('wss://fasr.shanghaijiyue.com/api/v1/asr/realtime');
client.connect().then(() => client.startRecording());

连接管理

连接唯一标识

每个连接都会获得一个唯一的 connection_id，格式为：ws-{16位十六进制字符串}

示例：ws-1234567890abcdef

连接超时

• 默认超时时间：5 分钟
• 超时行为：如果连接在 5 分钟内没有收到任何音频数据（即客户端没有发送数据，用户没有说话），服务端会自动断开连接
• 重要说明：超时是基于数据接收，不是连接时长。只要持续发送音频数据，连接可以一直保持
• 超时消息：断开前会发送超时消息

最大连接数

• 默认限制：200 个并发连接
• 超过限制：新连接会被拒绝，返回 1008 状态码
• 配置调整：可通过配置文件调整 WS_MAX_CONNECTIONS

查询连接统计

接口：GET /api/v1/asr/realtime/stats

// 查询连接统计
fetch('/api/v1/asr/realtime/stats')
    .then(res => res.json())
    .then(data => {
        console.log('连接统计:', data);
        // {
        //   "code": 0,
        //   "data": {
        //     "total_connections": 15,
        //     "active_connections": 12,
        //     "max_connections": 200,
        //     "timeout_minutes": 5
        //   }
        // }
    });

注意事项

• 音频数据格式必须为 int16 PCM，采样率 16000 Hz，单声道
• 建议每次发送 100-200ms 的音频数据，过小会增加网络开销，过大可能影响实时性
• 服务端优先使用 MessagePack 二进制格式，如果未安装 msgpack 则回退到 JSON 格式
• 客户端发送音频时不需要传递 connection_id，服务端通过 WebSocket 连接对象自动识别
• 如果 5 分钟没有说话（没有传数据），连接会自动断开。只要持续发送音频数据，连接可以一直保持
• 建议实现自动重连机制，监听 onclose 事件，使用指数退避策略重连

核心功能一览

KeyListenASR 在网关层统一封装了多种 ASR 服务与模型，实现「同一套接口，多种识别后端」的能力，便于业务方按场景灵活切换。

统一任务管理

所有识别请求都会落到统一的任务表中，通过 task_id 串联起上传、排队、执行与结果落库的全链路信息。

Redis + 数据库加速

任务进行中时优先从 Redis 读取状态；当任务结束后再回源数据库获取完整文本与 utterances，状态 TTL 默认 1 天。

逐句结构化结果

除完整文本外，还会返回带时间戳、说话人等信息的 utterances 数组，更便于做字幕、对话回放等业务。

长音频友好

上传 URL 模式支持超长音频；通过 file_hash 缓存命中机制，同一文件重复识别时可直接复用历史结果。

模型介绍 · 核心技术架构

F-ASR 采用先进语音识别模型体系，包括面向长音频转写的 FASR-Paraformer-Large、面向实时识别的 FASR-Streaming，以及用于标点恢复的 CT-Transformer。我们在这些模型基础上进行了深度集成与工程优化，以满足不同场景下的语音识别需求。

一、FASR-Paraformer-Large 通用长音频版

FASR-Paraformer-Large 是当前中文 ASR 领域中面向长录音转写场景的工业级方案之一，专为处理数小时级别的长音频文件而设计。

核心架构

•
Paraformer 非自回归架构：不同于传统逐字生成模型，Paraformer 采用非自回归（Non-autoregressive）结构，支持并行解码，在保证识别精度的同时，推理速度相比传统自回归模型可提升数倍。
•
CIF 预测机制：通过连续积分发放（Continuous Integrate-and-Fire, CIF）机制，实现声学特征与文字的精准对齐，有效提升长语句和口语化表达下的稳定性。

模型优势

•
高精度转写： Large 级别的超大参数量，在会议、演讲、访谈、客服等通用中文场景中具备极低字错率（CER），对不同口音和中等强度的背景噪声具有良好鲁棒性。
•
长音频支持：集成高效 VAD（语音活动检测）模块，可自动识别静音与语音片段，平滑处理数小时级别长音频，避免截断或重复识别。
•
智能标点预测：内置 CT-Punctuation 标点恢复模型，自动补充分号、句号、问号、感叹号，显著提升文本可读性，减少后处理工作量。
•
精准时间戳：支持字级（Character-level）与句级（Sentence-level）时间戳，可用于视频字幕对齐、文字高亮跟随和精细化剪辑。

技术指标

语言支持：中文普通话，支持中英混读。

采样率： 16,000 Hz（16k）。

部署方式：完全离线化/本地化部署，音频数据无需出网，满足隐私与合规要求。

输出内容：完整转写文本、带时间戳的句子列表（utterances）、以及处理耗时等诊断信息。

实时识别：实时语音识别基于 Sherpa-ONNX 引擎，支持 WebSocket 流式传输，采样率 16kHz，支持部分结果和最终结果返回，自动标点符号添加。

典型应用场景

1.
会议录音转写：快速将长达数小时的会议录音转成带标点的会议纪要，配合 utterances 时间戳支持逐句回放。
2.
音视频字幕生成：基于高精度时间戳自动生成 SRT/VTT 字幕文件，节省人工对齐时间。
3.
媒体归档与检索：对电台、播客、采访等海量音频资料进行结构化转写与索引，支持全文搜索与内容聚类。
4.
私有化语音助手：在内网或断网环境下提供高可靠语音输入能力，为知识库检索、工单系统等上游模块提供文本入口。

二、FASR-Streaming 流式语音识别模型

FASR-Streaming 是我们自研的流式语音识别框架之一，其核心目标是解决传统语音识别模型在“速度”和“准确度”之间难以平衡的痛点。

核心功能

•
流式音频实时转换：能够边输入音频边输出文字，无需等待用户说完一整句话，感知延迟通常在 200ms 以内。
•
中英双语混合识别：针对中英文混杂的口语场景（如："这个 ASR 效果很不错"）进行了专项训练，支持无缝切换。
•
端点检测 (Endpointing)：内置语义与能量感知能力，能自动判断用户是否说话结束，并触发断句。

工作原理

•
SAN-M 架构： Paraformer 采用了受自注意力机制（Self-Attention）启发的 SAN-M 结构。它能更有效地提取语音信号中的长距离特征，相比传统 RNN 架构，识别准确率显著提升。
•
CIF (Continuous Integrate-and-Fire) 机制：这是该模型的"灵魂"。CIF 是一种连续集成放电机制，它能精准地预测音频流中每个汉字或单词的边界。通过累加声学特征能量，当能量达到阈值时，"放电"并输出一个字符，从而实现极低延迟的流式输出。
•
非自回归（Non-Autoregressive）推理：与传统模型"逐字预测"不同，Paraformer 可以一次性并行处理多个声学特征块，极大降低了对 CPU 的计算压力，使其在普通低功耗服务器上也能高效运行。

三、CT-Transformer 标点恢复模型

CT-Transformer 是专为语音识别后处理设计的文本建模模型，用于将 ASR 输出的"纯文字流"转化为符合人类阅读习惯的格式化文本。

核心功能

•
全自动标点预测：根据上下文语境，自动在文本中插入逗号、句号、问号和感叹号。
•
文本规范化：通过理解语义，修复语音识别中可能出现的断句错误。
•
语气识别：能够识别疑问句、陈述句等不同语式，并匹配正确的结束符号。

工作原理

•
序列标注架构 (Sequence Labeling)：模型将标点恢复视为一个标签分类任务。它会对每一个输入的汉字进行分析，预测该字后面应该跟随哪种标点符号（或无符号）。
•
Transformer 语义建模：利用 Transformer 的多头注意力机制，模型可以捕捉到整句话的全局语义信息。例如，即使疑问词出现在句首，模型也能在句末准确预测出问号。
•
CT (Controlled Time-delay) 技术：这是该模型的核心优势。传统的 Transformer 会等待全句结束才处理，而 CT 技术引入了"可控时延"，允许模型在处理流式文本时，只观察有限的后续文字就能做出准确判断。这使得标点恢复可以随着语音识别的节奏实时或近实时地完成。
•
稀疏注意力机制：针对长文本进行了优化，通过稀疏计算降低了内存占用，保证了在处理超长语音转写时的稳定性。

模型协同原理

在实际运行中，Paraformer 与 CT-Transformer 构成了"听觉"与"逻辑加工"的关系：

1.
感知阶段 (Paraformer)：模拟人类耳朵，将持续震动的声波信号切割、提取特征，并转化为一个个原始的汉字/字符。
2.
加工阶段 (CT-Transformer)：模拟大脑的语法中枢。由于 ASR 吐出的文字是没有停顿和逻辑标识的"死文字"， CT-Transformer 通过语义预测，在文字序列中注入"呼吸感"（标点），从而使整段输出具备可读性和逻辑性。

这两者的结合，实现了从"原始波形"到"结构化文本"的高效、低成本转换。

在此页面

介绍 · 服务概览

工作原理

服务类型

核心能力

性能与架构

适用场景

介绍 · 服务概览

工作原理

服务类型

核心能力

性能与架构

系统架构

适用场景

长语音识别 API

上传音频文件（推荐）

通过 URL 创建任务

查询任务状态

实时语音识别 API

建立 WebSocket 连接

消息格式

调用示例

连接管理

注意事项

核心功能一览

模型介绍 · 核心技术架构

一、FASR-Paraformer-Large 通用长音频版

二、FASR-Streaming 流式语音识别模型

三、CT-Transformer 标点恢复模型

模型协同原理

上传音频文件

提示