SenseASR 语音识别(HTTP)
语音识别
语音识别转写
音频文件转写,支持多种 ASR 模型
POST
SenseASR 语音识别(HTTP)
Documentation Index
Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt
Use this file to discover all available pages before exploring further.
说明
基于 HTTP 协议的语音识别服务,兼容 OpenAI Audio API 风格,便于从现有系统迁移。- 接口地址:
https://api.senseaudio.cn/v1/audio/transcriptions - Content-Type:
multipart/form-data - 鉴权方式:Bearer Token,详见 快速接入
- 模型矩阵:Lite / Standard / Pro / DeepThink,能力差异详见 语音识别介绍
- 实时识别:低延迟场景请使用 WebSocket 实时识别
Authorizations
Bearer 鉴权头,格式为
Bearer SENSEAUDIO_API_KEY,其中 SENSEAUDIO_API_KEY 为您的 API Key。Body
multipart/form-data音频文件(wav / mp3 / ogg / flac / aac / m4a / mp4 等),≤ 10 MB。
模型名称。可选值:
senseaudio-asr-lite-1.5-260319、senseaudio-asr-1.5-260319、senseaudio-asr-pro-1.5-260319、senseaudio-asr-deepthink-1.5-260319。音频内容语言代码(ISO-639-1,部分 ISO-639-3),如
zh / en / ja;不设置则自动检测。响应格式:
json / text / verbose_json。是否流式返回(lite 不支持)。
自动标点(仅 asr / pro,deepthink 静默忽略)。
说话人分离(仅 asr / pro)。
最大说话人数 1–20,配合说话人分离使用(仅 asr-pro 支持)。
时间戳粒度:
word = 字级 / segment = 句级(仅 asr / pro)。翻译目标语言代码(lite 不支持,pro / deepthink 支持)。
热词增强,英文逗号分隔(仅 lite)。
识别模式:
auto / record_only(仅 deepthink 流式模式生效)。缩写词自动替换。
Response
200 — application/json
识别出的文本内容(所有
response_format 均返回)。音频时长(秒),
verbose_json 下返回。音频元信息,
verbose_json / 流式下返回。分段结果(需
response_format=verbose_json 或 timestamp_granularities[]=segment)。字级结果,需设置
timestamp_granularities[]=word。响应格式详解
JSON(默认)
Text
纯文本,Content-Type: text/plain。
Verbose JSON
流式响应 (SSE)
Content-Type: text/event-stream
| 字段 | 说明 |
|---|---|
delta.text | 本次返回的增量文本 |
finish_reason | null(进行中)/ stop(完成)/ error(错误) |
语言支持
language 用于指定音频内容的语言(留空则自动检测);target_language 将识别结果翻译为另一语言。
各模型参数支持
| 模型 | language | target_language |
|---|---|---|
senseaudio-asr-lite-1.5-260319 | ✅ | ❌ |
senseaudio-asr-1.5-260319 | ✅ | ❌ |
senseaudio-asr-pro-1.5-260319 | ✅ | ✅ |
senseaudio-asr-deepthink-1.5-260319 | ✅ | ✅ |
senseaudio-asr-lite-1.5-260319 支持语种
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|---|---|---|---|---|
zh | 中文 | en | 英文 | yue | 粤语 |
ja | 日文 | ko | 韩文 | vi | 越南语 |
id | 印尼语 | th | 泰语 | ms | 马来语 |
tl/fil | 菲律宾语 | ar | 阿拉伯语 | hi | 印地语 |
bg | 保加利亚语 | hr | 克罗地亚语 | cs | 捷克语 |
da | 丹麦语 | nl | 荷兰语 | et | 爱沙尼亚语 |
fi | 芬兰语 | el | 希腊语 | hu | 匈牙利语 |
ga | 爱尔兰语 | lv | 拉脱维亚语 | lt | 立陶宛语 |
mt | 马耳他语 | pl | 波兰语 | pt | 葡萄牙语 |
ro | 罗马尼亚语 | sk | 斯洛伐克语 | sl | 斯洛文尼亚语 |
sv | 瑞典语 |
senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|---|---|---|---|---|
ar | 阿拉伯语 | yue | 粤语 | zh | 中文 |
nl | 荷兰语 | en | 英文 | fr | 法语 |
de | 德语 | id | 印尼语 | it | 意大利语 |
ja | 日文 | ko | 韩文 | ms | 马来语 |
pt | 葡萄牙语 | ru | 俄语 | es | 西班牙语 |
th | 泰语 | tr | 土耳其语 | ur | 乌尔都语 |
vi | 越南语 |
senseaudio-asr-deepthink-1.5-260319 支持语种
同senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 表,用于翻译输出。
各模型调用示例
senseaudio-asr-lite-1.5-260319
轻量级模型。热词增强示例:senseaudio-asr-1.5-260319
标准模型。字级 / 句级时间戳示例:senseaudio-asr-pro-1.5-260319
专业版。说话人分离 + 字级时间戳 + 翻译:senseaudio-asr-deepthink-1.5-260319
深度理解模型。翻译示例:错误处理
错误时返回非 200 状态码,响应体:| HTTP | code | 说明 |
|---|---|---|
| 400 | invalid | 参数错误 |
| 429 | rate_limit_error | 请求频率过高 |
| 500 | internal_error | 服务端错误 |
相关指南
授权
格式:Bearer <API_KEY>
请求体
multipart/form-data
音频文件(wav/mp3/ogg/flac/aac/m4a/mp4 等),≤10MB
模型名称
可用选项:
senseaudio-asr-lite-1.5-260319, senseaudio-asr-1.5-260319, senseaudio-asr-pro-1.5-260319, senseaudio-asr-deepthink-1.5-260319 语言代码(ISO-639-1/3),如 zh/en/ja,不设置会自动检测
示例:
"zh"
响应格式
可用选项:
json, text, verbose_json 是否流式返回(lite 不支持)
自动标点(仅 asr/pro)
说话人分离(仅 asr/pro)
最大说话人数 1-20(仅 asr-pro)
必填范围:
1 <= x <= 20示例:
4
word=字级 / segment=句级(仅 asr/pro)
可用选项:
word, segment 翻译目标语言代码(lite 不支持)
示例:
"en"
热词增强,逗号分隔(仅 lite)
示例:
"张三,李四,项目Alpha"
识别模式(仅 deepthink 流式)
可用选项:
auto, record_only 缩写词自动替换