SenseAudio 的语音识别(Automatic Speech Recognition, ASR)是专为多场景设计的全栈式语音识别解决方案。从极致的实时响应到深度的语义理解与音频质量检测,SenseASR 系列涵盖了从基础识别到智能内容生成的全链路需求,旨在帮助开发者快速构建高性能的语音应用。Documentation Index
Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt
Use this file to discover all available pages before exploring further.
核心特性
极致响应与超低延迟
深度优化音频处理链路,确保快速响应:- 低延迟体验:优化流式识别链路,实现”所见即所言”,首屏反馈延迟极低。
- 高性能并发支撑:成熟的分布式架构,能够稳定承载大规模并发请求,保障业务高峰期的服务连续性。
语义智能识别
突破传统的逐字识别,融入深度的语义理解:- 意图感知:识别过程中同步理解语义,能够精准捕获说话人的核心意图。
- 语境逻辑优化:结合上下文进行语义识别,有效提升在复杂表述或特定行业语境下的识别准确度。
智能内容整理与书面化
针对口语转文字的痛点,提供自动优化技术:- 智能整理:自动识别并剔除口语中的”呃、啊、那个”等冗余词与语气词;自动识别改口、重复,直接整合最终结论。
- 逻辑条理化:支持自动分段、修正词汇偏差,将杂乱的口语转化为逻辑清晰、排版规范的书面化文档。
音频质量监测
支持在识别链路中对音频进行评估,确保数据处理的可靠性:- 多维质量报告:评估噪声分数,噪声种类等。
- 噪声分析:对音频噪声进行专业分析,帮助开发者筛选或评估原始音频文件的质量。
应用场景
办公协作与数字化会议
在日常会议、讲座培训或多方谈话场景下,实现语音内容的同步记录与归档。支持标准话语的稳定识别,确保会议纪要的准确性与时效性。- 核心价值:提供高精度的通用识别能力,支持长音频文件的一键识别,助力企业知识资产的沉淀。
深度采编与内容生产
针对媒体访谈、演讲稿录入、自媒体创作等专业场景,提供基于大模型的文本精修服务。自动处理口语冗余,将原始素材直接转化为可阅读的专业文稿。- 核心价值:实现口语转书面表达,自动剔除语气词并进行逻辑分段,减少人工二次整理工作。
智能指令与设备控制
为智能家居、车载系统、穿戴设备提供高效的语音反馈能力。在接收到用户的短语音输入后,系统迅速返回识别结果,驱动下游指令执行。- 核心价值:实现低延迟的任务反馈,保障在车载交互或智能家居控制中的流畅体验。
教育培训与学术整理
构建智能教学助手,对课堂教学、在线讲座或语言学习音频进行文字化处理。支持多语种环境下的精准识别,辅助生成学习笔记与教学参考。- 核心价值:支持专业词汇的准确识别,帮助学生或研究人员快速提取核心知识点,实现学习路径的个性化管理。
模型对比
| 能力 | senseaudio-asr-lite-1.5-260319 | senseaudio-asr-1.5-260319 | senseaudio-asr-pro-1.5-260319 | senseaudio-asr-deepthink-1.5-260319 |
|---|---|---|---|---|
| 基础识别 | ✅ | ✅ | ✅ | ✅ |
| 流式返回 | ❌ | ❌ | ❌ | ✅ |
| 说话人分离 | ❌ | ❌ | ✅ | ❌ |
| 字级时间戳 | ❌ | ✅ | ✅ | ❌ |
| 句级时间戳 | ❌ | ✅ | ✅ | ❌ |
| 翻译 | ❌ | ❌ | ✅ | ✅ |
| 热词增强 | ✅ | ❌ | ❌ | ❌ |
| 智能编辑收敛 | ❌ | ❌ | ❌ | ✅ |
| 多语言支持 | ✅ | ✅ | ✅ | ✅ |
接口概览
SenseAudio 提供两种接口协议,满足不同场景的语音识别需求:HTTP 统一接口
基于标准 HTTP 协议的语音识别服务,适用于离线音频文件识别场景。| 接口路径 | 接口类型 | 说明 | 支持模型 |
|---|---|---|---|
/v1/audio/transcriptions | POST | 多模型语音识别统一接口,支持文件上传、流式返回、说话人分离、字级时间戳、翻译等功能 | Lite、Standard、Pro、DeepThink |
- 支持 4 种识别模型,灵活选择速度与精度
- 支持 wav、mp3、ogg、pcm、flac、aac、m4a 等多种音频格式
- 提供 JSON、Text、Verbose JSON、SSE 流式等多种响应格式
- 兼容 OpenAI Audio API 风格,易于迁移
WebSocket 实时接口
基于 WebSocket 协议的全双工实时语音识别,适用于实时语音交互场景。| 接口路径 | 接口类型 | 说明 | 支持模型 |
|---|---|---|---|
/ws/v1/audio/transcriptions | WebSocket | 实时语音流识别,支持边录边转、VAD 自动断句、智能指令翻译 | DeepThink |
- 全双工通信,音频上传与文本下发同步进行,延迟极低
- 内置 VAD(语音活动检测),自动识别语音停顿并智能断句
- 支持智能指令转译
- 支持多种语言的实时识别
接口选择指南
根据业务场景选择合适的接口:| 场景 | 推荐接口 | 理由 |
|---|---|---|
| 录音文件识别 | HTTP 统一接口 | 支持多种文件格式,功能丰富(说话人分离、情感分析等) |
| 实时语音对话 | WebSocket 实时接口 | 低延迟,边说边识别,适合交互场景 |
| 批量音频处理 | HTTP 统一接口 | 稳定可靠,支持并发请求 |
| 智能语音助手 | WebSocket 实时接口 | 实时反馈,支持智能指令解析 |
| 会议记录(离线) | HTTP 统一接口(Pro 模型) | 支持说话人分离、字级时间戳 |
| 会议记录(实时) | WebSocket 实时接口 | 实时生成会议纪要 |
开始使用
获取 API Key
前往 API 密钥 创建您的 API Key。
选择调用方式
离线文件场景使用 语音识别转写;实时对话场景使用 WebSocket 实时识别。
相关资源
语音识别转写
离线文件识别统一接口。
WebSocket 实时识别
全双工实时语音识别协议详解。
音频质量检测
噪声评分与噪声类型分析。
语音识别历史
按会话或 API Key 查询识别记录。