跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt

Use this file to discover all available pages before exploring further.

SenseAudio 的语音识别(Automatic Speech Recognition, ASR)是专为多场景设计的全栈式语音识别解决方案。从极致的实时响应到深度的语义理解与音频质量检测,SenseASR 系列涵盖了从基础识别到智能内容生成的全链路需求,旨在帮助开发者快速构建高性能的语音应用。

核心特性

极致响应与超低延迟

深度优化音频处理链路,确保快速响应:
  • 低延迟体验:优化流式识别链路,实现”所见即所言”,首屏反馈延迟极低。
  • 高性能并发支撑:成熟的分布式架构,能够稳定承载大规模并发请求,保障业务高峰期的服务连续性。

语义智能识别

突破传统的逐字识别,融入深度的语义理解:
  • 意图感知:识别过程中同步理解语义,能够精准捕获说话人的核心意图。
  • 语境逻辑优化:结合上下文进行语义识别,有效提升在复杂表述或特定行业语境下的识别准确度。

智能内容整理与书面化

针对口语转文字的痛点,提供自动优化技术:
  • 智能整理:自动识别并剔除口语中的”呃、啊、那个”等冗余词与语气词;自动识别改口、重复,直接整合最终结论。
  • 逻辑条理化:支持自动分段、修正词汇偏差,将杂乱的口语转化为逻辑清晰、排版规范的书面化文档。

音频质量监测

支持在识别链路中对音频进行评估,确保数据处理的可靠性:
  • 多维质量报告:评估噪声分数,噪声种类等。
  • 噪声分析:对音频噪声进行专业分析,帮助开发者筛选或评估原始音频文件的质量。

应用场景

办公协作与数字化会议

在日常会议、讲座培训或多方谈话场景下,实现语音内容的同步记录与归档。支持标准话语的稳定识别,确保会议纪要的准确性与时效性。
  • 核心价值:提供高精度的通用识别能力,支持长音频文件的一键识别,助力企业知识资产的沉淀。

深度采编与内容生产

针对媒体访谈、演讲稿录入、自媒体创作等专业场景,提供基于大模型的文本精修服务。自动处理口语冗余,将原始素材直接转化为可阅读的专业文稿。
  • 核心价值:实现口语转书面表达,自动剔除语气词并进行逻辑分段,减少人工二次整理工作。

智能指令与设备控制

为智能家居、车载系统、穿戴设备提供高效的语音反馈能力。在接收到用户的短语音输入后,系统迅速返回识别结果,驱动下游指令执行。
  • 核心价值:实现低延迟的任务反馈,保障在车载交互或智能家居控制中的流畅体验。

教育培训与学术整理

构建智能教学助手,对课堂教学、在线讲座或语言学习音频进行文字化处理。支持多语种环境下的精准识别,辅助生成学习笔记与教学参考。
  • 核心价值:支持专业词汇的准确识别,帮助学生或研究人员快速提取核心知识点,实现学习路径的个性化管理。

模型对比

能力senseaudio-asr-lite-1.5-260319senseaudio-asr-1.5-260319senseaudio-asr-pro-1.5-260319senseaudio-asr-deepthink-1.5-260319
基础识别
流式返回
说话人分离
字级时间戳
句级时间戳
翻译
热词增强
智能编辑收敛
多语言支持

接口概览

SenseAudio 提供两种接口协议,满足不同场景的语音识别需求:

HTTP 统一接口

基于标准 HTTP 协议的语音识别服务,适用于离线音频文件识别场景。
接口路径接口类型说明支持模型
/v1/audio/transcriptionsPOST多模型语音识别统一接口,支持文件上传、流式返回、说话人分离、字级时间戳、翻译等功能Lite、Standard、Pro、DeepThink
核心特性:
  • 支持 4 种识别模型,灵活选择速度与精度
  • 支持 wav、mp3、ogg、pcm、flac、aac、m4a 等多种音频格式
  • 提供 JSON、Text、Verbose JSON、SSE 流式等多种响应格式
  • 兼容 OpenAI Audio API 风格,易于迁移

WebSocket 实时接口

基于 WebSocket 协议的全双工实时语音识别,适用于实时语音交互场景。
接口路径接口类型说明支持模型
/ws/v1/audio/transcriptionsWebSocket实时语音流识别,支持边录边转、VAD 自动断句、智能指令翻译DeepThink
核心特性:
  • 全双工通信,音频上传与文本下发同步进行,延迟极低
  • 内置 VAD(语音活动检测),自动识别语音停顿并智能断句
  • 支持智能指令转译
  • 支持多种语言的实时识别

接口选择指南

根据业务场景选择合适的接口:
场景推荐接口理由
录音文件识别HTTP 统一接口支持多种文件格式,功能丰富(说话人分离、情感分析等)
实时语音对话WebSocket 实时接口低延迟,边说边识别,适合交互场景
批量音频处理HTTP 统一接口稳定可靠,支持并发请求
智能语音助手WebSocket 实时接口实时反馈,支持智能指令解析
会议记录(离线)HTTP 统一接口(Pro 模型)支持说话人分离、字级时间戳
会议记录(实时)WebSocket 实时接口实时生成会议纪要

开始使用

1

获取 API Key

前往 API 密钥 创建您的 API Key。
2

选择调用方式

离线文件场景使用 语音识别转写;实时对话场景使用 WebSocket 实时识别
3

处理识别结果

根据业务需要读取文本、时间戳、说话人分离或翻译结果。

相关资源

语音识别转写

离线文件识别统一接口。

WebSocket 实时识别

全双工实时语音识别协议详解。

音频质量检测

噪声评分与噪声类型分析。

语音识别历史

按会话或 API Key 查询识别记录。