SenseAudio 语音合成服务以 70+ 官方精品音色 为基础,配合 音色克隆、文生音色 与统一的 音色管理 接口,形成从音色生产到语音输出的一体化能力。所有系统音色或自定义音色最终都通过唯一的Documentation Index
Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt
Use this file to discover all available pages before exploring further.
voice_id 传入 语音合成 API 使用,支持精细化控制与流式输出,适用于各类智能交互与内容生产场景。
语音合成核心特性
强大、富有情感的语音合成
基于深度学习技术,提供接近真人的语音合成体验:- 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
- 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
- 多音字控制:支持自定义中文多音字的读音。(仅限 senseaudio-tts-1.5-260319)
- 公式朗读:支持口语化朗读公式(需以 LaTeX 格式输入公式)。
模型版本说明
SenseAudio 提供多版本语音合成模型:- senseaudio-tts-1.5-260319:情绪表现力更强,读音准确率更高,支持自定义多音字读音。(支持克隆音色及文生音色的文本转语音功能)
毫秒级流式响应
专为实时交互设计的高性能架构:- 超低延迟:首包延迟 < 500ms,满足实时对话需求。
- 流式输出:支持 Server-Sent Events (SSE) 与 WebSocket 双协议,边合成边播放。
高并发支撑
- 万卡集群:轻松应对亿级调用,保障业务高峰期服务连续性。
精细化语音控制
提供丰富的参数调节,满足个性化需求:| 参数 | 说明 | 范围 | 步进值 | 典型应用 |
|---|---|---|---|---|
| speed | 语速调节 | [0.5, 2.0] | 0.01 | 0.8 (抒情) / 1.5 (快速) |
| vol | 音量调节 | [0.01, 10.0] | 0.01 | 环境适配 / 重点强调 |
| pitch | 声调调节 | [-12, 12] | 1 | 角色变声 / 情绪微调 |
音频规格
支持多种主流音频格式与采样率,适配不同终端设备:- 格式:mp3 (推荐)、wav、pcm、flac
- 采样率:32000Hz(推荐);其他支持 8000Hz、16000Hz、22050Hz、24000Hz、44100Hz
音色能力矩阵
SenseAudio 在 TTS 之外,还提供一整套音色生态能力,帮助您获得开箱即用或高度定制的音色。文生音色与音色克隆共用同一组音色槽位,槽位数量由套餐等级决定。
接入流程
查询可用音色
通过 查询可用音色 接口获取当前账号可调用的
voice_id 列表。选择或生成音色
在 音色广场 挑选系统音色,或通过克隆 / 文生流程生成自定义音色,确认
voice_id。合成语音
在 语音合成 API 中传入
voice_id 即可;需要边生成边播放时,改用 流式语音合成 API 或者 WebSocket 语音合成 API。接入建议
- 首次接入:建议先阅读 快速接入指南,使用可直接生成
output.mp3的示例快速完成首个请求。 - 同步合成:适合标准语音合成场景,参考 语音合成 API。
- 流式合成:适合实时对话与边生成边播放场景,参考 流式语音合成 API 或者 WebSocket 语音合成 API。
相关资源
语音合成 HTTP
同步语音合成接口参数详解。
语音合成 WebSocket
WebSocket 协议的完整说明与示例。
音色列表
系统音色清单与套餐可调用范围。
自定义音色
音色克隆与文生音色的使用流程。