语音合成介绍 - SenseAudio 开放平台

SenseAudio 语音合成服务以 70+ 官方精品音色 为基础，配合 音色克隆、文生音色 与统一的 音色管理 接口，形成从音色生产到语音输出的一体化能力。所有系统音色或自定义音色最终都通过唯一的 voice_id 传入语音合成 API 使用，支持精细化控制与流式输出，适用于各类智能交互与内容生产场景。

语音合成核心特性

强大、富有情感的语音合成

基于深度学习技术，提供接近真人的语音合成体验：

情感丰富：支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
风格多样：覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
多音字控制：支持自定义中文多音字的读音。（仅限 senseaudio-tts-1.5-260319）
公式朗读：支持口语化朗读公式（需以 LaTeX 格式输入公式）。

模型版本说明

SenseAudio 提供多版本语音合成模型：

senseaudio-tts-1.5-260319：情绪表现力更强，读音准确率更高，支持自定义多音字读音。（支持克隆音色及文生音色的文本转语音功能）

毫秒级流式响应

专为实时交互设计的高性能架构：

超低延迟：首包延迟 < 500ms，满足实时对话需求。
流式输出：支持 Server-Sent Events (SSE) 与 WebSocket 双协议，边合成边播放。

高并发支撑

万卡集群：轻松应对亿级调用，保障业务高峰期服务连续性。

精细化语音控制

提供丰富的参数调节，满足个性化需求：

参数	说明	范围	步进值	典型应用
speed	语速调节	[0.5, 2.0]	0.01	0.8 (抒情) / 1.5 (快速)
vol	音量调节	[0.01, 10.0]	0.01	环境适配 / 重点强调
pitch	声调调节	[-12, 12]	1	角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率，适配不同终端设备：

格式：mp3 (推荐)、wav、pcm、flac
采样率：32000Hz（推荐）；其他支持 8000Hz、16000Hz、22050Hz、24000Hz、44100Hz

音色能力矩阵

SenseAudio 在 TTS 之外，还提供一整套音色生态能力，帮助您获得开箱即用或高度定制的音色。

能力	场景	入口
系统音色	开箱即用的官方精品音色（70+）	音色列表
音色克隆	录制 3–30 秒参考音频复刻个人音色	自定义音色
文生音色	通过自然语言描述生成全新音色	自定义音色

文生音色与音色克隆共用同一组音色槽位，槽位数量由套餐等级决定。

接入流程

查询可用音色

通过查询可用音色接口获取当前账号可调用的 voice_id 列表。

选择或生成音色

在音色广场挑选系统音色，或通过克隆 / 文生流程生成自定义音色，确认 voice_id。

合成语音

在语音合成 API 中传入 voice_id 即可；需要边生成边播放时，改用流式语音合成 API 或者 WebSocket 语音合成 API。

接入建议

首次接入：建议先阅读快速接入指南，使用可直接生成 output.mp3 的示例快速完成首个请求。
同步合成：适合标准语音合成场景，参考语音合成 API。
流式合成：适合实时对话与边生成边播放场景，参考流式语音合成 API 或者 WebSocket 语音合成 API。

语音合成 HTTP

同步语音合成接口参数详解。

语音合成 WebSocket

WebSocket 协议的完整说明与示例。

音色列表

系统音色清单与套餐可调用范围。

自定义音色

音色克隆与文生音色的使用流程。

Documentation Index

​语音合成核心特性

​强大、富有情感的语音合成

​模型版本说明

​毫秒级流式响应

​高并发支撑

​精细化语音控制

​音频规格

​音色能力矩阵

​接入流程

​接入建议

​相关资源

语音合成 HTTP

语音合成 WebSocket

音色列表

自定义音色

语音合成核心特性

强大、富有情感的语音合成

模型版本说明

毫秒级流式响应

高并发支撑

精细化语音控制

音频规格

音色能力矩阵

接入流程

接入建议

相关资源