跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt

Use this file to discover all available pages before exploring further.

SenseAudio 语音合成服务以 70+ 官方精品音色 为基础,配合 音色克隆文生音色 与统一的 音色管理 接口,形成从音色生产到语音输出的一体化能力。所有系统音色或自定义音色最终都通过唯一的 voice_id 传入 语音合成 API 使用,支持精细化控制与流式输出,适用于各类智能交互与内容生产场景。

语音合成核心特性

强大、富有情感的语音合成

基于深度学习技术,提供接近真人的语音合成体验:
  • 情感丰富:支持开心、悲伤、生气、撒娇等 10+ 种情感表达。
  • 风格多样:覆盖客服、广告、播客、有声书、新闻资讯等专业场景。
  • 多音字控制:支持自定义中文多音字的读音。(仅限 senseaudio-tts-1.5-260319)
  • 公式朗读:支持口语化朗读公式(需以 LaTeX 格式输入公式)。

模型版本说明

SenseAudio 提供多版本语音合成模型:
  • senseaudio-tts-1.5-260319:情绪表现力更强,读音准确率更高,支持自定义多音字读音。(支持克隆音色及文生音色的文本转语音功能)

毫秒级流式响应

专为实时交互设计的高性能架构:
  • 超低延迟:首包延迟 < 500ms,满足实时对话需求。
  • 流式输出:支持 Server-Sent Events (SSE) 与 WebSocket 双协议,边合成边播放。

高并发支撑

  • 万卡集群:轻松应对亿级调用,保障业务高峰期服务连续性。

精细化语音控制

提供丰富的参数调节,满足个性化需求:
参数说明范围步进值典型应用
speed语速调节[0.5, 2.0]0.010.8 (抒情) / 1.5 (快速)
vol音量调节[0.01, 10.0]0.01环境适配 / 重点强调
pitch声调调节[-12, 12]1角色变声 / 情绪微调

音频规格

支持多种主流音频格式与采样率,适配不同终端设备:
  • 格式mp3 (推荐)、wavpcmflac
  • 采样率32000Hz(推荐);其他支持 8000Hz16000Hz22050Hz24000Hz44100Hz

音色能力矩阵

SenseAudio 在 TTS 之外,还提供一整套音色生态能力,帮助您获得开箱即用或高度定制的音色。
能力场景入口
系统音色开箱即用的官方精品音色(70+)音色列表
音色克隆录制 3–30 秒参考音频复刻个人音色自定义音色
文生音色通过自然语言描述生成全新音色自定义音色
文生音色与音色克隆共用同一组音色槽位,槽位数量由套餐等级决定。

接入流程

1

查询可用音色

通过 查询可用音色 接口获取当前账号可调用的 voice_id 列表。
2

选择或生成音色

音色广场 挑选系统音色,或通过克隆 / 文生流程生成自定义音色,确认 voice_id
3

合成语音

语音合成 API 中传入 voice_id 即可;需要边生成边播放时,改用 流式语音合成 API 或者 WebSocket 语音合成 API

接入建议

相关资源

语音合成 HTTP

同步语音合成接口参数详解。

语音合成 WebSocket

WebSocket 协议的完整说明与示例。

音色列表

系统音色清单与套餐可调用范围。

自定义音色

音色克隆与文生音色的使用流程。