SenseAudio 平台介绍 - SenseAudio 开放平台

核心能力

文本生成

S2 / S2-Lite / S2-Flash 旗舰多模态模型，支持深度推理、视觉问答、函数调用与流式输出。

语音合成

富有情感的 AI 语音、低延迟流式输出、精细参数控制。

语音识别

文件转写与实时录音，支持结构化理解与说话人区分。

自定义音色

音色克隆与文生音色，统一通过 voice_id 调用。

音乐生成

基于提示词生成歌词，并进一步生成完整歌曲。

图片生成

同步与异步调用，支持常规尺寸与高分辨率图片生成。

视频生成

支持文生视频与参考图生视频，1080P 高清画面输出。

智能体 (Agent)

构建实时语音对话式智能体，支持自定义角色与音色。

快速接入

快速接入指南

5 分钟完成首个请求。

模型列表

查看全部可调用模型与计费信息。

API 参考

浏览全部 API 端点与参数说明。

常见问题

查看高频问题与处理建议。

关键命名说明

model：模型名称，例如 senseaudio-tts-1.5-260319。
voice_id：音色标识，用于在 TTS 请求中指定系统、克隆或文生音色。
file_id：上传文件后的唯一标识，常用于音色克隆、语音识别。
task_id / id：异步任务标识，用于图片、音乐、视频等异步任务状态查询。

联系我们

如需技术支持或商务咨询，请发送邮件至 senseaudio.support@sensetime.com。

快速接入指南