合成声音软件-合成声音软件文档介绍内容-移动阿里云

产品优势

音色个性化支持中英文等多种语言，多种音色，多种场景及多种风格的语音合成声音，并可支持低数据量的离线合成声音定制。听感自然经海量音频数据训练，使合成音真实饱满、抑扬顿挫、富有表现力，MOS评分达到业内领先水准。深度定制根据...

功能发布记录

新增接口说明新增合成声音 新增发音人：粤语女声佳佳、粤语女声桃子、日语男声智也、日语男声智香、美式英语Annie、印尼语女声Indah。文学场景资讯声音：艾笑、艾树、艾茹、艾倩。直播场景：柜姐、Stella等。新增接口说明优化停顿控制 ...

接口说明

新推出超高清合成声音 持续新增多个超高清合成声音，可提供超高音质合成效果，采样率高达48 kHz，无损声音，纤毫毕现。超高清样音试听：知琪（zhiqi）知厨（zhichu）更多合成效果可至语音合成产品详情页进行体验。功能介绍支持输出PCM、...

SSML标记语言介绍

break time="700ms"/绵州风物总堪怜 break time="2s"/speak 音频效果：SSML-speak10.mp3 emotion 描述 emotion 用于多情感声音合成，该标签是可选标签，不支持多情感声音合成的发音人使用情感标签会导致合成请求报错。语法 emotion ...

实时语音合成-通义千问

实时语音合成-通义千问提供低延迟、流式文本输入与流式音频输出能力，提供多种拟人音色，支持多语种/方言合成，可在同一音色下输出多语种，并能自适应调节语气，流畅处理复杂文本。核心功能实时生成高保真语音，支持中英等多语种自然发声 ...

SSML标记语言说明

break time="700ms"/绵州风物总堪怜 break time="2s"/speak 音频效果：SSML-speak10.mp3 emotion 描述 emotion 用于多情感声音合成，该标签是可选标签，不支持多情感声音合成的发音人使用情感标签会导致合成请求报错。语法 emotion ...

Sovits语音生成模型实现AI克隆声音

使用API进行语音合成 GPT-Sovits API支持推理类API接口/tts，可以实现由文本合成声音的功能。更多支持的API列表及更多信息，请参见 GPT-Sovits github项目中的API定义。本文以使用Postman工具部署并调用接口/tts 为例，演示如何基于GPT-...

SDK和API概览

离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、长文本语音合成、声音事件检测、说话人识别、性别识别、语种识别 ...

版权保护中心下发补正修改指南

核实是否为升级版：申请表中应勾选“修改”，勾选“修改软件须经原权利人授权”，勾选“原有软件已经登记”，注明“原登记号”，并在“修改（翻译或合成）软件作品说明”填写新增了什么功能，做了什么修改。并需提交原软件的著作权人出具的...

数字人平台发音人列表

本文档为您介绍虚拟数字人开放平台支持的智能语音合成的声音列表。详细的声音列表也可以从虚拟数字人开放平台控制台的资产中心查看，并支持在线调节与试听。多情感（荐）名称 Voice值描述支持的情感（emotion category）试听知哲 ...

音色列表

语音合成支持使用以下模型：模型名称模型特点支持语种是否支持声音复刻音频格式音频采样率 CosyVoice-v3-Flash大模型专属定制音色，支持情感控制，表现力更优。中文、英文支持 pcm、wav、mp3、opus 8kHz、16kHz、22.05kHz、24kHz、...

产品公共FAQ

语音合成SDK播放声音有播放完成的监听吗，确认下有没有播放语音模块？音频数据必须连续发送吗？音频数据发送中断后，为什么还会收到服务器发回的数据？初始化失败的可能原因？开始识别失败的可能原因？为何开始识别后没有识别结果？计费类 ...

CosyVoice声音复刻API

声音复刻与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节，语音合成请参见实时语音合成-CosyVoice/Sambert。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。音频要求高质量的输入...

声音复刻

关键原则：声音复刻时，target_model（驱动音色的语音合成模型）必须与后续调用语音合成接口时指定的语音合成模型一致，否则会合成失败。示例使用本地音频文件 voice.mp3 进行声音复刻，运行代码时，请注意替换。Python#DashScope SDK 版本...

声音设计

声音设计与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音设计的参数和接口细节，语音合成请参见实时语音合成-通义千问。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问。语言支持说明声音设计服务支持多语言音色...

iOS SDK

常见问题使用在线合成语音iOS SDK，写入文件播放声音是杂音，是什情况？首先需要确认合成音频格式（PCM、WAV、MP3），如存储的音频流是MP3格式，但播放器不支持该格式音频就会出现杂音的状况，建议更换一下播放软件重试。同时也有用户出现...

直播推流移动端播放没有声音而PC端正常

ffmpeg –i 视频存放地址-map 0:1 sound.wav 使用一些音频分析软件对wav文件做波形分析，Windows下可以参考CoolEdit软件，Mac下可以参考Sound Studio软件。以Sound Studio为例，将sound.wav打开，观察声音波形（其中上波形为左声道，下波形...

模型上架与更新

声音设计语音合成 2025-12-16 qwen3-tts-vd-realtime-2025-12-16（快照版）通义千问实时语音合成发布全新快照版模型，可使用声音设计生成的音色进行低延迟、高稳定性的实时合成；支持多语言输出；能根据文本自动调节语气，并优化复杂...

SDK FAQ

duration":2959}} 语音合成关注首包延迟，即从发送合成请求开始，到收到第一个语音包为止，消耗的时间。日志中搜索关键字 send，找到这条日志和紧随其后的一条收到语音包的日志。记录的时间差即为SDK端记录的首包延时。如下日志延时为...

错误码查询

语音合成/CosyVoice声音复刻服务错误码状态码状态消息原因和处理方法 40001000 QUOTA_ERROR 检查是否开通服务。40001001 VOICE_LIMIT_ERROR 音色克隆数量超限，目前默认1000个。40001002 VOICE_PREFIX_ERROR 音色名前缀不满足规则：不为...

【废弃】查询旧画布场景声音录音文件列表

当该声音为语音合成时不返回 ScriptWaveform object ScriptContent string 场景声音名称测试 ScriptWaveformId string 场景声音录音 ID 444df4-009c-4791-a720-e7ac4f9821a1 FileName string 录音文件名称 SHUKE_ZA_ol_32_邀约.wav ...

iOS SDK

本文介绍了如何使用阿里云离线语音合成服务提供的iOS NUI SDK，包括下载安装SDK和语音包、SDK关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取AccessKey ID和 AccessKey ...

3D数字人视频合成用户指南

3.1.1 语音合成的编辑功能文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。同时文本输入框集成了情绪化音色的编辑能力，可在编辑器中选中某段...

Web SDK 发布说明

修复外接麦克风插拔导致没声音问题。V 1.3.3（2020-09-02）服务端录制支持静默功能（见主调接口 3、21 中的 silentRecord 参数）。V 1.3.2（2020-08-25）修复客户端录制视频高度不一致，导致拼接视频后高度小的视频下方出现黑块的问题。...

2D数字人视频合成用户指南

2.2 声音点击声音，可选择数字人播报的音色并调整音色对应的音量、语速和音调，目前平台提供四个类别的音色：男声、女声、童声以及方言。2.3 背景图点击背景图，可选择平台内置的背景，包括透明背景；同时可上传自定义背景，上传时请...

2D仿真数字人形象定制拍摄指南

声音：底噪低、声音清晰、音画同步。表现力：模特拍摄状态正式、自然，表情动作不僵硬。说明说明：如模特无丰富口播视频拍摄经验，建议采用下图坐姿拍摄，更容易保持自然状态、不僵硬。正式拍摄确保现场安静，无关人员清场后即可正式开拍...

产品功能发布记录

新增上传人物视频可复刻产出数字人公模，也可上传相关语音声音素材，生成复刻声音。编辑器中新增语音、同源素材一键应用全局功能；3D数字人支持选择使用、输入智能体人设信息自定义创建智能体，智能体也可引入使用知识库进行知识配置，调试...

2D视频数字人形象定制指南

三、录制前准备 3.1 场地说明选择无噪声的拍摄场地，尤其注意避开拍摄当天周围有施工计划的环境，拍摄的时候现场不要有其他的声音，如果需要同步训练视频素材中的音频，请对音频做降噪处理，保证模特声音清晰，无杂音干扰、无背景音。...

视频翻译

语音（口播）级翻译在字幕级翻译的基础上还支持：音色复刻使用原说话人的音色进行字幕播报一次翻译任务支持输出多目标语种视频完成音频回填在文字翻译的基础上增加了声音维度，保持了原声的真实性和情感传递，提升观众体验。...

视频翻译

语音（口播）级翻译在字幕级翻译的基础上还支持：音色复刻使用原说话人的音色进行字幕播报一次翻译任务支持输出多目标语种视频完成音频回填在文字翻译的基础上增加了声音维度，保持了原声的真实性和情感传递，提升观众体验。...

简介与SDK代码示例

重要 CosyVoice声音复刻产生的语音，只能在语音合成CosyVoice大模型中使用，请勿在其它语音合成中使用，否则会合成失败。服务调用方式：声音复刻服务当前仅支持通过调用API方式使用。计费说明声音复刻为免费服务，复刻成功后，使用文字...

iOS SDK

本文档提供了语音合成CosyVoice iOS SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-CosyVoice。模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-plus ...

Android SDK

本文档提供了语音合成CosyVoice Android SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-CosyVoice。模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-...

Python SDK

本文介绍语音合成CosyVoice Python SDK的参数和接口细节。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。前提条件已开通服务并 ...

Java SDK

本文介绍语音合成CosyVoice Java SDK的参数和接口细节。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。前提条件已开通服务并获取...

模型功能动态

12月10日语音合成语音合成模型CosyVoice支持声音复刻用户仅需提供10~20秒的音频，即可迅速生成高度相似且听感自然的定制声音。详情请参见声音复刻。11月日期功能模块功能点功能说明 11月7日数据中心数据处理支持画布编排借助...

WebSocket API

服务端接收文本片段后自动进行分句：完整语句立即合成，此时客户端能够接收到服务端返回的音频不完整语句缓存至完整后合成，语句不完整时服务端不返回音频当发送 finish-task指令时，服务端会强制合成所有缓存内容。通知服务端结束任务...

产品简介

产品介绍语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。产品优势高度拟人化：采用阿里通义语音实验室...

计费项

阿里云百炼语音模型服务按照语音时长计费按量计费（后付费）语音合成语音合成按照调用次数计费按量计费（后付费）或资源包（预付费）长文本语音合成按照合成字数计费语音分析声音事件检测按照录音时长计费说话人识别按照调用...

实时语音合成-CosyVoice/Sambert

语音合成，又称文本转语音（Text-to-Speech，TTS），是将文本转换为自然语音的技术。该技术基于机器学习算法，通过学习大量语音样本，掌握语言的韵律、语调和发音规则，从而在接收到文本输入时生成真人般自然的语音内容。核心功能实时生成...