制作合成音频-制作合成音频文档介绍内容-移动阿里云

模型列表

视频口型替换：声动人像VideoRetalk 基于人物视频和音频，适合短视频制作、视频翻译等场景。视频风格转换：视频风格重绘可将视频转换为日式漫画、美式漫画等风格。向量文本向量将文本转换成一组可以代表文字的数字，用于搜索、聚类、...

模型上架与更新

实时语音识别-Fun-ASR/Gummy/Paraformer 实时语音合成 2025-09-22 qwen3-tts-flash-realtime、qwen3-tts-flash-realtime-2025-09-18 通义最新的实时语音合成大模型，不仅拥有17种高表现力的拟人音色，且能低延迟高稳定地合成音频；...

功能特性

功能说明杜比音效杜比音效制作：支持将普通音频转码为杜比格式（音频编码格式为AC3、EAC3），配合阿里云播放器SDK可以在杜比设备上开启杜比专属音效。本功能按杜比音效制作计费。杜比音效兼容：支持杜比格式兼容为普通格式，实现杜比...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音...即将多模态对话输出的多个文本片段流式发送给语音合成服务，语音合成服务流式返回合成音频。这种调用方式可以显著的提升系统的交互速度。参考接口：百炼CosyVoice 语音合成 Java SDK。

Python SDK

v2",#语音合成说话人 aformat="wav",#合成音频格式 sample_rate=24000,#合成音频采样率 volume=50,#合成音频的音量 speech_rate=0,#合成音频语速 pitch_rate=0,#合成音频的音调)sdk.waitForComplete()print('finished,task_id:{}'.format...

Python SDK

on_close,callback_args=[],)#发送文本消息 sdk.startStreamInputTts(voice="longxiaochun",#语音合成说话人 aformat="wav",#合成音频格式 sample_rate=24000,#合成音频采样率 volume=50,#合成音频的音量 speech_rate=0,#合成音频语速 ...

Android SDK（旧版）

SpeechSynthesizerCallback：语音合成回调接口，在获得合成音频数据、发生错误等事件发生时会触发回调。您需要实现此接口，在回调方法中加入自己的处理逻辑。调用顺序创建NlsClient实例。定义SpeechSynthesizerCallback实现类，按业务需求...

Python SDK

sample_rate int 16000 否指定合成音频的采样率（单位：Hz），建议使用模型默认采样率（参见模型列表），如果不匹配，服务会进行必要的升降采样处理。volume int 50 否指定合成音频的音量，取值范围是0~100。rate float 1.0 否指定合成...

客户端事件

专属音色声音复刻功能定制的音色：仅限通义千问3-TTS-VC-Realtime系列模型声音设计功能定制的音色：仅限通义千问3-TTS-VD-Realtime系列模型 session.language_type string 指定合成音频的语种，默认为 Auto。Auto：适用无法确定文本的...

Java SDK

class PlaybackRunnable implements Runnable {/设置音频格式，请根据实际自身设备，合成音频参数和平台选择配置/这里选择24k、16bit、单通道，建议客户根据选用的模型采样率情况和自身设备兼容性选择其他采样率和格式 private AudioFormat...

Java SDK

本文介绍语音合成Sambert Java SDK...format enum WAV 否指定合成音频的编码格式，支持下列格式：SpeechSynthesisAudioFormat.PCM SpeechSynthesisAudioFormat.WAV SpeechSynthesisAudioFormat.MP3 SpeechSynthesisAudioFormat 通过“import ...

开通授权

根据合成音频的品质，选择SDK类型为标准版离线语音合成SDK 或精品版离线语音合成SDK。选填项目场景描述后，单击确定。步骤三：配置SDK 在我的所有项目页面，找到步骤二中创建的项目，单击右侧操作栏中的项目功能配置。下载SDK和...

Java SDK

class PlaybackRunnable implements Runnable {/设置音频格式，请根据实际自身设备，合成音频参数和平台选择配置/这里选择24k、16bit、单通道，建议客户根据选用的模型采样率情况和自身设备兼容性选择其他采样率和格式 private AudioFormat...

移动端Android SDK

注意：opus 和 raw-opus的区别是opus格式的每一包数据都有额外ogg封装（RFC 7845）frame_size int 否 合成音频的帧大小，取值范围：10 20 40 60 100 120 默认值为60，单位ms 只在合成音频格式为opus或raw-opus时生效 volume int 否合成...

WebSocket协议说明

重要由于流式文本语音合成服务端会分句合成音频，因此服务端存在未满足分句条件的缓存文本，需要在文本流发送结束后立刻发送此指令，否则有可能丢失文本。Payload为空。示例代码如下：{"header":{"message_id":"05450bf69c53413f8d88aed1...

Node.js SDK

1 Buffer类型，合成音频数据。completed 语音合成完成。1 String类型，完成信息。closed 连接关闭。0 无。failed 错误。1 String类型，错误信息。示例：let tts=new Nls.SpeechSynthesizer({ url:URL,appkey:APPKEY,token:TOKEN })tts.on(...

实时多模态交互协议（WebSocket）

注意：opus 和 raw-opus的区别是opus格式的每一包数据都有额外ogg封装（RFC 7845）frame_size int 否 合成音频的帧大小，取值范围：10 20 40 60 100 120 默认值为60，单位ms 只在合成音频格式为opus或raw-opus时生效 volume int 否合成...

音频采集和播放说明

支持的帧长度：10,20,40,60,100,120，默认值为60，单位ms，只在合成音频格式为opus或raw-opus时生效查看语音格式基本说明常见语音格式名词说明：采样率：比如 8000 Hz（8K Hz）、16000 Hz(16K Hz)代表每秒8000个或16000个采样点。...

RTOS C SDK

speech_rate int 否 合成音频的语速，取值范围50-200，表示默认语速的50%-200%，默认100。pitch_rate int 否 合成音频的声调，取值范围50-200，默认100。frame_size int 否 合成音频的帧大小，单位为毫秒。仅在downstream.audio_format为...

微信小程序

1 Buffer类型，合成音频数据。completed 语音合成完成。1 String类型，完成信息。closed 连接关闭。0 无。failed 错误。1 String类型，错误信息。示例：let tts=new SpeechSynthesizer({ url:app.globalData.URL,appkey:app.globalData....

WebSocket协议说明

重要由于流式文本语音合成服务端会分句合成音频，因此服务端存在未满足分句条件的缓存文本，需要在文本流发送结束后立刻发送此指令，否则有可能丢失文本。Payload为空。示例代码如下：{"header":{"message_id":"05450bf69c53413f8d88aed1...

EndToEndRealTimeDialog-语音实时对话

当 ttsModelId 为 cosyvoice-v2 时：指定合成音频的语速，取值范围：0.5~2。0.5：表示默认语速的 0.5 倍速。1：表示默认语速。默认语速是指模型默认输出的合成语速，语速会因发音人不同而略有不同。约每秒钟 4 个字。2：表示默认语速的 2 ...

WebSocket协议说明

在使用wav/mp3格式合成音频时，由于文件按照流式合成，因此只在第一帧中包含当前任务的文件头信息。JavaScript示例代码可以参考长文本语音合成JS播放示例使用JavaScript实现流式语音合成协议并播放。请在打开index.html前首先替换app.js...

服务端Python SDK

param state:新的对话状态"""pass def on_speech_audio_data(self,data:bytes)-None:"""合成音频数据回调:param data:音频数据"""pass def on_error(self,error)-None:"""发生错误时调用此方法。param error:错误信息"""pass def on_...

Python SDK

专属音色声音复刻功能定制的音色：仅限通义千问3-TTS-VC-Realtime系列模型声音设计功能定制的音色：仅限通义千问3-TTS-VD-Realtime系列模型 language_type str 指定合成音频的语种，默认为 Auto。Auto：适用无法确定文本的语种或文本...

iOS SDK

stopStreamInputTts:停止语音合成/*结束合成任务，通知服务端流入文本数据发送完毕，阻塞等待服务端处理完成，并返回所有合成音频。阻塞超时可以通过start接口中的complete_waiting_ms设置*@return：参见错误码:...

Linux C++ SDK

speech_rate int 否 合成音频的语速，取值范围50-200，表示默认语速的50%-200%，默认100。pitch_rate int 否 合成音频的声调，取值范围50-200，默认100。frame_size int 否 合成音频的帧大小，单位为毫秒。仅在downstream.audio_format为...

实时语音合成-CosyVoice/Sambert

CosyVoice 将合成音频保存为文件 Python#coding=utf-8 import dashscope from dashscope.audio.tts_v2 import*#若没有将API Key配置到环境变量中，需将your-api-key替换为自己的API Key#dashscope.api_key="your-api-key"#模型#不同模型...

Java SDK

本文介绍 DashScope Java SDK 调用实时语音合成-通义千问时的关键接口与请求参数。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问。前期准备 DashScope Java SDK 版本需要不低于2.21.16。快速开始 server commit模式/...

iOS SDK

stopStreamInputTts:停止语音合成/*结束合成任务，通知服务端流入文本数据发送完毕，阻塞等待服务端处理完成，并返回所有合成音频。阻塞超时可以通过start接口中的complete_waiting_ms设置*@return：参见错误码:...

语音合成-通义千问

通义千问3-TTS-Flash 通义千问-TTS 接入方式 Java/Python SDK、RESTful API 流式输出支持流式输入不支持 合成音频格式 wav 流式输出 Base64 编码的 pcm 合成音频采样率 24kHz 时间戳不支持语言中文（普通话、北京、上海、四川、南京...

服务端事件

session.language_type string 指定合成音频的语种，默认为 Auto。Auto：适用无法确定文本的语种或文本包含多种语言的场景，模型会自动为文本中的不同语言片段匹配各自的发音，但无法保证发音完全精准。指定语种：适用于文本为单一语种的...

移动端iOS Lite SDK

合成音频数据回调 public var onSynthesizedData:((UnsafeMutablePointer UInt8,Int32)-Void)?websocket连接关闭 public var onWebsocketClosed:((_code:Int,_reason:String?Void)?MultiModalRequestParam 请求参数类请求参数均支持...

Python SDK

参数说明：无返回值：无代码示例说明本示例中将合成的音频保存在文件中，如果您需要播放音频且对实时性要求较高，建议使用流式播放，即边接收语音数据边播放，减少延时。本示例中使用SDK内置的默认外网访问服务端URL，如果您使用阿里云...

移动端Android Lite SDK

用户需要重新启动或者结束对话*@param timeout 超时时间*/fun onSpeechTimeout(timeout:Long)/*对话过程中的异常信息*@param errorInfo 异常信息*/fun onErrorReceived(errorCode:Int,errorMessage:String)/*合成tts音频回调*@param bytes ...

语音合成（Qwen-TTS）

language_type string（可选）指定合成音频的语种，默认为 Auto。Auto：适用无法确定文本的语种或文本包含多种语言的场景，模型会自动为文本中的不同语言片段匹配各自的发音，但无法保证发音完全精准。指定语种：适用于文本为单一语种的...

实时音视频翻译-通义千问

["text","audio"]:同时返回翻译文本和合成音频（推荐）。["text"]:仅返回翻译文本。modalities":["text","audio"]if self.audio_enabled else["text"],*({"voice":self.voice} if self.audio_enabled and self.voice else {}),"input_...

RESTful API

功能介绍支持如下设置：合成音频的格式：.pcm、.wav、.mp3。合成音频的采样率：8000 Hz、16000 Hz。多种发音人。可设置语速、语调、音量。数据获取方式：轮询方式、回调方式。重要建议使用流式合成机制：随着TTS合成效果不断提升，算法的...

SSML标记语言说明

合成时长超出背景音时长时，背景音将随合成音频循环播放（如果背景音不是WAV格式，可使用ffmpeg将其转为WAV格式：ffmpeg-i 输入音频-acodec pcm_s16le-ac 1-ar 16000 目标.wav）。标签内的URL如果包含XML的特殊字符，需要做字符转义。位...

SSML标记语言介绍

合成时长超出背景音时长时，背景音将随合成音频循环播放（如果背景音不是WAV格式，可使用ffmpeg将其转为WAV格式：ffmpeg-i 输入音频-acodec pcm_s16le-ac 1-ar 16000 目标.wav）。标签内的URL如果包含XML的特殊字符，需要做字符转义。位...