在线语音合成的-在线语音合成的文档介绍内容-移动阿里云

Android SDK

按下边方式调用后，发音人将切为aijia/语音包下载地址：https://help.aliyun.com/document_detail/204185.html // 语音包试听：https://www.aliyun.com/activity/intelligent/offline_tts // 特别说明：离线语音合成的发音人,并不一定也...

离线语音合成使用问题

本文为您介绍离线语音合成的常见问题和解答。合成初始化失败通常有哪些原因？常见鉴权失败情况有哪些？初始化成功但是播报失败该如何处理？回调数据长度和时间对应关系是怎样的？配额消耗的规则是什么？一个Deviceid一天可以注册几次？如果...

开通授权

本文介绍如何开通离线语音合成标准版/精品版，购买、配置并激活对应的SDK授权。背景信息离线语音合成提供了商业版SDK，包含标准版/精品版两种声音品质，您可以根据使用场景及设备性能状况选择合适的版本。精品版音质更好；但如果设备性能...

模型上架与更新

实时语音合成-通义千问语音合成 2025-09-22 qwen3-tts-flash、qwen3-tts-flash-2025-09-18 通义最新的离线语音合成大模型，不仅拥有17种高表现力的拟人音色，且能低延迟高稳定地合成音频；同时支持多种语言、方言。语音合成-通义千问实时...

语音合成FAQ

语音合成类常见问题主要分为以下几类：功能类为什么TTS语音合成的语音和wav文件显示的时间长度不一致？例如语音文件显示长度是7秒钟，但实际语音只有不到5秒？语音合成时间戳功能是什么？语音合成时，能否控制一串数字是按数字来整体播报...

iOS SDK

本文介绍了如何使用阿里云离线语音合成服务提供的iOS NUI SDK，包括下载安装SDK和语音包、SDK关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取AccessKey ID和 AccessKey ...

产品更新动态

语音算法服务拆分为语音合成与语音识别描述：将大模型场景与小模型场景中【语音&VUI】的语音算法能力拆分成语音合成和语音识别服务配置，方便客户对ASR和TTS的自定义选择。大模型场景支持第三方语音ASR识别服务描述：大模型场景支持第三...

实时语音合成-通义千问

实时语音合成-通义千问提供低延迟、流式文本输入与流式音频输出能力，提供多种拟人音色，支持多语种/方言合成，可在同一音色下输出多语种，并能自适应调节语气，流畅处理复杂文本。核心功能实时生成高保真语音，支持中英等多语种自然发声 ...

应用配置

语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大模型、Sambert语音合成模型、语音生成CosyVoice-v3大模型、语音生成CosyVoice-v3-plus大模型、通义千问-TTS模型、通义千问3-TTS模型、CosyVoice-v3-Flash大模型等。除系统音色外，还...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

语音合成-通义千问

语音合成-通义千问提供多种拟人音色，支持多语言及方言，并可在同一音色下输出多语言内容。系统可自适应语气，流畅处理复杂文本。支持的模型推荐使用通义千问3-TTS-Flash。通义千问3-TTS-Flash拥有 49种音色，支持多种语言及方言。通义千...

计费项

语音合成的计费调用次数，按照每次请求传入的字符数作为统计依据。100个字符内（含100个）记为1次计费调用，每超过100个字符增加1次计费调用，且1次请求最多传入300个字符。其中，字符为UTF-8编码，1个汉字、英文字母、全半角标点符号均算1...

iOS SDK（旧版）

关键接口 AliyunNlsClientAdaptor：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。NlsSpeechSynthesizerRequest：语音合成处理的请求对象，线程...

Android SDK（旧版）

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechSynthesizer：代表一次语音合成请求。SpeechSynthesizerCallback：语音...

模型列表

通义千问实时语音合成、通义千问语音合成、CosyVoice语音合成和 Sambert语音合成可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音...

产品计费

根据播放句数进行计算费用=0.05(轻量版语音识别)+0.8(意图识别)+1.7(语音合成)*n(播放句数)+0.02(新闻电台)费用构成：语音识别+意图识别+单次启动+语音合成，其中每个播放的句子会调用语音合成功能，该部分按句计费。节省计划节省计划是...

非开发者使用指南

语音合成（文字转语音）在 语音合成 处单击去配置，选择声音后，在右侧文本框输入文字，单击右下角扬声器按钮开始合成，完成后单击确认使用。五、免费试用功能简介服务能力免费试用期间权益试用期过后如何继续使用语音识别上传文件...

Node.js SDK

设置语音合成的发音人、采样率、音频格式等属性：创建属性对象或者修改 SpeechSynthesizer 实例的 defaultStartParams 方法返回的默认属性对象。补充 SpeechSynthesizer 实例的回调函数 on 的细节（观察者模式——当连接成功建立、合成语音...

CosyVoice声音复刻API

''' 重要 target_model：驱动音色的语音合成模型，须和后续调用语音合成接口时使用的语音合成模型一致，否则合成会失败 language_hints：仅适用于cosyvoice-v3-flash和cosyvoice-v3-plus模型请求示例 from dashscope.audio.tts_v2 import ...

微信小程序

关键接口和参数描述实现语音合成的功能，围绕 SpeechSynthesizer 类进行，一般按照如下步骤编写代码（步骤2和步骤3顺序可互换）：创建 SpeechSynthesizer 实例，此时会传入语音合成服务地址和认证信息。设置语音合成的发音人、采样率、...

Python SDK

SpeechSynthesizer类的 call 方法即可快速开始 SpeechSynthesizer类提供了语音合成的关键接口，支持以下几种调用方式：非流式调用：阻塞式，一次性发送完整文本，直接返回完整音频。适合短文本语音合成场景。单向流式调用：非阻塞式，...

Android SDK

本文档提供了语音合成Sambert Android SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见 语音合成-Sambert。在线体验：暂不支持。快速开始获取API Key：获取API Key，为安全起见...

Python SDK

适用于调用大规模","语言模型（LLM），以","流式输入文本的方式","进行语音合成的场景。if_name_="_main_":if SAVE_TO_FILE:file=open("output.wav","wb")if PLAY_REALTIME_RESULT:player=pyaudio.PyAudio()stream=player.open...

运行示例

在IDE编辑器中，打开上一步下载的示例代码，参照下图填写语音合成的参数。填写完成后，单击鼠标右键，选择 Run"SpeechSynthesizerDemo main()。参数参数值 Appkey 请在智能语音交互控制台获取Appkey。Token 请在智能语音交互控制台总览...

语音&VUI

内容配置语音算法服务 语音合成服务默认服务：有关语音算法服务内容配置项的含义及系统界面如下图所示：TTS音色模板：可以选择已有的音色模板，具体可点击查看音色。语速、音量、语调可以进行自定义设置。同时支持点击内容试听。...

iOS SDK

取值范围：zh：中文 en：英文指定语音合成的目标语言（仅限复刻音色），帮助提升合成效果准确性，对英文、法语、德语、日语、韩语、俄语生效（无需填写中文）。须和声音复刻时使用的languageHints/language_hints一致。取值范围：en：英文...

简介与SDK代码示例

版权与合法性：您需对所提供声音的所有权及合法使用权负责，请注意阅读开通智能语音交互-流式文本语音合成 的服务协议。复刻后语音的使用：使用复刻产生的语音（VoiceName）的用法和语音合成CosyVoice大模型中的预设音色（例如：...

Android SDK

取值范围：zh：中文 en：英文指定语音合成的目标语言（仅限复刻音色），帮助提升合成效果准确性，对英文、法语、德语、日语、韩语、俄语生效（无需填写中文）。须和声音复刻时使用的languageHints/language_hints一致。取值范围：en：英文...

Python SDK

参数类型默认值是否必须说明 model str-是指定用于语音合成的音色模型名，完整列表参见模型列表。text str-是指定待合成文本，要求采用UTF-8编码且不能为空。最高字符限制：1万字符。字符计算规则：1个汉字、1个英文字母、1个标点或...

iOS SDK

本文档提供了语音合成Sambert iOS SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见 语音合成-Sambert。在线体验：暂不支持。快速开始获取API Key：获取API Key 说明当需要为...

功能特性

PCM、WAV、MP3 Java/C++/Harmony 暂不支持免费试用资源包购买非实时 RESTful API 离线语音合成 实时无网状态下，离线进行本地的语音合成。语音播报、新闻小说、有声阅读、无障碍播报。PCM、WAV、MP3 iOS/Android 暂不支持免费试用资源...

Java SDK

使用方法与普通语音合成一致：将包含SSML的文本传入 SpeechSynthesizer类的 call 方法即可快速开始 SpeechSynthesizer类提供了语音合成的关键接口，支持以下几种调用方式：非流式调用：阻塞式，一次性发送完整文本，直接返回完整音频。...

Go SDK

语音合成 1.SpeechSynthesisStartParam 实时语音合成参数。参数类型参数说明 Voice String 发音人，默认值：“xiaoyun”。Format String 音频格式，默认使用WAV。SampleRate Integer 采样率，默认值：16000 Hz。Volume Integer 音量，...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。返回语音合成产品详情页计费和并发限制异步长文本语音合成仅提供商用版，不支持试用，详情请参见试用版和商用版。要使用该功能，请开通商用版，详情...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

Java SDK

参数类型默认值是否必须说明 model String-是指定用于语音合成的音色模型名，完整列表请参见模型列表。text String-是指定待合成文本，要求采用UTF-8编码且不能为空。最高字符限制：1万字符。字符计算规则：1个汉字、1个英文字母、1...

语音&智能VUI

语音合成服务默认服务 TTS音色模板：可以根据自己需求选择音色模板，可以参考具体音色。通过大模型音色列表可以查询目前支持的大模型音色列表注意：大模型音色的voice参数在外呼机器人中，默认在音色列表中的voice对应的值前加上...

3D数字人视频合成用户指南

3.1.1 语音合成的编辑功能文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。同时文本输入框集成了情绪化音色的编辑能力，可在编辑器中选中某段...

声音复刻

关键原则：声音复刻时，target_model（驱动音色的语音合成模型）必须与后续调用语音合成接口时指定的语音合成模型一致，否则会合成失败。示例使用本地音频文件 voice.mp3 进行声音复刻，运行代码时，请注意替换。Python#DashScope SDK 版本...