导航语音合成-导航语音合成文档介绍内容-移动阿里云

语音播报最佳实践

各系统语音播报方式及限制一览系统方式限制安卓消息透传+TTS语音合成只能通过阿里云自有通道实现，无法使用厂商通道。设备在线时才能收到语音播报，对于离线通知/消息，设备重新上线时能收到语音播报。建议增加时效检查与多条消息...

接口说明

语音合成为您提供将输入文本合成为语音二进制数据的功能。本文档介绍了当前目录下各SDK文档的通用信息。返回语音合成产品详情页计费和并发限制 语音合成提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版...

智能双录质检的审计事件

TtsTask 语音合成推送任务。UpdateApp 更新应用。UpdateDepartment 更新部门信息。UpdateDetectProcess 更新检测流程。UpdateLive 修改会议。UpdateLiveRecordTask 修改会议录制任务。UpdateLiveRecordTemplate 更新会议记录模板。...

声音克隆

本文档介绍了如何进行音色克隆，并进行管理。概念介绍通过大模型技术进行特征提取，从而完成声音的...克隆音色的使用在配置外呼场景时，可在场景中的语音&VUI 的 语音合成服务中进行选择配置。在TTS音色模板中选择克隆音色，即可使用。

智能语音交互自定义权限策略参考

{"Version":"1","Statement":[{"Action":"nls:SubmitTask","Resource":"*","Effect":"Allow"},{"Action":"nls:GetTaskResult","Resource":"*","Effect":"Allow"}]} 示例2：RAM用户调用离线语音合成时，授予设备权限。{"Version":"1",...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

产品业务架构

说明 语音合成相关的参数，如TTS声优、语速、音量，可以在智能外呼控制台中进行配置；更多智能外呼具体功能及使用介绍请参考《操作指南》。下发呼叫任务：在智能外呼控制台中通过上传Excel名单的方式下发任务、或调用智能外呼的OpenAPI接口...

智能任务

智能配音不区分 0.0035元/次计费规则：语音合成的计费调用次数按照每次请求传入的字符数（UTF-8编码，一个汉字、英文字母、全半角标点符号均算一个有效字符）作为统计依据；100个字符内（含100个）记为1次计费调用；每超过100个字符增加1...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

2D数字人视频合成用户指南

文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。功能子功能备注操作方法多音/弹出浮层高亮多音字，逐一标注文本人名姓氏自动匹配、连续...

模型功能动态

用量与性能观测 6月3日 语音合成 语音合成cosyvoice-v2支持SSML SSML（Speech Synthesis Markup Language，语音合成标记语言）不仅能指定语音合成读什么内容，还能精细控制其朗读方式，包括断句分词、发音、语速、停顿、语调、音量等语音...

高并发场景

本文介绍在高并发场景下，如何通过DashScope Java SDK高效调用Sambert语音合成服务。Sambert语音合成服务使用WebSocket协议，在高并发场景下，频繁创建WebSocket连接会增加连接耗时并消耗大量资源。在使用DashScope Java SDK时，您可以根据...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

SSML标记语言介绍

SSML不仅控制语音合成能读什么，更能控制语音合成可以怎么读，包括控制断句分词方式、发音、速度、停顿、声调和音量等特征，甚至加入背景音乐。说明阿里巴巴语音合成服务的SSML实现基于 W3C 的语音合成标记语言版本1.0。但并不支持W3C包含...

智能语音交互SDK合规配置指引（iOS）

SDK功能及相关个人信息功能采集个人信息字段个人信息采集目的功能配置方案及示例语音离线唤醒和离线语音合成 设备型号用于离线功能的统计和计费无 SDK合规初始化配置方案/*向服务端发起交互请求*@param vad_mode:多种模式，对于识别...

SSML标记语言介绍

SSML不仅控制语音合成能读什么，更能控制语音合成可以怎么读，包括控制断句分词方式、发音、速度、停顿、声调和音量等特征，甚至加入背景音乐。说明阿里巴巴语音合成服务的SSML实现基于 W3C 的语音合成标记语言版本1.0。但并不支持W3C包含...

模型用量

实时语音合成模型录音文件识别模型实时语音识别模型音视频翻译模型全模态模型全模态模型 Token 文本部分按 Token 数，其他模态（音频、图像、视频）按对应的 Token 数计费。实时多模态模型向量模型多模态向量模型 Token 按输入文本...

音频采集和播放说明

语音合成 downstream.audio_format downstream.sample_rate downstream.frame_size 支持的输出格式："pcm"：PCM编码（无压缩的PCM或WAV），16bit 采样深度，单通道。opus"：OGG封装的OPUS格式单声道（mono）音频"raw-opus"：裸 OPUS 数据...

Python SDK

本文介绍 DashScope Python SDK 调用实时语音合成-通义千问时的关键接口与请求参数。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问。前期准备 DashScope Python SDK 版本需要不低于1.25.2。快速开始 server commit模式 ...

2D数字人视频合成接入指南

2.支持范围重要使用SSML需要符合阿里云语音合成服务的SSML标记语言规则，关于该语言规范要求可以参考阿里云语音合成服务《SSML标记语言介绍》，示例：speak 需要调用SSML标签的文本/speak，目前平台仅支持以下标签。标签作用示例提示 ...

接口说明

流式文本语音合成功能可以将您输入的文本合成为语音二进制数据，相比于非流式语音合成，流式合成的优势在于实时性更强，用户在输入文本的同时就可以听到接近同步的语音输出，极大地提升了交互体验，减少了用户等待时间。适用于大规模语言...

AI实时互动场景

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

AI实时互动场景

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

配置语音和图片识别

在对话框中填写项目名称，项目类型选择为语音识别+语音合成+语音分析或仅语音识别，单击确定。在跳转的项目详情页面，单击复制保存 appkey，同时可修改语音识别模型的配置信息以满足不同需求。具体操作，请参见管理项目。步骤二：...

WebSocket API

本文介绍如何通过WebSocket连接访问CosyVoice语音合成服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发CosyVoice语音合成应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见 ...

AI实时互动概览

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

节省计划与资源包

适用模型因地域而异：北京：实时语音合成（CosyVoice）：cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2、cosyvoice-v1 实时语音合成（Qwen-TTS-Realtime）：qwen3-tts-flash-realtime、qwen3-tts-flash-realtime-2025-09-18、qwen...

客户端事件

相关文档：实时语音合成-通义千问。客户端事件 session.update 客户端在新建立的 WebSocket 连接上发送的第一个事件是 session.update。该事件用于更新本次会话的默认配置。建立连接时，服务端会返回此会话的默认输入输出配置。如需更新...

产品计费

以上费用包括智能外呼控制台、语音识别、语音合成及基础自然语言处理（NLP）对话能力（仅当使用外呼画布时）。另外，支持对接智能对话机器人（云小蜜），以使用更多高级NLP能力，详情请垂询钉钉群：29130028336。提供预付费并发计算器，在...

离线语音合成使用问题

本文为您介绍离线语音合成的常见问题和解答。合成初始化失败通常有哪些原因？常见鉴权失败情况有哪些？初始化成功但是播报失败该如何处理？回调数据长度和时间对应关系是怎样的？配额消耗的规则是什么？一个Deviceid一天可以注册几次？如果...

智能语音交互SDK合规配置指引（安卓）

SDK功能及相关个人信息功能采集个人信息字段个人信息采集目的功能配置方案及示例语音离线唤醒和离线语音合成 设备型号用于离线功能的统计和计费无 SDK合规初始化配置方案/*向服务端发起交互请求*@param vad_mode:多种模式，对于识别...

智能语音交互试用服务及服务改进计划协议

2.5 您承诺因使用本服务中的语音合成服务，所取得的任何产出或成果（包括但不限于：音频文件等），仅限于您个人使用，不得用于任何商业目的，且不得自行或透过他人以任何方式或载体向第三方披露、提供、转发或传播。三、服务内容阿里云将...

SSML标记语言说明

SSML不仅控制语音合成能读什么，更能控制语音合成可以怎么读，包括控制断句分词方式、发音、停顿等特征。说明阿里巴巴语音合成服务的SSML实现基于 W3C 的语音合成标记语言版本1.0。但并不支持W3C包含的所有的标记类型，而是从业务角度出发...

实时多模态交互协议（WebSocket）

语音合成支持的模型包括：语音合成CosyVoice-v2大模型（cosyvoice-v2），语音合成CosyVoice-v3-plus大模型（cosyvoice-v3-plus），语音合成CosyVoice-v3-Flash大模型（cosyvoice-v3-flash），Sambert语音合成（sambert），通义千问3-TTS...

LaTeX 公式转语音

CosyVoice 语音合成服务支持解析文本中嵌入的公式，并将其以符合人类阅读习惯的方式朗读出来，显著提升了数学、物理等学科内容的听觉体验。使用方法将文本中的公式通过特定分隔符包裹，然后调用语音合成 API 即可。使用分隔符标记公式 ...

应用场景

智能语音交互智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲...

3D播报数字人接入指南

3D播报数字人（对应开放平台的“咨询播报”场景）是虚拟数字人开放平台提供能够支持用户通过发送文本让3D数字人进行播报的实时文本驱动数字人产品能力，目前平台支持播报阿里云的智能语音合成的SSML标记语言，可以支持多音字、读手机号、读...

Java SDK

本文介绍 DashScope Java SDK 调用实时语音合成-通义千问时的关键接口与请求参数。用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问。前期准备 DashScope Java SDK 版本需要不低于2.21.16。快速开始 server commit模式/...