在线tts语音合成-在线tts语音合成文档介绍内容-移动阿里云

语音合成FAQ

语音合成类常见问题主要分为以下几类：功能类为什么TTS语音合成的语音和wav文件显示的时间长度不一致？例如语音文件显示长度是7秒钟，但实际语音只有不到5秒？语音合成时间戳功能是什么？语音合成时，能否控制一串数字是按数字来整体播报...

2025年12月16日产品更新动态

数字员工中TTS音色支持音色划分描述：在数字员工场景中，使用TTS语音合成服务时，对于选择大模型、千问、克隆音色时，需要提前了解具体类目下拥有什么音色，以及使用者造成很大的困扰，效率影响，为了方便用户选择对应的音色，现阶段支持...

管理项目

在 语音合成TTS 模块下，选择语音合成模型并配置基础参数（语速、语调、音量）。发布上线后，将与项目Appkey绑定。如果您的应用程序中没有设置这些参数值，将使用控制台的默认值。单击目标项目右侧的项目功能配置。在 语音合成TTS 区域，...

https://help.aliyun.com/zh/ram/developer-reference/sts-sdk-overview //STS Python SDK调用示例：https://help.aliyun.com/zh/ram/developer-reference/use-the-sts-openapi-example // //账号需求说明:/若使用离线功能(离线语音合成、...

iOS SDK

https://help.aliyun.com/zh/ram/developer-reference/sts-sdk-overview //STS Python SDK调用示例：https://help.aliyun.com/zh/ram/developer-reference/use-the-sts-openapi-example // //账号需求说明:/若使用离线功能(离线语音合成、...

产品公共FAQ

以下是相关的功能的视频介绍：音频基础知识+智能语音控制台介绍 ASR产品使用介绍自学习平台语音合成性能类 ASR语音识别和TTS语音合成超并发会有什么现象？超并发可能会出现以下情况：查看日志会有大量超时现象，具体服务状态码为...

什么是智能语音交互

离线语音合成 在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。目前有多种音色可供选择，并提供调节语速、语调、音量等功能。适用于车载导航、智能硬件、文学有声阅读和无障碍播报等场景。以SDK的方式集成，...

声音克隆

本文档介绍了如何进行音色克隆，并进行管理。概念介绍通过大模型技术进行特征提取，从而完成...克隆音色的使用在配置数字员工场景中，可在场景中的语音设置的TTS语音合成服务中进行选择配置。在TTS配置声音风格中选择克隆音色，即可使用。

模型列表

通义千问实时语音合成、通义千问语音合成、CosyVoice语音合成和 Sambert语音合成可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音...

计费方式

标准版离线语音合成SDK 1~10000个 5元可使用标准版离线语音合成语音包 10001~50000个 4元 50001~100000个 3元 100001~200000个 2.5元 200001-500000个 2元精品版离线语音合成SDK 1~10000个 10元可使用精品版离线语音合成语音包 10001~...

平台融合升级公告

后续平台会致力于结合IoT物联网技术（蓝牙协议、Wi-Fi协议、云服务）和天猫精灵的AI能力（ASR语音识别、NLP自然语言处理、TTS语音合成），向您提供更丰富的智能服务。物模型变更介绍为了便于后续给您开放天猫精灵沉淀的大量基于物模型的...

Go SDK

false为短文本语音合成 tts,err:=nls.NewSpeechSynthesis(config,logger,false,onTaskFailed,onSynthesisResult,nil,onCompleted,onClose,ttsUserParam)if err!nil { logger.Fatalln(err)return } lk.Lock()reqNum+lk.Unlock()logger....

智能语音交互SDK合规配置指引（鸿蒙）

SDK功能及相关个人信息功能采集个人信息字段个人信息采集目的功能配置方案及示例语音离线唤醒和离线语音合成 设备型号用于离线功能的统计和计费无 SDK合规初始化配置方案/*向服务端发起交互请求*@param vad_mode:多种模式，对于识别...

智能语音交互自定义权限策略参考

{"Version":"1","Statement":[{"Action":"nls:SubmitTask","Resource":"*","Effect":"Allow"},{"Action":"nls:GetTaskResult","Resource":"*","Effect":"Allow"}]} 示例2：RAM用户调用离线语音合成时，授予设备权限。{"Version":"1",...

智能语音交互SDK合规配置指引（iOS）

SDK功能及相关个人信息功能采集个人信息字段个人信息采集目的功能配置方案及示例语音离线唤醒和离线语音合成 设备型号用于离线功能的统计和计费无 SDK合规初始化配置方案/*向服务端发起交互请求*@param vad_mode:多种模式，对于识别...

智能语音交互SDK合规配置指引（安卓）

SDK功能及相关个人信息功能采集个人信息字段个人信息采集目的功能配置方案及示例语音离线唤醒和离线语音合成 设备型号用于离线功能的统计和计费无 SDK合规初始化配置方案/*向服务端发起交互请求*@param vad_mode:多种模式，对于识别...

移动端iOS Lite SDK

断开连接 public func stop()10 requestToRespond 端侧主动通过文本发起tts语音合成，或者向服务端发起图片等其他请求。请求响应/-Parameters:/-type:请求类型/-text:请求文本/-params:附加参数 public func requestToRespond(type:String,...

HarmonyOS Next SDK

是离线语音合成 否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/libs/neonui.har 是SDK生成的HAR包文件，在用户工程项目中导入调用即可。如果需要HarmonyOS Next CPP接入...

HarmonyOS Next SDK

是离线语音合成 否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/libs/neonui.har 是SDK生成的HAR包文件，在用户工程项目中导入调用即可。如果需要HarmonyOS Next CPP接入...

Android SDK

则必须app_key、ak_id和ak_secret，或app_key、sts_ak_id、sts_ak_secret和sts_token/若使用在线功能(语音合成、实时转写、一句话识别、录音文件转写等),则只需app_key和token JSONObject object=Auth.getTicket(Auth.GetTicketMethod.GET_...

移动端应用如何安全访问智能语音交互服务

背景信息方案适用接口方案一：通过App服务端创建Token并下发到移动端使用一句话识别实时语音识别录音文件识别极速版 语音合成 实长文本时语音合成 语音分析等方案二：使用STS临时访问凭证调用语音服务离线语音合成 方案一：通过App...

功能特性

PCM、WAV、MP3 Java/C++/Harmony 暂不支持免费试用资源包购买非实时 RESTful API 离线语音合成 实时无网状态下，离线进行本地的语音合成。语音播报、新闻小说、有声阅读、无障碍播报。PCM、WAV、MP3 iOS/Android 暂不支持免费试用资源...

Android SDK

https://help.aliyun.com/zh/ram/developer-reference/sts-sdk-overview //STS Python SDK调用示例：https://help.aliyun.com/zh/ram/developer-reference/use-the-sts-openapi-example // //账号需求说明:/若使用离线功能(离线语音合成、...

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成 离线移动端iOS SDK 离线语音合成 离线移动端Android SDK 离线语音合成 服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

服务端Java SDK

Gets current dialogue state.*@return Current dialogue state*/public State.DialogState getDialogState()11、requestToRespond 端侧主动通过文本直接发起tts语音合成，或者向服务端发起图片等其他请求。Requests response.*@param type...

音色列表

语音合成支持使用以下模型：模型名称模型特点支持语种是否支持声音复刻音频格式音频采样率 CosyVoice-v3-Flash大模型专属定制音色，支持情感控制，表现力更优。中文、英文支持 pcm、wav、mp3、opus 8kHz、16kHz、22.05kHz、24kHz、...

调用三方语音模型

使用文本请求三方语音合成（TTS）使用百炼多模交互服务，您可以设置输出对话结果的格式为仅输出【文本】。使用输出文本您可以调用三方的语音合成服务进行语音合成。说明百炼多模交互输出的对话结果文本支持「流式输出」，推荐您调用的三方...

Android SDK

TTS_EVENT_CANCEL 取消语音合成。TTS_EVENT_PAUSE 语音合成暂停。TTS_EVENT_RESUME 语音合成恢复。TTS_EVENT_ERROR 语音合成发生错误。可通过 getparamTts("error_msg")获得详细错误消息。onTtsDataCallback：合成数据回调。param info：...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

Python SDK

long_tts bool 语音合成方式，取值说明如下：True：使用实时长文本语音合成，详情请参见接口说明。False：使用实时短文本合成，默认为 False。token String 访问Token，详情可参见获取Token概述。on_metainfo Function 如果 start 方法中...

错误信息

input must contain file_urls 原因：使用语音识别（Paraformer）的录音文件识别时，未对请求参数 file_urls 赋值。解决方案：请在请求中包含 file_urls 参数并为其赋值。The provided URL does not appear to be valid.Ensure it is ...

开通授权

本文介绍如何开通离线语音合成标准版/精品版，购买、配置并激活对应的SDK授权。背景信息离线语音合成提供了商业版SDK，包含标准版/精品版两种声音品质，您可以根据使用场景及设备性能状况选择合适的版本。精品版音质更好；但如果设备性能...

接口说明

离线语音合成是指在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。产品体验更多合成效果可至离线语音合成产品详情页进行体验。功能介绍离线语音合成主要包括以下功能，暂不支持多实例调用。提供语速调节...

语音合成-通义千问

语音合成-通义千问提供多种拟人音色，支持多语言及方言，并可在同一音色下输出多语言内容。系统可自适应语气，流畅处理复杂文本。支持的模型推荐使用通义千问3-TTS-Flash。通义千问3-TTS-Flash拥有 49种音色，支持多种语言及方言。通义千...

接口说明

语音合成提供将输入文本合成为语音二进制数据的功能。功能介绍 NUI SDK提供更小的工具包和更完善的状态管理。为满足不同用户需求，NUI SDK既能够提供全链路的语音能力，同时可做原子能力SDK进行使用，并保持接口的统一。语音合成功能支持...

数据结构

AICallAgentShareConfig 智能体分享配置信息 AICallAgentConfig 通话智能体启动与运行配置 AICallAgentAsrConfig 语音识别配置 AICallAgentTtsConfig 语音合成配置 AICallAgentLlmConfig 大语言模型配置 AICallAgentAvatarConfig 数字人...

数据结构

AICallAgentShareConfig 智能体分享配置信息 AICallAgentConfig 通话智能体启动与运行配置 AICallAgentAsrConfig 语音识别配置 AICallAgentTtsConfig 语音合成配置 AICallAgentLlmConfig 大语言模型配置 AICallAgentAvatarConfig 数字人...

错误码查询

语音合成/长文本语音合成错误码状态码状态消息原因解决方案 40000001 Gateway:ACCESS_DENIED:No privilege to this voice!设置了错误的发音人名称。请参考官网文档，设置正确的发音人。40000004 Gateway:IDLE_TIMEOUT:Websocket ...

产品简介

产品介绍 语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。产品优势高度拟人化：采用阿里通义语音实验室...

产品计费

当选择通义千问3-TTS时，每次语音合成按3次标准语音合成计费。计费项和标准价格价格取决于各环节是否使用及所用模型/能力。具体价格请见下表。交互链路标准价格（元/千次）备注语音交互多模态交互轻量版语音识别 0.05 可选，每轮交互计...