自动语音播报-自动语音播报文档介绍内容-移动阿里云

语音模板FAQ

文本转语音模板：指模板的内容是文本，在播放时自动转化为语音。例：尊敬的阿里云用户您好，您的验证码是${vericode}。变量是：${vericode}。语音通知文件：指预先录制好的音频文件（MP3或WAV格式），在接听后直接播放该文件。“场景&话术...

语音识别FAQ

语音识别能自动断开多句话吗？语音识别服务支持离线功能吗？语音识别支持哪些模型？语音识别是否可以混合识别极少量英文单词和字母？开启ITN（逆文本规整）后，中文数字混合时为什么并不是全部转为阿拉伯数字？录音文件识别的enable_sample...

机器人话术审核标准

文本转语音话术（TTS）指话术的内容是文本，在呼叫播放时自动转化为语音。例：尊敬的阿里云用户您好，我是阿里云小二${vericode}。请问您是${vericode}。呼叫录音文件话术指预先录制好的音频文件（mp3/wav格式），在接听后直接播放该文件。...

应用场景

本文为您介绍智能语音交互适用的各大应用场景。语音识别语音搜索支持各种场景下的语音搜索，如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中，最大限度地解放双手。语音指令通过语音命令控制智能设备，实现快捷便利的操作，...

2024/11/07 更新日志

一、CXG Voice 更新语音信箱记录同步支持将未接听成功的语音信箱记录自动同步至CXG的Vocie Call模块。若热线服务后台配置已启用语音信箱，您可通过订阅相关的事件实现同步，并在Salesforce收听语音信箱记录的录音。满意度评分回传支持将...

新手指引

产品使用阿里云语音服务提供多种功能产品，包含语音通知、语音验证码、语音互动、智能语音交互及智能语音机器人，可以根据使用场景或业务优势选择不同的语音产品。功能功能介绍使用方式说明语音通知/语音验证码向指定号码发起语音...

阿里云百炼智能语音效果示例

龙硕.mp3 cosyvoice-v1 longshuo 语音助手、导航播报、新闻播报、客服催收中文 22050 mp3 龙婧龙婧.mp3 cosyvoice-v1 longjing 语音助手、导航播报、新闻播报、客服催收中文 22050 mp3 龙妙龙妙.mp3 cosyvoice-v1 longmiao 客服催收、...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。返回语音合成产品详情页计费和并发限制异步长文本语音合成仅提供商用版，不支持试用，详情请参见试用版和商用版。要使用该功能，请开通商用版，详情...

网页接入渠道

排队设置排队位置播报：处于排队状态时，机器人自动播报的话术，其中`${queuePosition}`固定变量写法，表示排队位置。排队超时时间：配置完成后，若超过了配置时间则结束排队。配置超时时间范围为（1-30）分钟。排队超时话术：当排队时长...

ASR效果优化方案

离线语音质检能自动区分坐席和客户吗？语音识别引擎只能区分出说话的不同角色，角色对应的身份引擎是无法识别的，需要用户从业务的角度自行判断。建议您在存储录音时按照角色分类存储，同时发起质检任务时，指定轨道角色。在通过API发起...

iOS SDK

本文介绍了如何使用阿里云离线语音合成服务提供的iOS NUI SDK，包括下载安装SDK和语音包、SDK关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取AccessKey ID和 AccessKey ...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

iOS SDK

本文介绍了如何使用阿里云智能语音服务提供的iOS NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已准备项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token概述。...

iOS SDK

本文介绍如何使用阿里云智能语音服务提供的iOS NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件使用SDK前，请先阅读接口说明，详情请参见接口说明。准备好项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见 ...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

Android SDK

本文档提供了语音合成Sambert Android SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-Sambert。在线体验：暂不支持。快速开始获取API Key：获取API Key，为安全起见...

iOS SDK

本文档提供了语音合成Sambert iOS SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-Sambert。在线体验：暂不支持。快速开始获取API Key：获取API Key 说明当需要为...

接口说明

语音合成为您提供将输入文本合成为语音二进制数据的功能。本文档介绍了当前目录下各SDK文档的通用信息。返回语音合成产品详情页计费和并发限制语音合成提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版...

Python SDK

本文介绍语音合成Sambert Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。在线体验：暂不支持。前提条件已开通服务并获取与配置 API Key。请配置API Key到环境变量，而非硬编码...

接口说明

离线语音合成是指在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。产品体验更多合成效果可至离线语音合成产品详情页进行体验。功能介绍离线语音合成主要包括以下功能，暂不支持多实例调用。提供语速调节...

智能生产制作功能介绍

支持基于文字或语音驱动的数字人模拟真人播报能力。支持转场、滤镜、特效、贴纸、文字动效等美化能力。支持批量化、程序化、后台化多任务并行提交。支持处理的内容来源支持阿里云对象存储（OSS）、阿里云视频点播（VOD）及本地媒资（本地...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

含UI集成方案

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

AI实时互动场景

以创建语音通话工作流模板为例：以创建语音通话工作流模板为例：您只需要配置以下3个节点，就能完成语音通话工作流的创建。您可以前往 Demo体验，以全面了解上述能力。您也可以前往快速入门，开始AI实时互动能力的构建。产品优势全球高...

AI实时互动场景

以创建语音通话工作流模板为例：以创建语音通话工作流模板为例：您只需要配置以下3个节点，就能完成语音通话工作流的创建。您可以前往 Demo体验，以全面了解上述能力。您也可以前往快速入门，开始AI实时互动能力的构建。产品优势全球高...

2D数字人视频合成用户指南

文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。功能子功能备注操作方法多音/弹出浮层高亮多音字，逐一标注文本人名姓氏自动匹配、连续...

NotifyAgent-自定义消息播报

表示播报消息是否允许被打断，如为 false，则播报消息不能被语音打断、按键打断等方式打断 true CustomAttribute string 否自定义参数，透传到客户端 {\"color\":\"blue\"} BackgroundMusic object 否背景音。format string 否格式。wav...

启动通话及个性参数配置

播报完当前句子再停止 volume int 智能体说话的音量，范围为 0~400，默认值为100 workflowOverrideParams String 工作流覆盖参数 enableIntelligentSegment boolean 智能断句开关 asrConfig ARTCAICallAgentAsrConfig 语音识别配置 ...

启动通话及个性参数配置

播报完当前句子再停止 volume int 智能体说话的音量，范围为 0~400，默认值为100 workflowOverrideParams String 工作流覆盖参数 enableIntelligentSegment boolean 智能断句开关 asrConfig ARTCAICallAgentAsrConfig 语音识别配置 ...

AI实时互动概览

为了满足不同的交互需求，您可以为智能体配置相应的工作流，并且实现以下能力：音视频通话语音通话用户通过语音与智能助手交流对话。数字人通话通过视频与数字人互动，提升用户体验真实性。视觉理解通话通过视频互动，智能体结合语音和...

智能语音效果示例

龙硕.mp3 cosyvoice-v1 longshuo 语音助手、导航播报、新闻播报、客服催收中文 22050 mp3 龙婧龙婧.mp3 cosyvoice-v1 longjing 语音助手、导航播报、新闻播报、客服催收中文 22050 mp3 龙妙龙妙.mp3 cosyvoice-v1 longmiao 客服催收、...

如何实现自动挂断/转呼

智能体主动完成任务后挂断：当智能体已完成信息确认、订单创建等业务目标，可携带结束语进行播报并自动挂断，实现自然收尾。业务规则驱动的智能转呼：当用户需求超出当前智能体服务能力范围时，智能体可依据预设策略进行人工转呼。实现方案...

常见问题

功能介绍语音合成支持哪些音色？CosyVoice-V2 支持的音色请参见：语音合成-CosyVoice/Sambert 中 CosyVoice音色列表（CosyVoice-V2）。Sambert 支持的音色请参见：语音合成-CosyVoice/Sambert 中 Sambert音色列表。通义千问-TTS 支持的...

IVR模块介绍

收号超时提示音到达超时时间后，将播报收号超时提示音，超时提示音播报完成后，重新播报收号提示音。使用音频文件下拉菜单中显示已上传的私有音频，以及呼叫中心提供的公共音频。如果列表中没有您需要的音频文件，可点击“上传音频”，...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。说明语音合成产品详情页仅提供大部分音色试听，若详情页没有您想要的音色试听，请通过接口文档进行调用试听。接口文档请参见 Java SDK、C++ SDK。计费...

3D数字人视频合成用户指南

3.1.1 语音合成的编辑功能文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。同时文本输入框集成了情绪化音色的编辑能力，可在编辑器中选中某段...

应用配置

AEC：回声消除，减少自身播报对语音交互的干扰。移动端 Android 和 iOS 可直接使用已集成的语音打断，其它芯片平台如需定制请联系商务。定向拾音：增强特定方向拾音，抑制甚至屏蔽其他方向声音。依赖麦克风阵列硬件布局，如需定制请联系...

DuplexDecision-语音双工决策

语音双工决策接口API。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...