自动语音讲解-自动语音讲解文档介绍内容-移动阿里云

智能外呼机器人

智能外呼是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音(Text To Speech，TTS)以及自然语言理解（Natural Language Understanding，简称NLU）技术并面向企业客户提供的一款智能客服机器人产品。智能外呼机器人...

产品简介

自动化和智能化 自动语音风险提示：自动播报风险提示等内容，代替人工说明。视频点播：在视频通话过程中，播放视频、PPT 等风险提示画面。自动纪要：实时识别视频通话的语音内容，并按照时间分角色交替文字记录对话内容。自动确认：识别...

什么是智能外呼机器人

产品概述智能外呼机器人是综合利用 自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，NLU）等技术，面向企业客户提供的一款智能客服机器人产品...

小模型通信

而智能联络机器人基于自动语音识别、文字转语音以及自然语言理解等技术，面向企业客户提供的一款智能客服机器人产品。智能联络机器人可根据业务场景，自动发起联络任务，根据客户的意图进行智能应答。前提条件已注册阿里云账号，并完成 ...

接入流程

3 云端自动语音混音 4 更新视频混流参数调用服务端 UpdateMPUTask 更新混流参数，例如：视频混流的布局、对应布局的用户视频输入等。说明互动低延时自动混流任务的TaskId需要业务层按照 alirtc-mcu-%s%s,appid,channelId 规则生成，例如...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

入门概述

OSS违规检测包含如下功能：增量扫描对OSS Bucket中新增的图片、视频和语音自动进行违规检测，每当Bucket中有新增内容，将自动触发扫描。存量扫描对OSS Bucket中的已有图片、视频和语音进行一次性违规检测。在控制台上配置即可。该功能...

ALIYUN:Aligreen:OssStockTask

AudioAntispamFreezeConfig Map 否否 语音自动冻结配置。根据语音检测结果中的建议冻结结果。示例：{"Type":"suggestion","Value":"block"} AudioOpened Boolean 否否 OSS存量扫描任务是否扫描音频。取值：true：扫描 false：不扫描 ...

交互流程

实时语音识别-通义千问服务通过 WebSocket 协议，接收实时音频流并实时转写。支持 VAD 模式和 Manual 模式交互流程。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 URL 编码时，将 model_name 替换为实际的模型...

基于自定义方式创建应用

客户：xxx 客服：xxx 客户：xxx 客服：xxx 选择语音时：自定义上传一个不超过40MB、WAV、MP3格式的文件，可以选择添加/新建热词组，提升语音转译效果上传完成后将自动识别语音内容，并可以设置客户/客服先发言顺序。选择图片识别后：可...

实时多模态交互协议（WebSocket）

语音合成支持的模型包括：语音合成CosyVoice-v2大模型（cosyvoice-v2），语音合成CosyVoice-v3-plus大模型（cosyvoice-v3-plus），语音合成CosyVoice-v3-Flash大模型（cosyvoice-v3-flash），Sambert语音合成（sambert），通义千问3-TTS...

大模型应用管理

3 智能接听识别默认为开启状态，开启后自动识别语音助手/信箱，并通过 LlmSmartCallReport-呼叫记录消息返回智能状态码。是否立即挂断当智能接听识别到语音助手/信箱时，选择是否需要中断通话，默认为否，可根据自身业务需求选择开启...

Java SDK

我们提供了三种调用方式的示例代码：音频对话示例：麦克风采集实时音频输入，开启 VAD 模式（自动检测语音起止），支持语音打断。enableTurnDetection 参数需设为 true。推荐您使用耳机播放音频，避免回声触发语音打断。音视频对话示例：...

Python SDK

我们提供了三种调用方式的示例代码：音频对话示例：麦克风采集实时音频输入，开启 VAD 模式（自动检测语音起止），支持语音打断。enable_turn_detection 参数需设为 True。推荐您使用耳机播放音频，避免回声触发语音打断。音视频对话示例：...

通信智能体管理

智能接听识别开启后自动识别语音助手/信箱并中断通话，提升呼叫效率。最大通话时长设置本次通话最大的通话时间，到期后自动挂断。单击确认完成配置。编辑通信智能体前提条件：创建的通信智能体已构造完成，状态为“调试中”。在通信...

通信智能体快速入门

智能联络中心提供通信智能体功能，基于大模型技术实现AI通话，代替人工坐席进行呼叫工作，自动与客户进行自然、流畅的对话交流。无论是线索转化、会员提醒、客户服务，系统都能高效完成，同时大幅降低企业人力成本。本文为您介绍如何快速...

通信智能引擎快速入门

智能接听识别：开启后将自动识别语音助手/信箱并中断通话，提升呼叫效率。最大通话时长（非必填）：超出时长将自动挂断，参数范围300~3600秒。单击确定，完成配置。步骤三：配置回执消息（可选）访问智能联络中心控制台，在导航栏中选择...

移动端Android SDK

客户端需持续上传音频，服务端自动检测语音活动的场景。用户随时可以说话打断大模型输出。示例如下：{"header":{"action":"run-task","task_id":"9B32878*3D053","streaming":"duplex"},"payload":{"task_group":"aigc","task":"multimodal...

什么是云联络中心

丰富的AI能力：语音业务配备了交互式语音应答（IVR）、自动呼叫分配（ACD）、坐席管理、100%通话录音、数据大盘、文本转语音（TTS）和大量提升效率的应用。系统集成达摩院AI能力，提供智能质检、语音机器人、预测外呼等能力，从而有效提升...

热词模型

视频讲解操作流程新建热词组进入智能工具选择“语音模型训练工具”中的热词模型，点击列表右上方的新建热词组按钮，需要注意的是，当前每个用户最多可创建10个热词组；填写热词组名称以及热词组后，单击左下角的确定按钮即可；热词...

智能语音交互呼出业务流程

本文为您介绍了智能语音交互呼出的使用流程。前提条件注册阿里云账号并完成企业实名认证。已开通语音服务。申请企业资质并审核通过。您已购买外呼号码。具体操作，请参见真实号管理。背景信息智能语音交互呼出接口需要与智能语音...

智能语音交互呼入业务流程

本文为您介绍通过阿里云语音服务控制台发起智能语音交互呼入的使用流程。前提条件注册阿里云账号并完成企业实名认证。已开通语音服务。企业资质管理并审核通过。您已购买外呼号码。具体操作，请参见真实号管理。已在语音服务控制台 ...

创建语音模板

文本转语音模板：指模板的内容是文本，在播放时自动转化为语音。语音通知文件：指预先录制好的音频文件（MP3或WAV格式），在接听后直接播放该文件。语音验证码仅支持文本转语音模板。在语音通知或语音验证码页面创建语音模板。创建文本...

语音模板FAQ

文本转语音模板：指模板的内容是文本，在播放时自动转化为语音。例：尊敬的阿里云用户您好，您的验证码是${vericode}。变量是：${vericode}。语音通知文件：指预先录制好的音频文件（MP3或WAV格式），在接听后直接播放该文件。“场景&话术...

语音计费FAQ

语音通知套餐包无法延期操作，建议您尽快使用，资源包到期后，未使用完的套餐包会自动作废。语音服务按照接通量计费还是通话时长计费？按通话时长计算。如接听2秒挂断和接通30秒挂断都是按一分钟收取，不满一分钟按一分钟扣除。语音服务...

机器人话术审核标准

文本转语音话术（TTS）指话术的内容是文本，在呼叫播放时自动转化为语音。例：尊敬的阿里云用户您好，我是阿里云小二${vericode}。请问您是${vericode}。呼叫录音文件话术指预先录制好的音频文件（mp3/wav格式），在接听后直接播放该文件。...

新手指引

语音服务（Voice Service）提供语音通知、语音验证码等语音通信能力。本文介绍语音服务的基础...通过API使用语音服务常见问题公共模式/专属模式FAQ 语音服务使用FAQ 企业资质FAQ 语音模板FAQ 语音通知/语音验证码FAQ 语音计费FAQ 视频讲解

语音识别FAQ

语音识别能自动断开多句话吗？语音识别服务支持离线功能吗？语音识别支持哪些模型？语音识别是否可以混合识别极少量英文单词和字母？开启ITN（逆文本规整）后，中文数字混合时为什么并不是全部转为阿拉伯数字？录音文件识别的enable_sample...

应用场景

您在使用语音服务时可以参考本文，选择适合您的应用场景。功能场景产品功能功能概述应用场景场景示例语音通知通过调用API向指定号码发起一通呼叫，呼叫被应答后，播放一段指定的音频，支持播放文本转语音的音频，也支持直接播放录音...

2024/11/07 更新日志

一、CXG Voice 更新语音信箱记录同步支持将未接听成功的语音信箱记录自动同步至CXG的Vocie Call模块。若热线服务后台配置已启用语音信箱，您可通过订阅相关的事件实现同步，并在Salesforce收听语音信箱记录的录音。满意度评分回传支持将...

基本概念

本文为您介绍通义听悟的相关概念，以便于更好地理解本...PPT抽取及摘要将视频中演示的PPT进行抽取，并对每页PPT讲解的内容进行摘要总结，解决了无法索要PPT的问题，同时对应了PPT与讲解语音。该功能整合了语音、语言、图像三种模态的AI能力。

ASR效果优化方案

离线语音质检能自动区分坐席和客户吗？语音识别引擎只能区分出说话的不同角色，角色对应的身份引擎是无法识别的，需要用户从业务的角度自行判断。建议您在存储录音时按照角色分类存储，同时发起质检任务时，指定轨道角色。在通过API发起...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

iOS SDK

本文介绍如何使用阿里云智能语音服务提供的iOS NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件使用SDK前，请先阅读接口说明，详情请参见接口说明。准备好项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见 ...

Web SDK 发布说明

自动发布订阅增加条件选项（即 auto_publish_subscribe 参数增加选项 5）。支持自定义推流。增加摄像头切换分辨率接口。优化浏览器录制：支持设置画布大小。支持时间戳/文字/图片水印。V 1.4.6（2021-06-08）修复 Chrome 88 以上版本中共享...

媒资智能结构化分析

教育行业教育资源整理：自动分析教学视频，提取知识点、讲解重点，帮助教育机构整理教学资源，形成结构化的教学材料库。个性化学习路径：结合学生的学习行为分析，为每个学生定制个性化的学习路径和推荐资源，提高学习效率。企业与政府...

创建质检任务

视频讲解功能入口进入智能对话分析控制台后，在左侧菜单栏中点击质检任务后选择呼叫中心任务，即可进入任务管理页面。点击右上角的创建任务按钮，即可进行呼叫中心任务的建立。选择客服数据质检任务分为离线文本质检、离线语音...

模型效果评测

视频讲解说明识别准确率：指使用指定的语言模型进行语音转文字识别出的”文本内容”，经过人工校验后，正确的文本内容所占的比例即为识别准确率，即：正确文本内容/全部文本内容*100%，所以准确率通常指的是一个语言模型在某次语音转文字...

创建IVR流程

IVR流程创建接下来，以某客户服务中心为例，创建一个简单的IVR流程来讲解各项功能的基本使用。填写基础信息请输入IVR流程名称、选择版本类型并输入当前版本的描述信息。本文以主流程进行演示。流程名称：客户侧自定义填写，如呼入IVR。...

AI视频翻译

视频翻译技术利用人工智能和机器学习算法，能够高效、准确地将视频内容从源语言转换为一种或多种目标语言。...后续操作详见下方视频讲解：通过OpenAPI修正可通过OpenAPI修正语音级翻译结果。详情请参见语音翻译-人工修正。