自动语音讲解器-自动语音讲解器文档介绍内容-移动阿里云

接口说明

语音合成为您提供将输入文本合成为语音二进制数据的功能。本文档介绍了当前目录下各SDK文档的通用信息。返回语音合成产品详情页计费和并发限制语音合成提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版...

接口说明

语音合成提供将输入文本合成为语音二进制数据的功能。功能介绍 NUI SDK提供更小的工具包和更完善的状态管理。为满足不同用户需求，NUI SDK既能够提供全链路的语音能力，同时可做原子能力SDK进行使用，并保持接口的统一。语音合成功能支持...

功能特性

视频特定LOGO识别识别视频内容中的特定LOGO，包括台标和商标-视频语音内容识别识别视频内容中的语音部分是否违规-语音审核1.0版语音色情识别识别语音中的色情和低俗内容短语音同步检测语音异步检测语音涉政暴恐识别识别语音内容中...

C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK，包括SDK的安装方法及SDK代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token概述。下载安装 SDK...

分账明细

snapshot 快照云服务器ECS的资源实例ID 快照的费用分摊到各个云服务器ECS资源实例。cdn 内容分发网络CDN 域名内容分发网络CDN的费用分摊到各个域名。dcdn 全站加速域名全站加速的费用分摊到各个域名。live 视频直播域名视频直播的...

媒资智能结构化分析

教育行业教育资源整理：自动分析教学视频，提取知识点、讲解重点，帮助教育机构整理教学资源，形成结构化的教学材料库。个性化学习路径：结合学生的学习行为分析，为每个学生定制个性化的学习路径和推荐资源，提高学习效率。企业与政府...

ASR效果优化方案

离线语音质检能自动区分坐席和客户吗？语音识别引擎只能区分出说话的不同角色，角色对应的身份引擎是无法识别的，需要用户从业务的角度自行判断。建议您在存储录音时按照角色分类存储，同时发起质检任务时，指定轨道角色。在通过API发起...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

创建质检任务

视频讲解功能入口进入智能对话分析控制台后，在左侧菜单栏中点击质检任务后选择呼叫中心任务，即可进入任务管理页面。点击右上角的创建任务按钮，即可进行呼叫中心任务的建立。选择客服数据质检任务分为离线文本质检、离线语音...

Python SDK

本文介绍如何使用智能语音交互一句话识别的Python SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。SDK仅支持Python3，暂不支持Python2。已安装Python包管理工具setuptools。如果未...

音视频

单击页面右上角菜单按钮，选择语音业务进入语音业务控制台。在左侧导航栏选择流程管理音视频。添加音频单击音频列表的右上角添加即可在弹出窗中添加新的音视频。单击确定完成新建。名称：可根据需要自定义，上传文件前请先填写...

模型效果评测

视频讲解说明识别准确率：指使用指定的语言模型进行语音转文字识别出的”文本内容”，经过人工校验后，正确的文本内容所占的比例即为识别准确率，即：正确文本内容/全部文本内容*100%，所以准确率通常指的是一个语言模型在某次语音转文字...

C++ SDK

本文介绍如何使用阿里云智能语音交互提供的C++ SDK，包括SDK的安装方法、SDK代码示例以及常见问题等。SDK下载说明当前最新版本：3.2.1b，支持Linux平台。发布日期：2024年12月25日。使用SDK前，请先阅读接口说明，详情请参见接口说明。...

内容设置

即时生效：更改内容设置后，无需保存，更改会自动且即时地反映在应用界面上。使用步骤 1.进入 Copilot 内容设置登录魔笔平台，进入设计器。从左侧栏进入「内容设置」配置面板。2.顶部栏设置在内容设置中，定制顶部栏的标题和图标。根据...

C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK，包括SDK的安装方法及SDK代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token概述。下载安装 SDK...

应用配置

语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-Flash-Realtime。语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大...

快速部署WebUI服务

CosyVoice2.0是阿里巴巴达摩院自研的新一代高保真语音合成模型，具备语音克隆功能，仅需30秒以内的Prompt音频即可克隆目标音色，支持跨语种复刻。适用于客服对话、有声书朗读、短视频配音等多种场景。阿里云PAI-EAS基于该模型封装并集成了...

AI视频翻译

视频翻译技术利用人工智能和机器学习算法，能够高效、准确地将视频内容从源语言转换为一种或多种目标语言。...后续操作详见下方视频讲解：通过OpenAPI修正可通过OpenAPI修正语音级翻译结果。详情请参见语音翻译-人工修正。

C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK，包括SDK的安装方法及SDK代码示例。前提条件阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token概述。下载安装 SDK...

Java SDK

本文介绍语音合成CosyVoice Java SDK的参数和接口细节。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。前提条件已开通服务并获取...

数字人对话WebSDK

1102 浏览器相机未授权是刷新页面，授权浏览器相机采集 1103 浏览器麦克风未授权是刷新页面，授权浏览器麦克风采集 1104 浏览器音频推流失败是升级浏览器到最新的版本更换浏览器到Chrome、Edge、Safari H5 webview环境下添加WebRTC...

2024年6月26日产品更新动态

本次更新重点内容闪信配置中，新增【阿里云通信】供应商描述：在语音业务中的设置选择闪信配置，在添加配置时选择阿里通信供应商。新版交互更新描述：云联络中心实例内交互样式&视觉改版，部分功能位置与能力范围发生变更。旧版页面样式...

移动端iOS Lite SDK

初始化多模态对话管理器/-Parameters:/-url:服务URL/-workSpaceId:工作空间ID,在百炼管控台获取/-appId:应用ID,多模对话管控台配置/-mode:对话模式(tap2talk/push2talk/duplex)public init(url:String?workSpaceId:String,appId:String,...

任务管理

原始会话复核页面中间部分为录音查看、对话文本查看区域，播放器中可进行多种操作，对话文本中可播放单句话，同时支持对每句话进行编辑命中规则、编辑语音转文字结果操作。规则调整和案例添加支持人工添加命中规则，对于机器质检没有命中...

RESTful API

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

iOS SDK

本文档提供了语音合成CosyVoice iOS SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-CosyVoice。模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-plus ...

功能发布记录（2.0）

Android媒体播放器集成与实现 iOS媒体播放器集成与实现虚拟背景 Windows Mac Android iOS 简介 Windows虚拟背景集成与实现 Mac虚拟背景集成与实现 Android虚拟背景集成与实现 iOS虚拟背景集成与实现暗场景增强 Windows Mac Android iOS ...

Java SDK

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

Android SDK

本文档提供了语音合成CosyVoice Android SDK的详细使用指南，帮助您将文本转换为高质量、富有表现力的语音。用户指南：关于模型介绍和选型建议请参见语音合成-CosyVoice。模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

数据结构

结构类型数据类型描述 Enum ARTCAICallAgentType AI Agent类型 ARTCAICallRobotState 机器人当前的状态 AICallErrorCode 当前AI通话出现了错误 VoicePrintStatusCode ASR反馈状态码 ARTCAICallSpeakingInterruptedReason 智能体语音被...

数据结构

结构类型数据类型描述 Enum ARTCAICallAgentType AI Agent类型 ARTCAICallRobotState 机器人当前的状态 AICallErrorCode 当前AI通话出现了错误 VoicePrintStatusCode ASR反馈状态码 ARTCAICallSpeakingInterruptedReason 智能体语音被...

工作台

同时也可以用 AI生成工单功能进行生成，但是需要联系管理员在语音业务设置智能化设置会话信息自动生成配置中进行开启。重要 AI功能根据调用次数计费，费用为0.01元/次。会话信息生成根据配置情况，可能产生多次调用。可单击 AI生成工...

新功能发布记录

2025-04-10 绝对定位与视口定位语音播报支持阿里云智能语音交互的文字转语音功能。2025-04-10 文字转语音（阿里云智能语音交互）域名配置流程优化支持自动化配置 2025-04-10 环境和域名域名备案码订阅和续费魔笔服务，免费提供域名...

Python SDK

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

语音通知/语音验证码FAQ

您在使用语音通知/语音验证码时如果遇到疑问，可参考以下常见问题及处理建议。语音通知支持英文吗？语音通知支持中文和英文。语音通知服务，如果用户挂线，会不会重拨？不会重拨。语音流控频率规则是怎么样的？说明若同一主叫号码与被叫...

语音通知实现告警功能

开通后，系统将会自动为您开通语音通知功能，您可以在语音服务控制台的通用设置中查看自己的功能开通情况。选择告警号码模式，公共模式与专属模式的区别，请参见公共模式/专属模式FAQ 和国内语音服务定价。操作步骤申请申请资质：...

产品计费

语音业务中的增值服务服务类型功能单价说明 AI会话信息自动生成主题、小结生成。0.01元/次开通智能工作台获取该能力。通过调用次数收费，配置情况不同，调用次数不同。说明语音业务中需要开通实时文本转写标签生成。0.01元/次 ...

快速开始

}/收到语音合成的语音二进制数据@Override public void onAudioData(ByteBuffer message){ if(firstRecvBinary){/此处计算首包语音流的延迟，收到第一包语音流时，即可以进行语音播放，以提升响应速度（特别是实时交互场景下）。...

Python SDK

本文介绍如何使用阿里云智能语音服务提供的Python SDK，包括SDK的安装方法及SDK代码示例。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。下载安装说明 SDK仅支持Python3，暂不支持Python2。请确认已安装Python包管理工具...