导航语音交互-导航语音交互文档介绍内容-移动阿里云

简介

纯净人声在现实生活中会受到各种噪声干扰，使用音频智能降噪组件可以将噪声滤除并保持极高的语音保真度，从而提升视频...在线教育老师和学生在进行直播连麦时，可通过音频智能降噪组件清晰的进行语音交互，为老师和学生提供更佳的教学体验。

Android SDK

合规配置说明智能语音交互SDK合规配置指引（安卓）SDK整合包下载下载Android SDK 类别兼容范围系统支持Android 4.0 以上版本，API LEVEL 14 架构 armeabi-v7a，arm64-v8a，x86，x86_64 此SDK还包含如下功能，若未支持您想要的功能，请...

PHP Demo

已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。说明本文PHP示例基于阿里云新版PHP SDK（Alibaba Cloud SDK for PHP ）开发。如果您已接入阿里云旧版PHP SDK（aliyun-openapi-php-sdk ），仍然可以继续...

Go Demo

已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。示例说明录音文件识别示例使用Go SDK的CommonRequest提交识别请求和查询识别结果，采用RPC风格的POP API调用方式。关于阿里云Go SDK，请参见使用阿里云...

Windows

更多信息，请参见智能语音交互。方案架构图调用时序图接口及使用通过继承AliRtcEventListener回调类，实现 onAudioSampleCallback 回调接收音频媒体数据，并根据业务场景使用相应的数据源。onAudioSampleCallback：订阅的音频数据回调...

不含UI集成方案

通过集成AICallKit SDK，绝大部分与智能体相关的功能无需开发者单独实现，从而显著减少开发时间，提高应用程序的质量，并为用户提供更为丰富和流畅的语音交互体验。各个端的集成，请参见以下内容：Android使用指南 iOS使用指南 API接口详情...

不含UI集成方案

通过集成AICallKit SDK，绝大部分与智能体相关的功能无需开发者单独实现，从而显著减少开发时间，提高应用程序的质量，并为用户提供更为丰富和流畅的语音交互体验。各个端的集成，请参见以下内容：Android使用指南 iOS使用指南 Web使用指南...

公共模式/专属模式FAQ

公共模式目前仅支持以下业务场景：语音通知语音验证码注意：其他业务场景（如智能语音机器人、智能语音交互等）请申请企业专属号码使用专属模式。1.3 公共模式和专属模式的区别是什么？对比项公共模式专属模式适用场景仅支持语音...

不含UI集成方案

通过集成AICallKit SDK，绝大部分与智能体相关的功能无需开发者单独实现，从而显著减少开发时间，提高应用程序的质量，并为用户提供更为丰富和流畅的语音交互体验。各个端的集成，请参见以下内容：Android使用指南 iOS使用指南 Web使用指南...

语音&智能VUI

项目名称：配置完成后，可以选择已有的语音服务项目：声音调用ID：仅在使用语音交互产品的“个性化人声定制”时填写；其他情况无需填写，默认使用项目中绑定的语音识别与合成能力。内容试听：当语音参数配置完成后，可以自定义输入一些文字...

VoiceReport

说明获取智能语音交互呼叫记录信息时，如需开启号码状态（早媒体）识别功能，请在调用发起智能语音交互通话和发起智能语音指定动作时设置 EarlyMediaAsr 参数值为 true。智能联络中心用户使用此回执消息获取智能外呼机器人呼叫记录...

新功能发布记录

2025-04-10 文字转语音（阿里云智能语音交互）域名配置流程优化支持自动化配置 2025-04-10 环境和域名域名备案码订阅和续费魔笔服务，免费提供域名备案服务码。2025-04-10 域名备案服务码计量计费报表新增计量计费报表页面。2025-04-...

SmartCallOperate-发起智能语音指定动作

接口说明在智能语音交互呼出通话中，转接呼叫中心坐席时，可以使用本接口指定被叫号码发起指定动作。说明当前仅支持指定动作为被叫号码与呼叫中心坐席桥接。QPS 限制单用户调用频率：100 次/秒。调试您可以在OpenAPI Explorer中直接...

通过SDK获取Token

背景信息通过SDK获取Token方式说明通过智能语音交互SDK获取Token 适用于通过智能语音交互SDK直接获取Token的场景，建议您集成此SDK。通过阿里云公共SDK获取Token 适用于当前智能语音交互暂未提供对应语言SDK获取Token的场景。前提条件 ...

功能发布记录

本文介绍智能语音交互产品功能的最新动态和相关文档。2023年04月~2024年01月功能分类功能名称功能描述更新类型文档链接语音识别字幕上屏录音文件识别、录音文件识别极速版、录音文件识别闲时版支持字幕上屏场景。新增接口说明 ...

语音合成FAQ

语音合成（TTS）是概率模型，目前业界能做到的读音正确率在96%~98%之间，阿里云智能语音交互产品在通用场景下测试准确率在97%左右。这意味着不是所有读音错误都能被修复掉，建议您可以通过换字或使用SSML功能。语音合成的发音读错怎么办？...

SDK FAQ

本文汇总了您在使用SDK时可能遇到的常见问题。公共类如何使用SDK设置泛热词？SDK中使用POP API训练的泛热词，是通过控制台配置的业务专属热词表与...如果没有返回TaskId，说明在连接过程中直接断开，实时语音交互不需要重复调用接口，重复...

地域和域名

本文为您介绍智能语音交互产品的地域和域名信息。背景信息为进一步降低华北和华南用户的网络接入时延，智能语音交互产品在当前华东2（上海）地域的基础上新增华北2（北京）和华南1（深圳）地域。对时延敏感的业务，建议选择最近的地域...

智能引导小助手

开发路径功能项推荐/必选项功能定义物模型推荐人机交互产品展示必选配网引导必选设备面板必选绑定方式必选 语音交互 推荐产品说明书必选自动化与定时推荐设备告警推荐多语言管理推荐 IoT应用推荐快捷按钮推荐 ...

三方语音调试

需要在配置人机交互时开通并配置三方语音服务，详见配置语音交互。背景信息在平台开发的某些产品需要在海外使用，海外的主流语音平台为Amazon Alexa、Google Assistant等第三方语音平台。当设备选择开通三方语音服务并完成开发后，为了...

性能类

关于达摩院智能语音交互语音识别准确度的数字，我们通过了CNAS（国家软件测试中心）的评测，国家软件中心对语音识别算法准确度测试中，在60分贝以下的降噪环境中，用普通话在距离耳麦1厘米的位置，以240字/小时的匀速朗读样本量1207字的...

WebSocket协议说明

本文介绍如何使用智能语音交互流式文本WebSocket协议使用语音合成。如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。前提条件在使用WebSocket协议对接...

WebSocket协议说明

本文介绍如何使用智能语音交互WebSocket协议使用Cosyvoice大模型的长文本语音合成服务。如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。前提条件在使用...

什么是智能联络中心

多音色支持：通过大模型模拟特定个体的声音特征，生成个性化语音，使得通话过程中的语音交互更具个性化和真实感。通信稳定性：对接全国运营商网络，通话稳定，语音质量好，码号资源丰富。开始使用智能联络中心下多个功能之间存在一定差异...

Android

更多信息，请参见智能语音交互。方案架构图调用时序图接口及使用通过调用接口 registerAudioObserver 注册音频数据回调，注册时通过 AliAudioType 参数指明当前回调音频数据类型；使用音频回调 AliAudioObserver 接收音频媒体数据，并...

常见问题

实时语音交互场景 push2talk/tap2talk/duplex 这三种 upstream 模式有什么区别？Push2Talk（按键通话）模式：按住按钮开始录音，松开按钮停止录音；Tap2Talk（点击通话）模式：点击一次开始录音，再次点击结束录音；Duplex（全双工）模式：...

语音识别FAQ

智能语音交互的一句话识别，标点符号是根据什么来判断逗号和句号的？离线文件转写如何区分左右声道？语音识别可以支持多个词表吗？设置录音文件识别服务的版本，"4.0"和"2.0"两个版本有什么区别？在电话端支持哪些国家的语音识别？在语音...

集成阿里云智能语音交互

魔笔平台提供了强大的阿里云智能语音交互集成功能，允许用户通过简单的配置，实现对阿里云智能语音交互的无缝连接和数据交互。本文档将指导您如何创建和使用阿里云智能语音交互集成。功能介绍魔笔平台的阿里云智能语音交互集成支持以下...

Python SDK

本文介绍如何使用智能语音交互一句话识别的Python SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。SDK仅支持Python3，暂不支持Python2。已安装Python包管理工具setuptools。如果未...

CreateRobotTask-发起智能语音机器人外呼任务

在智能语音交互通话中，支持使用控制台预设的机器人话术，或在每轮通话中通过回调接口返回业务方设置的回应方式。QPS 限制单用户调用频率：100 次/秒。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后...

调试设备连云

标准语料的详细介绍请参见配置语音交互。泛化语料在泛化语料页签中，输入泛化的测试语料，并单击发送测试。管理您的设备。您还可以在控制台项目主页面的运营中心里，管理您的真实设备和设备用户。详细介绍请参见运维中心概述。

产品功能

个性化音色通过采集目标人物的语音样本，结合大模型的深度学习能力，模拟特定个体的声音特征（如音色、语调、节奏等）生成高度拟真的个性化语音，使得通话过程中的语音交互更具个性化和真实感。回执消息配置可以通过订阅轻量消息队列（原...

Node.js SDK

本文介绍如何使用智能语音交互一句话识别的Node.js SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。请确认已经安装nodejs&npm环境，并完成基本配置。SDK支持nodev14及以上版本。...

定制语言模型

前提条件已开通智能语音交互服务，详情请参见开通服务。训练语料说明调用限制该功能免费开放给所有开通智能语音交互免费版和商用版的用户。训练数据为领域相关的文本，与待识别语音数据越接近，优化效果越好。以文本方式保存，使用 UTF...

BatchRobotSmartCall-批量发起智能语音机器人外呼任务

在智能语音交互通话中，支持使用控制台预设的机器人话术，或在每轮通话中通过回调接口返回业务方设置的回应方式。此接口用于直接使用控制台预设的机器人话术，发起机器人外呼任务。前提条件已实名认证为企业用户，并审核通过了企业资质。...

首次呼入回调

content_type String 是 callin 智能语音交互的类型，callin表示用户拨打指定号码发起呼叫。content JSON 是 {"caller":"1371111*","callee":"0571111*","orgcallee":"05712222*"} 具体的语音内容，JSON格式。caller：呼入场景主叫号码。...

iOS和Mac

更多信息，请参见智能语音交互。方案架构图调用时序图接口及使用通过调用接口 subscribeAudioData 得到回调数据，从回调接口 onAudioSampleCallback 获取音频数据，并根据业务场景使用相应的数据源。onAudioSampleCallback接口参数如下...

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式语音识别服务语音输入格式说明一句话识别支持的输入格式：单...

AI实时互动概览

3D数字人通话利用3D技术模拟虚拟人物形象进行互动，3D数字人不仅能够实现语音交互，还能够通过丰富的肢体动作和面部表情，增强用户体验的真实感与参与度。视觉理解通话融合视频与音频的新型交互方式，它能够实时解析摄像头捕捉的画面，...

QueryCallDetailByCallId-查询指定通话的呼叫详情

此接口可查询语音通知、语音验证码、语音 IVR、智能语音交互、智能外呼机器人的呼叫详情。由于接口数据同步需要时间，建议您呼叫结束后等待 3 到 5 分钟再尝试调用接口。调用外呼接口发起通话后，返回参数中会携带 CallId，使用获取的 ...