能用语音-能用语音文档介绍内容-移动阿里云

产品更新动态

TTS服务支持第三方音色克隆能力描述：TTS服务支持第三方音色克隆能力，即在语音&VUI配置中选择使用自定义服务后，点击克隆音色按钮，通过上传对应音色ID即可使用。使用前需要注意是否在系统管理中进行第三方语音配置授权。上线声音克隆...

微信小程序

本文介绍如何使用智能语音交互一句话识别的微信小程序SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。微信基础库要求2.4.4及以上版本。请确认已经安装微信小程序开发环境，并完成...

场景管理

自有语音服务：选择自有语音服务，可使用此账号下智能语音交互产品的个性化配置，智能语音交互产品将收取相应费用，请谨慎开启，如与云联络中心1.0版本的IVR对接，暂不支持使用自有语音服务。声音风格：根据需要选择不同的声音风格，如...

音频采集和播放说明

使用如下命令查看 file input.wav 预期结果 16000 Hz采样率、16 bit采样位数、单声道（mono）的无压缩WAV格式如下图所示：Windows操作系统下查看语音格式在Windows操作系统中，您可以选中目标语音，单击鼠标右键，选择属性，可以查看更多...

内容设置

播放（仅限 RAG）：使用配置好的文字转语音，播放当前消息。目前仅支持 RAG 技能响应消息播放。文字转语音：使用播放行为时生效，用于播放当前消息。可参考文字转语音（阿里云智能语音交互）。通用角色内容设置设置开启头像和内容分行...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

SSML标记语言介绍

SSML不仅控制语音合成能读什么，更能控制语音合成可以怎么读，包括控制断句分词方式、发音、速度、停顿、声调和音量等特征，甚至加入背景音乐。说明阿里巴巴语音合成服务的SSML实现基于 W3C 的语音合成标记语言版本1.0。但并不支持W3C包含...

Go SDK

本文介绍如何使用智能语音交互一句话识别的Go SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。请确认已经安装Golang环境，并完成基本配置。SDK支持Go 1.16及以上版本。下载安装 ...

SSML标记语言介绍

SSML不仅控制语音合成能读什么，更能控制语音合成可以怎么读，包括控制断句分词方式、发音、速度、停顿、声调和音量等特征，甚至加入背景音乐。说明阿里巴巴语音合成服务的SSML实现基于 W3C 的语音合成标记语言版本1.0。但并不支持W3C包含...

云智能App使用天猫精灵控制设备

当选择交互端为云智能App时，可以开启语音交互天猫精灵控制口令的按钮，接入天猫精灵语音，使用天猫精灵音箱进行语音控制设备。调试设备使用云智能App配网绑定了您的测试设备后，可以根据下方消费者使用步骤，绑定天猫精灵，即可实现...

SubmitAudioProduceJob-提交智能语音任务

Id*2bcbfcfa30fccb36f72dca22*智能语音任务执行结果可以用智能语音任务 JobId 通过获取智能任务结果接口查询任务执行详细信息，任务执行成功时获取智能任务结果接口返回结果示例如下。说明 AI_TTS 默认根据中文逗号、句号等标点符号...

声音复刻

使用音色进行语音合成调用语音合成接口，传入上一步获得的音色。此步骤指定的语音合成模型必须和上一步的 target_model 一致。2.模型配置与准备工作选择合适的模型并完成准备工作。模型配置声音复刻时需要指定以下两个模型：声音复刻...

声音设计

使用音色进行语音合成。调用语音合成接口，传入上一步获得的音色。此步骤指定的语音合成模型必须和上一步的 target_model 一致。2.模型配置与准备工作选择合适的模型并完成准备工作。模型配置声音设计时需要指定以下两个模型：声音设计...

前端IMSDK访客端文档接入

设置基础配置参数 window.ccImSdk.visitorCcImSdk.setConfig({ visitorId:'xxxxxxxx',/必填且唯一，用以区分不同访客 ajaxToken:'xxxx',/必填，渠道连接中的token参数 ajaxPath:'/v-api',/接口请求的pathname });渲染界面渲染IM容器界面，...

移动端iOS Lite SDK

如果传入表示接着聊 parameters upstream type string 是上行类型：AudioOnly 仅语音通话 AudioAndVideo 上传视频 mode string 否客户端使用的模式，可选项：push2talk tap2talk duplex 默认tap2talk audio_format string 否音频格式，...

聊天

它由可高度定制的会话列表和输入区域组成，为开发者提供了开箱即用的 AI 对话界面解决方案。该组件不仅提供直观的用户交互视图，还可以和百炼应用或模型服务无缝集成，使构建 AI 会话系统变得简单高效，适用于各种 AI 对话场景的快速开发和...

接口与实现

使用须知支持的输入格式：PCM（无压缩的PCM或WAV文件）、OPUS、SPEEX、MP3、AAC格式，16 bit采样位数、单声道（mono）。支持的音频采样率：16000 Hz、8000Hz。支持的单次记录时长：24小时。支持设置返回结果：是否返回中间识别结果。支持...

API概览

如果现有SDK不能满足使用需求，可通过签名机制进行自签名对接。由于自签名细节非常复杂，需花费 5个工作日左右。因此建议加入我们的服务钉钉群（147535001692），在专家指导下进行签名对接。在使用API前，您需要准备好身份账号及访问密钥...

发送语音任务

模板类型决定了您能发送的语音内容。语音通知文本转语音模板语音通知文件模板语音验证码模板说明如果您未配置对应专属模式模板，请先配置模板。具体操作，请参见创建语音模板。外呼号码选择一个已关联真实号码的服务实例。重要如果...

通过API使用语音通知/语音验证码

语音通知/语音验证码是通过电话呼叫的方式向指定号码发送语音通知或对验证码进行语音播报，可以调用API接口发送语音通知或语音验证码。使用须知文本转语音模板和语音通知文件审核通过后才可以使用。针对同一个“资质信息+号码用途”，...

通过OpenAPI复刻

SignatureMethod String 是签名算法：HMAC-SHA1 SignatureVersion String 是签名算法版本：1.0 SignatureNonce String 是唯一随机数uuid，用于请求的防重放攻击，每次请求唯一，不能重复使用。格式为A-B-C-D-E（A、B、C、D、E的字符位数...

音色列表

语音合成支持使用的阿里云百炼平台模型：CosyVoice-v3-Flash大模型、通义千问3-TTS-Flash-Realtime、CosyVoice-v3-plus大模型、Sambert语音合成模型、多模态交互轻量版语音合成、通义千问-TTS。语音合成支持使用以下模型：模型名称模型...

SingleCallByTts-发送语音验证码或文本转语音类型的...

本接口支持发送语音验证码或文本转语音类型的语音通知，如您需要发送语音通知文件类型的语音通知，请至语音服务控制台上传语音文件后使用 SingleCallByVoice 接口。QPS 限制单用户调用频率：1000 次/秒。调试您可以在OpenAPI Explorer...

SingleCallByVoice-发送语音通知文件类型的语音通知

语音通知文件不支持变量参数，如您需要发送带变量的语音通知，请至语音服务控制台申请文本转语音模板后使用 SingleCallByTts 接口。如果需要批量发送语音任务，请使用 CreateCallTask 接口创建语音任务（创建语音任务仅限专属模式且需...

最佳实践

预处理视频文件以提高文件转写效率 Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，因此建议您对视频文件进行预处理。仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低文件尺寸、减少API...

集成概览

通过编程的方式在业务系统中集成语音服务的能力，做到根据业务的实际需要自动化发起语音呼叫，简化运营、管理成本。本文为您介绍语音服务开放的OpenAPI及支持的集成方式。OpenAPI介绍为了能够让开发者快速高效的学习和使用云产品OpenAPI，...

iOS SDK（旧版）

本文介绍了如何使用阿里云智能语音服务提供的旧版iOS SDK，包括SDK的安装方法及SDK代码示例。请注意，新用户请关注新版iOS SDK。注意推荐您使用新版本iOS SDK，本版本后续将不再更新。详情请参见 iOS SDK。前提条件首先阅读接口说明，...

管理项目

智能语音交互中的一个项目代表一个业务场景，由于各个场景的词汇各异，如果您有多个业务场景，可以创建多个项目，并根据各项目业务特点做个性化配置。本文为您介绍如何创建以及配置管理智能语音交互项目。前提条件已开通智能语音交互服务...

智能语音交互SDK合规配置指引（鸿蒙）

根据《个人信息保护法》、《数据安全法》、《网络安全法》等...SDK隐私政策条款模板 SDK名称：智能语音交互移动端SDK 使用目的：用于进行智能语音交互运营方：阿里云计算有限公司收集个人信息类型：无隐私权政策：智能语音交互产品隐私政策

语言模型定制

功能优势通过使用阿里云语音自学习工具，您可以在操作界面上传训练语料文本，并选择对应领域的语言基础模型，对训练语料做模型训练，从而有效提高该场景的语音识别率。尤其针对专有名词和高频词汇，有较好的优化效果。定制语言模型的方式 ...

Java SDK

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。使用说明在使用SDK之前，请先阅读接口说明，详情请参见接口说明。为使用长文本语音合成服务，请将SDK版本更新至2.1.1及以上。下载安装从Maven...

Java SDK

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。前提条件使用SDK前，请先阅读接口说明，详情请参见接口说明。已准备项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token...

智能语音交互系统权限策略参考

本策略由智能语音交互定义和使用，您不能修改或删除，请勿将其授权给服务关联角色之外的RAM身份。查看策略详情授权操作参考 RAM 身份默认没有任何权限，需要由阿里云账号管理员为其授权后才能访问阿里云账号下的资源。为保证资源的数据...

智能语音交互SDK合规配置指引（iOS）

根据《个人信息保护法》、《数据安全法》、《网络安全法...} } SDK隐私政策条款模板 SDK名称：智能语音交互移动端SDK 使用目的：用于进行智能语音交互运营方：阿里云计算有限公司收集个人信息类型：无隐私权政策：智能语音交互产品隐私政策

Java SDK

StreamInputTtsListener 对象和 StreamInputTts 对象是一一对应的，不能将一个 StreamInputTtsListener 对象设置到多个 StreamInputTts 对象中，否则不能将各语音合成任务区分开。Java SDK依赖Netty网络库，如果您的应用依赖Netty，其版本...

iOS SDK

本文介绍了如何使用阿里云智能语音服务提供的iOS NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件阅读接口说明，详情请参见接口说明。已准备项目Appkey，详情请参见创建项目。已获取Access Token，详情请参见获取Token概述。...

呼叫设置

流控白名单申请使用专属模式外呼语音通知或语音验证码的用户，可以在语音服务控制台申请流控白名单：登录语音服务控制台。在左侧导航栏选择通用设置。单击呼叫设置呼出流控-频次。单击申请。根据页面提示信息填写申请单：根据您的...

创建服务实例

阅读此文档了解服务实例的定义、功能及使用限制，并可根据相关操作指南在语音服务控制台完成服务实例的申请、绑定/解绑真实号及其他操作。前提条件已提交企业资质并通过审核。已新增话术并通过审核。使用说明鉴于申请的真实号码存在 ...

语音服务系统权限策略参考

本策略由语音服务定义和使用，您不能修改或删除，请勿将其授权给服务关联角色之外的RAM身份。查看策略详情授权操作参考 RAM 身份默认没有任何权限，需要由阿里云账号管理员为其授权后才能访问阿里云账号下的资源。为保证资源的数据安全，...

Java SDK

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。前提条件获取鉴权需要的Appkey以及Token。具体操作，请参见管理项目和通过SDK获取Token。如果通过SDK方式接入，需要下载安装SDK。具体操作，请...