开发语音转文字-开发语音转文字文档介绍内容-移动阿里云

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信...智能语音交互增值服务 ASR 提供语音识别，语音转文本服务。录音提供录音服务。行业云联络中心_座席提供坐席服务。

通信智能引擎

创建语音转文本热词库（可选）：通过创建热词库，关联至大模型应用。具体操作请参见 语音转文本热词库。创建个性化音色（可选）：通过创建个性化音色，关联至大模型应用并进行呼叫音色配置。具体操作请参见个性化音色。回执消息配置：通过...

含UI集成方案

支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里...

IvrCall-向指定号码发起交互式语音通话

您可以登录语音服务控制台，在语音消息语音通知文本转语音模板页面查看模板 ID。TTS_1234*StartTtsParams string 否文本转语音模板内的变量参数，格式为 JSON。说明当 StartCode 为文本转语音模板（TTS）且模板中带变量的情况下，此...

创建语音模板

语音模板即用户听到的音频内容，您在发送语音通知和语音验证码前，需要先创建语音模板，审核通过后即可发送语音任务。注意事项文本转语音模板目前仅支持在语音服务控制台创建，暂不支持API接口创建模板。申请创建的文本转语音模板需...

基本概念

本文为您介绍智能语音交互服务中的相关概念，以便于更好地理解本产品。采样率（sample rate）音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。目前语音识别服务支持16000Hz和8000Hz两种采样...

使用语音审核增强版识别语音违规风险

此时，待审核语音转文本为欢迎来到直播间，双击点赞，粉丝牌加房管得主播好友位，那么房管、粉丝先被忽略掉，只对欢迎来到直播间，双击点赞，牌加得主播好友位进行风险检测。选择用于命中的词库，然后单击确定。命中词库的任何一个...

CreateCallTask-创建语音通话任务

使用服务实例给多个被叫号码创建文本转语音任务、语音通知任务和语音验证码任务。接口说明此接口仅支持专属模式且通话号码需要使用已绑定真实号的服务实例，服务实例下未绑定真实号码时无法发起外呼。相关操作请参见真实号申请及创建...

消息对话快速入门

说明若要实现语音识别或文本朗读功能，您必须配置以下节点：配置 STT 语音转文字 节点可以实现按键语音识别。配置 TTS 文字转语音节点可以实现文本朗读。STT 语音转文字 该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统...

发送语音任务

本文介绍如何在语音服务控制台的任务中心，通过服务实例号码发送文本转语音任务、语音通知任务和语音验证码任务。注意事项号码模式限制：控制台任务中心目前仅支持使用服务实例发送任务，不支持使用普通号码或400号码。外呼...

通过API使用语音通知/语音验证码

语音通知/语音验证码是通过电话呼叫的方式向指定号码发送语音通知或对验证码进行语音播报，可以调用API接口发送语音通知或语音验证码。使用须知文本转语音模板和语音通知文件审核通过后才可以使用。针对同一个“资质信息+号码用途”，...

实时质检结果

（如图）演示场景1 当前客户和客户文字未触发预警提示当客户语音文字被检测到符合预设模型的状态时，命中规则。在工作台进行提示。实时质检结果查询通话结束后在呼叫中心质检任务管理实时语音结果/实时文本结果中看到质检的结果，您也...

智能化配置

可参考实时语音转写中的开启语音文本推送的三种方法，开启 语音转文本功能。完成配置后，在对话中即可开启智能分析功能，每通电话结束后可以查看分析结果，或者也可以进入语音业务话务报表通话记录中，选择通话详情查看智能分析...

电话呼出&呼入快速入门

智能体通过运营商线路...示例：使用1个专属号码，1个月，1000分钟的AI实时互动电话呼出的费用：35（专属号码月租）+110（语音通知费用）+32.8（AI智能体平台服务）+58（语音转文字）+7.2（文字转语音）=243元。更多功能实现如何实现自动挂断

API概览

发送语音验证码 API 标题 API概述 SingleCallByTts 发送语音验证码或文本转语音类型的语音通知调用接口给单个被叫号码发送语音验证码或文本转语音类型的语音通知。语音通话任务 API 标题 API概述 CreateCallTask 创建语音通话任务使用...

语音通知/语音验证码FAQ

您在使用语音通知/语音验证码时如果遇到疑问，可参考以下常见问题及处理建议。语音通知支持英文吗？语音通知支持中文和英文。语音通知服务，如果用户挂线，会不会重拨？不会重拨。语音流控频率规则是怎么样的？说明若同一主叫号码与被叫...

SingleCallByTts-发送语音验证码或文本转语音类型的...

调用接口给单个被叫号码发送语音验证码或文本转语音类型的语音通知。接口说明请在使用该接口前，了解语音服务套餐包及功能计费，详情请参见国内语音服务定价。文本转语音模板公共模式和专属模式不通用，如果您使用公共模式调用本接口，请...

新功能发布记录

2025-04-03 语音转文字（阿里云智能语音交互）2025 年 3 月功能名称功能概述发布时间相关文档多人协作支持多用户同时编辑同一应用。2025-03-27 应用主题支持设置应用主题。2025-03-20 应用主题设置新增 Dify 集成支持快速接入 ...

新手指引

产品使用阿里云语音服务提供多种功能产品，包含语音通知、语音验证码、语音互动、智能语音交互及智能语音机器人，可以根据使用场景或业务优势选择不同的语音产品。功能功能介绍使用方式说明语音通知/语音验证码向指定号码发起语音...

通义听悟实时流

使用推流地址开始音频数据的实时传输在完成语音业务时触发停止实时流操作通过通义听悟集成的停止实时任务操作停止实时任务功能介绍魔笔平台的通义听悟实时流功能支持以下特点：实时转写：语音输入可以实时转换为文字，并在集成操作中...

API&SDK常见问题

语音服务的文本转语音模板目前仅支持在语音服务控制台创建，暂不支持API接口创建模板，如果您需要创建模板或者查看您申请过的模板，请登录语音服务控制台查看。调用QueryCallDetailByCallId接口为什么Data中state等于200没有对应的运营...

什么是语音服务

产品架构面向未来的智能语音架构产品功能功能描述语音通知调用API向指定号码拨打电话并播放音频（支持文本转语音或录音文件），作为短信通知的补充手段，提供多样化、及时的通知方式以解决通知延迟问题。语音验证码调用API向指定...

新增话术

话术内容后续不会应用于语音外呼：实际外呼时接听用户听到的内容取决于您创建的文本转语音模板或上传的语音文件。在新增话术前，必须先完成申请企业资质并审核通过。登录语音服务控制台。在左侧导航栏中，选择资质话术管理场景&话术...

公共模式/专属模式FAQ

发起外呼时，调用 SingleCallByVoice-发送语音通知文件类型的语音通知或 SingleCallByTts-发送语音验证码或文本转语音类型的语音通知，主叫号码为空，模板ID使用公共模式号码外呼的模板。更多详情，请参见通过API使用语音通知/语音验证码...

通过API使用语音互动（语音IVR）

步骤2：准备语音素材所有用于通话的语音文件或文本转语音（TTS）模板，都必须提前在控制台上传或创建，并通过审核后方可使用。审核通常在1个工作日内完成。选项一：使用语音文件：登录语音服务控制台，上传一个WAV或MP3格式的语音文件并...

SingleCallByVoice-发送语音通知文件类型的语音通知

语音通知文件不支持变量参数，如您需要发送带变量的语音通知，请至语音服务控制台申请文本转语音模板后使用 SingleCallByTts 接口。如果需要批量发送语音任务，请使用 CreateCallTask 接口创建语音任务（创建语音任务仅限专属模式且需...

语音异步检测

本文介绍了使用API接口异步检测语音内容的方法。语音内容审核帮助您检测音频文件或语音流（例如直播流）中的风险或违规内容，例如垃圾信息、广告、涉政、暴恐、辱骂、色情、灌水、违禁、无意义等内容。（语音异步检测）使用说明业务接口：...

聊天

语音转文字：开启语音输入时生效，用于将音频转化为文字。可参考 语音转文字（阿里云智能语音交互）。图片输入：是否开启图片输入，开启后发送内容将支持图片输入。图片上传路径：开启图片输入时生效，用于选择系统文件存储中的图片上传...

音视频通话快速入门

STT 语音转文字 该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统预置：系统预置模型支持您选择语言模型、设置静默时间以及配置自定义热词。语言模型：您可以根据您的业务场景，选择不同的语言模型。静默时间：当用户没有...

语音播报最佳实践

本文是支付确认、实时活动通知等语音播报场景的最佳实践。前提条件请先确保已在EMAS控制台完成项目和应用的创建，若尚未完成，请详见快速入门。已阅读接入对应SDK，具体请参见 Android SDK接入、iOS SDK配置、HarmonyOS SDK接入。各...

应用场景

语音短消息发送或者接收语音短消息时，利用音频转文字能力，实现音频内容快速预览。视频实时直播字幕现场演讲场景、实时直播场景下，将视频中的音频实时转写为字幕，还可以进一步对内容进行管理。实时会议记录将会议、法庭庭审中的音频...

智能纪要

概念 RTC 智能纪要核心是一种语音转文本技术，可以将客户的语音识别成文字，并将识别结果存储在客户指定的对象存储中。场景 RTC 智能纪要可以完成但不限于以下几类场景：企业办公：OA、CRM等各类办公系统中集成RTC，可为企业提高会议、面试...

语音识别FAQ

语音转文本有没有优先级？比如现在正在转写任务，突然有紧急的转写任务，能调整处理优先级吗？针对两个用户打电话场景，哪个模型效果比较好？服务请求时长限制？“流式”模式和“非流式”模式识别的区别？什么是ASR尾点延迟？实时语音识别...

C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK，包括SDK的安装方法及SDK代码示例。SDK下载说明当前最新版本：3.2.1b，支持Linux平台。发布日期：2024年12月25日。使用SDK前，请先阅读接口说明，详情请参见接口说明。该版本C++ SDK ...

C++ SDK

本文介绍如何使用阿里云智能语音交互提供的C++ SDK，包括SDK的安装方法、SDK代码示例以及常见问题等。SDK下载说明当前最新版本：3.2.1b，支持Linux平台。发布日期：2024年12月25日。使用SDK前，请先阅读接口说明，详情请参见接口说明。...

什么是智能语音交互

实时语音识别对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。更多信息，请参见实时语音识别接口...

简介与SDK代码示例

计费说明声音复刻为免费服务，复刻成功后，使用文字转语音服务时会产生“语音合成CosyVoice大模型”相关的接口使用费用，当前价格为2元/万字符，详情请参见计费说明-后付费方式。前提条件了解相关条款并开通智能语音交互-流式文本语音...

语音&VUI

功能概述语音&VUI功能由若干项子功能组成，有关子功能介绍如下表所示：子功能项功能描述语音算法服务包含噪音过滤阈值、文字合成语音的语速、音量和语调设置等功能，支持使用系统内置或自定义语音算法服务。静音检测也称VAD阈值，用以...

事件

本⽂详细介绍了逻辑开发中的事件机制，包括平台⽀持的事件类型、事件处理器的配置和执⾏等。事件被触发时，将执行绑定的操作，可以类比为编程中的回调函数概念。事件类型在魔笔平台中，事件可分为应用事件、页面事件、页面组件事件、前端...

语音&智能VUI

第三方语音服务使用第三方的语音合成前提是需要在系统管理中配置第三方语音鉴权信息，同时由于开发能力的限制，会导致语音标注、变量、读法、停顿功能不可用。注意：第三方语音服务有不支持大模型场景，请注意区分。目前支持第三方克隆...