开发语音转文字-开发语音转文字文档介绍内容-移动阿里云

产品简介

自动纪要：实时识别视频通话的语音内容，并按照时间分角色交替文字记录对话内容。自动确认：识别客户对风险提示的语音确认，辅助坐席判断客户的意向。增强功能屏幕共享：将本端的屏幕内容投送到其他端。截图：支持远程控制摄像头拍照、本...

智能语音交互呼入业务流程

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。具体操作指引，请参见配置回调接口。步骤三：发起呼叫用户对指定号码发起呼叫，系统自动调用智能语音交互呼入回调HTTP接口，接收过程中用户语音实时转写的文本消息。业务...

文字识别

阿里云文字识别（Optical Character Recognition，OCR）可以将图片中的文字信息转换为可编辑文本，根据客户的业务场景和需求，将产品分为了通用文字识别、个人证照识别、票据凭证识别、教育场景识别、车辆物流识别、企业资质识别、小语种...

智能语音交互呼入回调HTTP接口

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。单击保存。您也可以单击右侧测试按钮，对配置信息进行测试。回调接口规范规范说明接口协议 HTTP 方式 POST 字符编码格式 UTF-8 示例与参数智能语音交互呼入回调HTTP...

接口说明

离线语音合成是指在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。产品体验更多合成效果可至离线语音合成产品详情页进行体验。功能介绍离线语音合成主要包括以下功能，暂不支持多实例调用。提供语速调节...

语音合成FAQ

本文汇总了您在使用语音合成服务时的常见问题。语音合成类常见问题主要分为以下几类：功能类为什么TTS语音合成的语音和wav文件显示的时间长度不一致？例如语音文件显示长度是7秒钟，但实际语音只有不到5秒？语音合成时间戳功能是什么？...

功能特性

统计检测用量内容审核1.0版内容审核提供图片、视频、语音、文字、网页等多媒体的内容风险智能识别和审核服务，帮助用户发现色情、暴恐、政治敏感等风险内容。功能集功能功能描述参考文档图片审核1.0版图片色情识别识别图片色情和...

Notebook 查询与分析

Markdown开发使用Markdown语法进行文字内容开发。运行Notebook 完成Notebook的单元格开发后，对所有单元格进行测试运行，也可以仅对单个单元格进行测试运行。运行全部单元格：编辑完成Notebook后，单击上方按钮，测试运行该Notebook节点...

Latex能力支持说明

表示实际公式内容）：$.$.$$.$\[.\]例如，文本“让我们做一道算术题，$2+3=5$”转成语音后的中文读法为：“让我们做一道算术题，二加三等于五”。注意事项在字符串字面量中，转义字符应使用双反斜杠 \\ 进行转义，即：\a→\\a→\ \t→\\...

音频采集和播放说明

本文主要介绍多模交互开发套件中的输入输出语音格式，以及格式不符合要求时的常见问题及解决方法。音频格式说明类型可选参数设置语音格式说明语音识别 upstream.audio_format 支持的输入格式："pcm"：PCM编码（无压缩的PCM或WAV），16...

应用场景

热线智能语音您可以将本产品集成在您购买或自研的呼叫中心产品上，针对“呼入”、“呼出”两类行为，由您自行调用ASR（语音转文本）与TTS技术（文本转语音）服务转为文本，再调用本产品服务获得机器人回复结果。在此场景下，您需要在本...

常见问题

功能介绍语音合成支持哪些音色？CosyVoice-V2 支持的音色请参见：语音合成-CosyVoice/Sambert 中 CosyVoice音色列表（CosyVoice-V2）。Sambert 支持的音色请参见：语音合成-CosyVoice/Sambert 中 Sambert音色列表。通义千问-TTS 支持的...

语音模板FAQ

语音模板分为文本转语音模板和语音通知文件。文本转语音模板：指模板的内容是文本，在播放时自动转化为语音。例：尊敬的阿里云用户您好，您的验证码是${vericode}。变量是：${vericode}。语音通知文件：指预先录制好的音频文件（MP3或WAV...

通过控制台使用语音通知/语音验证码

本文介绍如何通过语音服务控制台，向批量号码发起语音通知或 ...相关文档通过控制台上传语音文件创建语音模板发送语音任务真实号申请创建服务实例语音计费FAQ 语音模板FAQ 语音通知/语音验证码FAQ 语音号码FAQ 服务实例FAQ 视频教程

ListCallTask-获取通话任务状态列表

如果是语音通知文本转语音模板，可以在语音服务控制台文本转语音模板页面获取模板名称。如果是语音通知文件模板，可以在语音服务控制台语音通知文件页面获取语音文件名。如果是语音验证码模板，可以在语音服务控制台语音验证码页面...

智能语音交互呼出回调HTTP接口

说明接收地址用于接收语音实时转文本结果并返回下一步执行动作。单击保存。您也可以单击右侧测试按钮，对配置信息进行测试。回调接口规范规范说明接口协议 HTTP 方式 POST 字符编码格式 UTF-8 请求样例 ...

普通节点

语音配置：语音配置是指在使用语音技术或语音识别系统时，对系统进行各种参数设置和调整的过程。通过语音配置，使系统能够适应不同的环境和语音特点。用户说用户说中可以定义在这个交互节点中，后续用户的回复分支。单击新建用户说分支，...

回调HTTP接口

语音服务支持通过回调接口将语音文本等通话信息返回给业务方，以此实现业务联动。当前支持以下回调接口：智能语音交互呼出回调HTTP接口语音平台发起呼叫后，通过智能外呼回调HTTP接口，在通话中把转换后的语音文本回传给业务方，业务方把...

接口说明

语音合成提供将输入文本合成为语音二进制数据的功能。功能介绍 NUI SDK提供更小的工具包和更完善的状态管理。为满足不同用户需求，NUI SDK既能够提供全链路的语音能力，同时可做原子能力SDK进行使用，并保持接口的统一。语音合成功能支持...

视频翻译

语音级语音级翻译是指将视频中的语音内容转换为文本，然后将文本翻译成目标语言。翻译后的文本可以通过语音合成技术生成目标语言的语音，并替换原视频中的语音。创建视频翻译任务登录 EchoMind。在左侧导航栏选择媒体处理视频翻译。在 ...

应用场景

功能场景产品功能功能概述应用场景场景示例语音通知通过调用API向指定号码发起一通呼叫，呼叫被应答后，播放一段指定的音频，支持播放文本转语音的音频，也支持直接播放录音文件。语音通知作为短信通知的有效补充，提供多样化的通知...

机器人话术审核标准

话术规范话术需明确表述呼叫场景下语音发送的实际内容，可以包含变量，变量前后需加文字说明，以体现呼叫场景下话术使用者的商业意图，不支持仅为变量或多个变量的组合。正确示例：“你好：${content}”，或：“你好：${name}，${content}...

三方语音调试

当设备选择开通三方语音服务并完成开发后，为了测试设备能够正确地调用三方语音平台的技能进行设备同步、控制等操作，需要使用第三方语音服务对设备进行调试。三方语音调试操作步骤登录生活物联网控制台。进入产品的设备调试页面。单击...

运行示例

本文基于使用主账号且从控制台获取测试Token的方式，为您介绍快速入门体验或轻量级开发测试，助您快速体验语音产品能力。前提条件已按照从这里开始完成准备阿里云主账号、开通服务、管理项目和通过控制台获取Token等操作。体验方式使用...

智能语音交互呼出业务流程

本文为您介绍了智能语音交互呼出的使用流程。前提条件注册阿里云账号并完成企业实名认证。已开通语音服务。申请企业资质并审核通过。您已购买外呼号码。具体操作，请参见真实号管理。背景信息智能语音交互呼出接口需要与智能语音...

语音审核增强版对接第三方音视频通信RTC

方案二：旁路转推流技术架构火山引擎RTC支持通过旁路推流功能将主播房间的语音内容推送到网络CDN，即转换成直播流形式的流地址语音内容，转换后便可接入语音审核增强版API检测语音内容是否包含违规信息。计费说明使用转推直播方案，主要...

WebSocket协议说明

如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的Java、C或C++的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。功能介绍阿里云智能语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能，支持...

服务介绍

阿里云物联网平台针对播报设备提供千里传音语音播报服务，帮助您高效完成大规模播报类设备的部署，实现智能语音播报。使用限制仅华东2（上海）地域支持使用千里传音语音播报服务。重要目前仅支持已开通千里传音服务的用户使用，不再支持...

语音号码FAQ

使用语音服务申请的号码外呼时仅显示号码，目前不支持在被叫端显示公司名称或产品名称等文字信息。如有此需求请关注后续产品更新。语音号码怎么注销？购买语音号码后，可以登录语音服务控制台，在真实号管理页面注销号码。注销后该号码...

产品优势

在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。识别速度快采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；中国独创的LFR解码技术，在不...

SmartCall-发起智能语音交互通话

智能语音交互服务，是一种人机交互技术，它允许用户通过语音与机器进行自然的对话和沟通。接口说明 SmartCall 需要与智能外呼回调 HTTP 接口联合使用，语音平台发起呼叫后会把转换后的语音文本回传给业务方，业务方把下一步的执行动作...

后续呼入回调

content JSON 是 {"role":"B","identity":"id2","words":"你好","begin_offset":"1000","end_offset":"9000","begin_time":"2017-06-01 10:00:00"} 具体的语音内容，JSON格式。详细说明请参考下表。当 content_type 为 normal 时，content ...

模型上架与更新

语音合成-通义千问文字提取 2025-11-21 qwen-vl-ocr-2025-11-20（快照版）通义千问文字提取模型，该快照版基于Qwen3-VL架构，大幅提升文档解析、文字定位能力。文字提取语音识别 2025-11-20 qwen3-asr-flash-filetrans、qwen3-asr-flash-...

RecognizeBasic-电商图片文字识别

接口说明本接口适用场景阿里云电商图片文字识别，是阿里云官方自研 OCR 文字识别产品，支持电商商品宣传图片、社区贴吧图片、网络 UGC 图片识别，针对电商海量图片内容核查就场景进行特定优化，只输出文字块内容及坐标，极大提升识别效率...

数据过滤器

通过数据过滤器可以将接口（数据分析服务、自定义接口或服务开发工作台）返回的数据转换成您所需要的内容，并展示在Web可视化组件上。本文介绍数据过滤器的使用方法。过滤方法过滤方法支持数据过滤脚本和数据表配置两种过滤方法：数据过滤...

开发可视化茶园监控大屏

您可开发一个Web可视化应用来监控茶园，通过可视化的监控大屏实时展示和查询指定时间段中，茶园设备上报的每小时内的最高温度，实时掌握茶园温度的变化。操作步骤登录物联网应用开发控制台，在页面左上角选择对应实例后，在左侧导航栏...

RecognizeEnglish-英语作文识别

针对全英文图片文档场景下英文印刷体字符高效检测和识别，具备英文专项识别和英文分词功能，支持旋转、表格、文字坐标等多项基础功能。接口说明本接口适用场景阿里云英语专项识别，是阿里云官方自研 OCR 文字识别产品，适用于全英文图片...

移动开发平台 mPaaS 合规使用说明

披露示例（仅供参考，请以实际业务情况为准）：以文字方式向最终用户告知第三方 SDK 名称：移动开发平台 mPaaS 第三方名称：萨思数字科技（北京）有限公司收集的个人信息类型：设备信息（AndroidID、BSSID）、当前正在运行应用列表、安装...

概述

发送框：AI 会话中发送消息的操作界面，支持文字、语音、多模态输入等多种交互形式。会话管理：导航类组件，会话管理主要用于展示一组或多组历史 AI 会话记录，并提供针对单个会话的操作界面。思维链：思维链组件，用于展示聊天过程中AI的...

号码申请/开通

前提条件由于申请号码的入口已转移至语音服务控制台，故以下前提条件请您根据指引，在语音服务控制台进行操作。已提交企业资质，并审核通过。详情请参见提交企业资质。已新增话术，并审核通过后。详情请参见新增话术。说明该话术...