方言语音转文字-方言语音转文字文档介绍内容-移动阿里云

服务端API参考

获取旁路转推任务状态事件回调创建订阅房间消息回调查询订阅房间消息列表查询回调记录更新订阅房间消息回调删除订阅房间消息回调质量数据查询实时音视频指标数据实时语音转文字/翻译创建实时语音转文字或翻译查询实时语音转文字...

AI Chat 应用语音转文字功能启用指南

本文介绍如何在 AI Chat 应用中启用语音转文字功能。步骤一：创建阿里云智能语音交互语音识别项目进入阿里云智能语音交互，并开通服务进入阿里云智能语音交互-全部项目，创建项目创建项目，选择“语音识别+语音合成+语音分析”或“仅...

集成阿里云智能语音交互

功能介绍魔笔平台的阿里云智能语音交互集成支持以下能力：语音转文字：通过配置 语音转文字（阿里云智能语音交互）扩展，可以一键完成从开启录音到转义为文字的整个流程。使用阿里云智能语音交互集成步骤 1：创建阿里云智能语音交互集成 ...

语音转文字（阿里云智能语音交互）

文档将指导您如何创建和使用语音转文字（阿里云智能语音交互）扩展。创建插件打开“代码”面板，点击对应作用域的“+”后选中“语音转文字”。选择已创建的阿里云智能语音交互集成作为资源，选择 API 后会展开该 API 下的所有参数，配置...

智能翻译

为提高会议的沟通效率，钉钉会议云为您提供字幕功能，实时语音转文字，同时还支持中英互译，跨国会议消除语言障碍。您可以阅读本文了解智能翻译的操作步骤。前提条件您需要先创建钉钉会议或者加入钉钉会议。具体操作，请参见创建会议、...

模型列表

语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音识别、Gummy语音识别/翻译、Paraformer语音识别和 SenseVoice语音识别可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy语音...

模型效果评测

语音识别检测，可以直观的看到指定语音模型语音转文字的识别准确率，通过人工校验得到正确的文本标注结果，用来训练您的自定义模型；通过型对比可以看到每次优化后的准确率提升情况，从而让您十分高效的提升语音转文字的识别准确率。提升...

热词模型

语音转文字时，如果在您的业务领域有一些特有的词，默认识别效果较差的时候可以考虑使用热词模型功能，将这些词添加为热词，改善这部分词的识别结果。热词组设置后无需训练即可生效，只需在语音转文字时（也就是新建数据集质检任务时，以及...

产品优势

模块划分能力说明语音转写 语音转文字：能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、中英混、日语、韩语的转写。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。说话人分离：能够将...

内容设置

语音输入需要绑定语音转文字，可参考 语音转文字（阿里云智能语音交互）。开启文件输入后，请结合所使用的大模型所处平台的相关文档，对上传的文件进行消费。若对接百炼平台，可参考如何快速构建具有文件交互能力的百炼聊天应用。将发送...

含UI集成方案

支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里...

含UI集成方案

支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里...

含UI集成方案

支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里...

消息对话快速入门

说明若要实现语音识别或文本朗读功能，您必须配置以下节点：配置 STT 语音转文字 节点可以实现按键语音识别。配置 TTS 文字转语音节点可以实现文本朗读。STT 语音转文字 该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统...

AI实时互动场景

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

AI实时互动场景

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

AI实时互动概览

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

DeleteRtcAsrTask-删除实时语音转文字或翻译任务

调用DeleteRtcAsrTask删除实时语音转文字或翻译任务。接口说明本接口的单用户 QPS 限制为 20 次/秒。超过限制，API 调用会被限流，这可能会影响您的业务，请合理调用。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的...

数据集管理

话者角色配置系统会随机选取一个文件，如果是语音文件需要点击页面中的开始音频转写按钮，对该文件进行语音转文字，转写完毕后，需要根据对话文本进行话者角色配置。由于录音文件分为单轨录音和双轨录音，话者角色配置方式有所不同，...

语音服务使用FAQ

语音服务不支持实时文字转语音功能或语音转文字功能。语音IVR交互式语音应答是否支持按键重听？语音IVR不支持设置按键重听。使用流程请参见通过API使用语音互动（语音IVR），API调用请参见 IvrCall-向指定号码发起交互式语音通话。语音...

AI实时互动

则各个模块的费用如下：AI智能体平台服务：计费时长为20分钟=10次*2分钟，费用为0.656 元=20分钟*0.0328元/分钟 语音转文字：计费时长为20分钟=10次*2分钟，费用为1.16元=20分钟*0.058元/分钟文字转语音：计费时长为20分钟=10次*2分钟，...

非开发者使用指南

语音识别（语音转文字）在语音识别处单击去配置，选择语言后，单击右下角麦克风按钮开始识别，完成后单击确认使用。语音合成（文字转语音）在语音合成处单击去配置，选择声音后，在右侧文本框输入文字，单击右下角扬声器按钮开始...

电话呼出&呼入快速入门

智能体通过运营商线路...示例：使用1个专属号码，1个月，1000分钟的AI实时互动电话呼出的费用：35（专属号码月租）+110（语音通知费用）+32.8（AI智能体平台服务）+58（语音转文字）+7.2（文字转语音）=243元。更多功能实现如何实现自动挂断

产品简介

全流程使用专属的汽车领域语音转文字（ASR）和模型监督微调（SFT）后的洞察模型，转写及洞察准确率高。可支持电话、手机、工牌、车载拾音等多种方式。购车客户画像：对客户购车过程中电话、门店、试驾等全流程场景，根据客户提到的问题进行...

使用指南

通义听悟任务：填写当前应用历史已完成的转写任务ID（TaskID），可节省语音转文字成本。说明任务创建成功后，系统将在响应中返回TaskID字段。对话内容：按格式录入对话内容文本，也可节省语音转文字成本。示例1：发言人1：对话内容。发言...

计费说明文档

模型服务包含了ASR（语音转文字）、LLM理解和生成服务、TTS（文字转语音）、意图识别、指令识别、长期记忆等能力，文生图、图生图除外。计费逻辑：您在下单时，可以指定单台设备包含的对话次数。在激活该设备时，会自动将对应次数充值进入...

使用指南

通义听悟任务：填写当前应用历史已完成的转写任务ID（TaskID），可节省语音转文字成本。说明任务创建成功后，系统将在响应中返回TaskID字段。对话内容：按格式录入对话内容文本，也可节省语音转文字成本。示例1：发言人1：对话内容。发言...

语言模型

试试效果试试效果功能，是使用指定的语言模型对已经上传的数据集中的文件进行语音转文字。对于通用模型，试试效果只能查看通用模型自己的转写结果，对于自定义模型，可以查看自定义模型与通用模型两个模型的转写结果，可以直观的看到两个...

新功能发布记录

2025-04-03 语音转文字（阿里云智能语音交互）2025 年 3 月功能名称功能概述发布时间相关文档多人协作支持多用户同时编辑同一应用。2025-03-27 应用主题支持设置应用主题。2025-03-20 应用主题设置新增 Dify 集成支持快速接入 ...

智能处理后参与视频合成

AI_ASR语音转文字并将字幕合并到视频中通过设置"Type":"AI_ASR"，可以将音视频中的语音转换成文字。同时，还可以设置字幕样式，例如字体、颜色等。说明 语音转文字服务只支持华东2（上海）、华北2（北京）、华东1（杭州）和华南1（深圳）...

API概览

用量查询 API 标题 API概述 DescribeLiveDomainRecordUsageData 查询直播录制路数、转封装用量调用DescribeLiveDomainRecordUsageData查询直播录制路数、转封装用量。DescribeLiveDomainSnapshotData 查询直播域名截图张数数据调用...

直播ASR乱码识别

直播ASR乱码识别服务适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。说明本服务由NLP自学习平台提供，直接调用API即可使用。服务开通与资源包购买使用前，请确认是否已经开通服务，开通后可购买...

使用指南

通义听悟任务：填写当前应用历史已完成的转写任务ID（TaskID），可节省语音转文字成本。说明任务创建成功后，系统将在响应中返回TaskID字段。会议文本内容：按格式录入对话内容文本，也可节省语音转文字成本。示例1：发言人1：对话内容。...

聊天

语音转文字：开启语音输入时生效，用于将音频转化为文字。可参考 语音转文字（阿里云智能语音交互）。图片输入：是否开启图片输入，开启后发送内容将支持图片输入。图片上传路径：开启图片输入时生效，用于选择系统文件存储中的图片上传...

AI实时互动

易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。高度拟人化：阿里云通过持续迭代和优化智能降噪、智能...

QueryRtcAsrTasks-查询实时语音转文字或翻译

查询当前已创建的实时语音转文字或翻译任务的状态信息。接口说明本接口的单用户 QPS 限制为 20 次/秒。超过限制，API 调用会被限流，这可能会影响您的业务，请合理调用。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的...

智能外呼机器人

智能外呼是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音(Text To Speech，TTS)以及自然语言理解（Natural Language Understanding，简称NLU）技术并面向企业客户提供的一款智能客服机器人产品。智能外呼机器人...

Android

实时字幕功能为线上会议、在线教育等场景提供实时的语音转文字服务，这项功能可以帮助参会者更好的理解会议内容。DingRTC为您提供了实时字幕的功能。通过阅读本文，您可以了解Android端集成实时字幕能力的方法。一、集成说明请集成3.8.0及...

HarmonyOS Next SDK

ASR中一句话识别和录音文件极速版支持OPUS数据，实时语音转文字仅支持PCM编码、16 bit采样位数、单声道（mono）。具体详情，请参见接口说明。接口调用超时引起的应用无响应退出问题如何处理？可以参考示例代码中的OneSentenceAsrWorker....

CreateAppAgentTemplate-创建智能体模版

AsrConfig object 否 语音转文字设置。Name string 是名称。STT MaxSentenceSilence integer 否语音断句检测阈值，默认 500ms，允许范围[200，6000]。300 WordWeights array object 否每个词表最多包含 500 个热词，每个热词中文长度不...