自动识别文字转语音-自动识别文字转语音文档介绍内容-移动阿里云

视频AI

产品信息：视频DNA 配置文档：视频DNA 智能标签智能标签服务通过分析视频中视觉、文字、语音、行为等信息，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签，将非结构化信息转化为结构化信息。...

音视频通话快速入门

您可以选择适合您应用场景的文字转语音模型，包括：系统预置模板、自研模板、三方插件或百炼。系统预置模板：选择预置模板时，您需要配置语音音色，各类型智能语音效果示例请参见智能语音效果示例。自研模板：您可以通过规范协议将您的...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

AI实时互动场景

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

AI实时互动场景

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

功能发布记录

语音转文字：预置阿里云通义产品能力语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与自主研发的模块进行对接。文生文大语言模型预置阿里云通义的产品能力选择阿里云百炼平台上已有的AI模型采用标准协议与自行研发的...

与智能体对话

系统会识别您的语音，并转成文字。您可以单击左侧图标取消输入，或单击右侧图标切换到打字输入。单击发送或者回车，系统将返回对话结果。对话列表您可以单击左上角的图标，查看历史的智能体对话。单击图标可进入新的智能体对话...

Android SDK

Android SDK是否可以上传OPUS音频数据，实现实时语音转文字？录音文件极速版：支持OPUS格式的音频文件。一句话识别和实时语音识别：仅支持用户输入PCM编码、16bit采样位数、单通道音频数据。支持PCM和OPUS两种音频传输格式（通过参数 sr_...

语音识别FAQ

语音转文本有没有优先级？比如现在正在转写任务，突然有紧急的转写任务，能调整处理优先级吗？针对两个用户打电话场景，哪个模型效果比较好？服务请求时长限制？“流式”模式和“非流式”模式识别的区别？什么是ASR尾点延迟？实时语音识别...

AI实时互动概览

语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、...

功能发布记录

2024年4月24日功能名称功能说明价格调整 语音转文字功能统一下调至0.6元/小时；大模型每个能力0.22元/小时，多个能力调用时叠加计费；视频PPT提取下调至0.8元/小时；翻译价格也同步下调。自定义Prompt 支持对转写结果自定义Prompt，根据...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

录音文件识别-Fun-ASR/Paraformer/SenseVoice

录音文件识别（也称为录音文件转写）是指对音视频文件进行语音识别，将语音转换为文本。支持单个文件识别和批量文件识别，适用于处理不需要即时返回结果的场景。应用场景会议、课堂录音记录：将录音文件转成文字，方便后期快速进行信息...

应用场景

功能场景产品功能功能概述应用场景场景示例语音通知通过调用API向指定号码发起一通呼叫，呼叫被应答后，播放一段指定的音频，支持播放文本转语音的音频，也支持直接播放录音文件。语音通知作为短信通知的有效补充，提供多样化的通知...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成/长文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo ...

Python SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论是从外部设备如麦克风获取的音频流，还是从本地文件读取的...

Android SDK

本文介绍了如何使用阿里云智能语音服务提供的Android NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件使用SDK前，首先阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取Access Token，详情请...

Python SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论是从外部设备如麦克风获取的音频流，还是从本地文件...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

视频翻译

字幕识别模型可以选择"语音识别"和"字幕识别"，语音识别会根据视频中的语音生成字幕，字幕识别会根据视频中的字幕生成字幕。4.创建项目点击创建项目，等待解析完成。项目创建成功后，可以点击分配译员。若不需线上进行人工编辑，只需要...

视频AI费用

说明需要开启的识别功能可以在智能标签任务模板中的分析类型中进行配置：分析类型中开启人脸识别、文字识别、语音识别分别对应视频人脸识别、视频文字识别标签、视频语音识别标签计费项。其他分析类型对应视频分类+结构化标签计费项...

数据集管理

语音转文本时，系统会自动将录音分为两个对话角色，但是出于一些客观因素系统无法准确识别哪个角色为客服，所以需要您根据文本内容来手工设置，选出哪一方为客服，则另一方即为客户。准确的进行话者角色配置非常重要，因为我们进行质检分析...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

产品概述

产品优势高精度语音识别能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。大模型全面...

模型效果评测

语音识别检测，可以直观的看到指定语音模型语音转文字的识别准确率，通过人工校验得到正确的文本标注结果，用来训练您的自定义模型；通过型对比可以看到每次优化后的准确率提升情况，从而让您十分高效的提升语音转文字的识别准确率。提升...

实时多模态交互协议（WebSocket）

语音识别支持的模型包括：Gummy实时语音识别（Gummy），Paraformer实时语音识别（Paraformer），FUN-ASR实时语音识别（FunASR），通义千问3-ASR-Flash-Realtime（qwen3-asr-flash-realtime），多模态交互轻量版语音识别（AppSpecificASR-...

产品优势

在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。识别速度快采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；中国独创的LFR解码技术，在不...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

热词模型

语音转文字时，如果在您的业务领域有一些特有的词，默认识别效果较差的时候可以考虑使用热词模型功能，将这些词添加为热词，改善这部分词的识别结果。热词组设置后无需训练即可生效，只需在语音转文字时（也就是新建数据集质检任务时，以及...

智能标签

智能标签，是通过对视频中视觉、文字、语音、行为等信息进行分析，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签，将非结构化信息转化为结构化信息。可应用于视频智能分析、视频审核、视频搜索、视频...

RESTful API

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

产品简介

智能纪要高精度语音识别：能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。大模型全面...

直播ASR乱码识别

直播ASR乱码识别服务适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。说明本服务由NLP自学习平台提供，直接调用API即可使用。服务开通与资源包购买使用前，请确认是否已经开通服务，开通后可购买...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。...如果无法提前确定语种，可不设置，模型会自动识别语种。目前支持的语言代码：zh:中文 en:英文 ja:日语 yue:粤语 ko:韩语 de：德语 fr：法语 ru：俄语该参数仅对支持多...

计费项

支持服务 语音识别：录音文件识别、实时语音识别、一句话识别语音合成：语音合成语音分析：说话人识别、声音事件检测、性别识别、语种识别 语音识别：录音文件识别、实时语音识别、一句话识别、录音文件识别（极速版）、录音文件识别（闲...

错误码查询

检查实际语音的采样率和控制台上Appkey绑定的ASR模型采样率是否一致，或者将本篇文档中自动降采样的参数enable_sample_rate_adaptive设置为true。41050010 FILE_TRANS_TASK_EXPIRED 录音文件识别任务过期。TaskId不存在，或者已过期。...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

自学习平台FAQ

一句话识别、实时语音识别、录音文件识别中如何设置泛热词请参见使用SDK设置业务专属热词。如何使用SDK设置自学习模型？如果是通过控制台创建的自学习模型，可在项目切换模型时选择该模型，发布上线后将与Appkey绑定，您无需在代码中自行...

管理项目

配置项目 语音识别 当项目类型为仅语音识别 或 语音识别+语音合成+语音分析时，项目配置操作如下。单击目标项目右侧的项目功能配置。在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，...