自动识别语音成文字-自动识别语音成文字文档介绍内容-移动阿里云

与智能体对话

系统会识别您的语音，并转成文字。您可以单击左侧图标取消输入，或单击右侧图标切换到打字输入。单击发送或者回车，系统将返回对话结果。对话列表您可以单击左上角的图标，查看历史的智能体对话。单击图标可进入新的智能体对话...

Android SDK

本文介绍了如何使用阿里云智能语音服务提供的Android NUI SDK，包括SDK下载安装、关键接口及代码示例。前提条件使用SDK前，首先阅读接口说明，详情请参见接口说明。已获取项目Appkey，详情请参见创建项目。已获取Access Token，详情请...

文字识别介绍

文字识别技术基于阿里云深度学习技术，为您提供通用的印刷文字识别和文档结构化等能力。文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。服务开通请单击立即...

产品简介

自动纪要：实时识别视频通话的语音内容，并按照时间分角色交替文字记录对话内容。自动确认：识别客户对风险提示的语音确认，辅助坐席判断客户的意向。增强功能屏幕共享：将本端的屏幕内容投送到其他端。截图：支持远程控制摄像头拍照、本...

产品优势

在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。识别速度快采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；中国独创的LFR解码技术，在不...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。...如果无法提前确定语种，可不设置，模型会自动识别语种。目前支持的语言代码：zh:中文 en:英文 ja:日语 yue:粤语 ko:韩语 de：德语 fr：法语 ru：俄语该参数仅对支持多...

音视频通话快速入门

STT 语音转文字该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统预置：系统预置模型支持您选择语言模型、设置静默时间以及配置自定义热词。语言模型：您可以根据您的业务场景，选择不同的语言模型。静默时间：当用户没有...

体验中心

语音识别语音识别服务001：提供语音转文本能力，可将视频或音频中的语音内容快速转化为结构化文本。该服务支持多种语言。视频截帧视频截帧服务001：提供视频内容提取能力，可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力，...

预训练模型（平台预置模型）

10/直播ASR乱码识别适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。10 600个字符裁判文书抽取支持10个案由的文书，解析得到38个字段。10/关键词抽取和文本摘要（抽取式）适用于针对文档抽取关键...

RESTful API

language_hints array[string]["zh","en"]否指定待识别语音的语言代码。该参数仅适用于paraformer-v2模型。支持的语言代码：zh:中文 en:英文 ja:日语 yue:粤语 ko:韩语 de：德语 fr：法语 ru：俄语 diarization_enabled boolean false 否 ...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

Java SDK

language_hints String[]["auto"]否指定识别语音中语言代码。默认使用“auto”自动检测语种。支持的语言代码请参见语言列表。language_hints 只支持指定一个语言代码。说明 language_hints 需要通过 TranscriptionParam 实例的 parameter...

Python SDK

language_hints list[str]["auto"]否指定识别语音中语言代码。SenseVoice只支持配置一个语种。默认使用“auto”自动检测语种。支持的语言代码请参见语言列表。响应结果 TranscriptionResponse TranscriptionResponse 封装了任务的基本...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

应用配置

语音AI 可选择是否调用语音识别、语音合成能力，以及调用的具体模型。语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-...

RESTful API

channel_id array[integer][0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。special_word_filter string-否指定在语音识别过程中需要处理的敏感词，...

产品简介

10/直播ASR乱码识别适用于直播场景，通过ASR语音转文字，识别由于多人同时说话导致的文字可读性不佳的问题。10 600个字符裁判文书抽取支持10个案由的文书，解析得到38个字段。10/关键词抽取和文本摘要（抽取式）适用于针对文档抽取关键...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

并发和QPS说明

并发/QPS限制服务免费试用商用一句话识别 2路并发 200路并发实时语音识别 2路并发 200路并发录音文件识别 识别语音时长：2小时录音/日说明新用户试用期3个月内，每隔24小时可免费识别2小时时长的音频文件。免费额度用完后，间隔24...

接口说明

离线语音合成是指在弱网或无网状态下，通过设备本地的语音合成模型，将文本转换成自然流畅的语音。产品体验更多合成效果可至离线语音合成产品详情页进行体验。功能介绍离线语音合成主要包括以下功能，暂不支持多实例调用。提供语速调节...

错误码查询

检查实际语音的采样率和控制台上Appkey绑定的ASR模型采样率是否一致，或者将本篇文档中自动降采样的参数enable_sample_rate_adaptive设置为true。41050010 FILE_TRANS_TASK_EXPIRED 录音文件识别任务过期。TaskId不存在，或者已过期。...

实时语音翻译-Gummy

实时语音翻译结合了语音识别和机器翻译技术，直接将一种语言的语音转化为另一种语言的文本，实现“边说边翻译成文本”的效果。核心功能支持多语种实时语音翻译，覆盖中英日韩等多种语言支持热词定制，可提升特定词汇的翻译准确率支持...

平台简介

同时还支持语音上传脚本的功能，用户只需将语音文件上传至系统，系统即可自动灵活地识别并转换为文字脚本。实时互动支持实时互动视频产出，面向互动场景，无论是线上直播、在线教育、虚拟客服还是娱乐互动，提供基于AI实时对话、RAG和数字...

文字识别

阿里云文字识别（Optical Character Recognition，OCR）可以将图片中的文字信息转换为可编辑文本，根据客户的业务场景和需求，将产品分为了通用文字识别、个人证照识别、票据凭证识别、教育场景识别、车辆物流识别、企业资质识别、小语种...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

C++ SDK

cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭...

计费项

支持服务语音识别：录音文件识别、实时语音识别、一句话识别语音合成：语音合成语音分析：说话人识别、声音事件检测、性别识别、语种识别语音识别：录音文件识别、实时语音识别、一句话识别、录音文件识别（极速版）、录音文件识别（闲...

视频翻译

文字识别 智能识别：利用先进的OCR技术和自然语言处理算法自动从视频中提取字幕文本。手动框选：对于智能识别无法准确完成的情况，比如字幕与背景融合严重或存在非标准字体时，用户可以通过手动框选的方式精确地选定需要识别的字幕区域。...

Android SDK

则必须app_key、ak_id和ak_secret，或app_key、sts_ak_id、sts_ak_secret和sts_token/若使用在线功能(语音合成、实时转写、一句话识别、录音文件转写等),则只需app_key和token JSONObject object=Auth.getTicket(Auth.GetTicketMethod.GET_...

关于云市场域名更换通知

本章节说明阿里云文字识别（OCR)关于域名更换问题的通知与解答。通知：尊敬的开发者们，由于云市场即将进行服务升级，部分商品接口原域名将于2022年1月31日24:00起停止服务，请您及时将代码中的域名更换为默认域名，您可通过云市场商品详情...

管理项目

项目类型包括：语音识别+语音合成+语音分析、仅语音识别、仅语音合成、设备端解决方案项目类型仅用于简化控制台配置，不会限制 API 功能。例如，选择“仅语音识别”时，API仍可调用语音合成服务。创建完成后，可以在我的所有项目页面...

小查询自动识别与加速

本文介绍的小查询自动识别与加速功能会根据查询的历史信息自动识别小查询，并在系统资源未过载的情况下使小查询更快速地开始执行。前提条件 AnalyticDB for MySQL 集群需同时满足以下条件：集群为数仓版。集群内核版本需为3.1.8.4及以上...

音视频智能生产

视频美颜 FaceBeauty 基于智能视觉算法、人脸检测识别技术，提供视频文件的人脸美颜功能，支持自动检测并对人像进行磨皮、美白、红润等美颜处理，各项美颜参数可进行单独设置，适用于短视频制作、视频后期处理等场景。图片类处理图标模糊 ...

通用文字识别

本文介绍阿里云文字识别-通用文字识别系列相关产品的功能、特色优势及应用场景，并为您提供产品的API快捷入口。产品介绍读光OCR通用识别类产品，可对各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了...

计费项

商品理解商品分类内容审核图片垃圾广告识别、图片智能鉴黄、图片敏感内容识别、图片Logo识别、图片风险人物识别、图片不良场景识别、文字垃圾内容识别、文字广告内容识别、文字敏感内容识别、文字暴恐内容识别、文字辱骂内容识别、文字...

通用票证抽取

通用票证抽取能够自动识别并抽取这些票证上的关键信息，如金额、发票号、开票日期等，大大提高了财务工作的效率和准确性。保单管理在保险行业中，保单信息的录入和管理是一项繁琐的工作。通用票证智能抽取系统能够自动识别保单上的关键...

智能标签

根据媒体文件多模态内容分析及视频标签结果，自动识别广告位，与广告资源库内容进行匹配，实现广告智能投放，精准触达受众人群，提升广告转化率。功能特性功能说明视频分类+结构化标签分析视频内容输出视频分类类目、实体标签结构化...

智能标签

根据媒体文件多模态内容分析及视频标签结果，自动识别广告位，与广告资源库内容进行匹配，实现广告智能投放，精准触达受众人群，提升广告转化率。费用说明使用智能标签会根据处理成功的视频时长进行计费，计费详情请参见智能标签计费。...