通过语音识别文字-通过语音识别文字文档介绍内容-移动阿里云

语音数据集

ASR泛热词表在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。如地名、人名、特定品牌名等。这些热词表可以加载到场景和任务里生效，以提高识别效果。热词不...

客户端事件

用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 session.update 用于更新会话配置，建议在 WebSocket 连接建立后首先发送该事件。建议在WebSocket连接建立成功后，立即发送此事件作为交互的第一步。如果未发送，系统...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

RESTful API

请通过测试验证您所提供的文件能够获得正常的语音识别结果。音频采样率：任意音频文件大小和时长音频文件不超过2GB；时长在12小时以内。如果希望处理的文件超过了上述限制，可尝试对文件进行预处理以降低文件尺寸。有关文件预处理的最佳...

视频翻译

翻译后的文本可以通过语音合成技术生成目标语言的语音，并替换原视频中的语音。创建视频翻译任务登录 EchoMind。在左侧导航栏选择媒体处理视频翻译。在视频翻译页签下，单击创建任务按钮进入到创建视频翻译任务页面。根据页面提示...

如何注销语音服务的语音号码

概述若您不再需要使用语音号码，可将该号码注销。本文主要介绍如何注销阿里云语音服务的语音号码。详细信息语音号码的使用周期最少为3个月，因此号码申请后3个...您可以通过语音服务控制台的号码管理页面进行号码注销。适用于语音服务

非开发者使用指南

语音识别（语音转文字）在 语音识别 处单击去配置，选择语言后，单击右下角麦克风按钮开始识别，完成后单击确认使用。语音合成（文字转语音）在语音合成处单击去配置，选择声音后，在右侧文本框输入文字，单击右下角扬声器按钮开始...

语音转文字（阿里云智能语音交互）

重要音频采样率为 16K 且不可更改，请确保所使用的阿里云智能语音交互项目，语音识别模型的采样率相同。回调配置回调事件句子结束：在每一句转义结束后触发。转义完成：在所录制的音频全部转义完成后触发。使用插件组件绑定 Chat 组件...

产品计费

请注意：身份证识别、全文识别高精版、通用文字识别：您可以通过直接购买开通。其他API：请联系官方钉钉群【35208328】反馈需求。计费示例资源包（预付费）假设某用户已经购买了某API 1000次专用资源包，且用户当月调用次数为5000次、系统...

视频AI

产品信息：视频DNA 配置文档：视频DNA 智能标签智能标签服务通过分析视频中视觉、文字、语音、行为等信息，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签，将非结构化信息转化为结构化信息。...

通用文字识别

本文介绍阿里云文字识别-通用文字识别系列相关产品的功能、特色优势及应用场景，并为您提供产品的API快捷入口。产品介绍读光OCR通用识别类产品，可对各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了...

智能标签

智能标签，是通过分析视频中视觉、文字、语音、行为等信息，结合多模态信息融合及对齐技术，实现高准确率内容识别，自动输出视频的多维度内容标签。该技术将非结构化信息转化为结构化信息，适用于媒资检索、个性化推荐、智能广告投放等场景...

功能特性

实人认证功能集功能功能描述参考文档证件信息识别证件信息OCR识别拍摄或上传证件图片，通过OCR识别技术自动识别证件上的信息并输出结构化字段。证件信息NFC识别通过设备自带的NFC读取功能，自动读取证件芯片中内容，并输出结构化...

文件格式说明

车辆物流识别行驶证识别驾驶证识别电子面单识别车牌识别车辆vin码识别机动车注册登记证识别车辆合格证识别小语种识别通用多语言识别英语专项识别日语识别俄语识别韩语识别泰语识别拉丁语识别教育场景识别口算判题题目...

基于身份的策略

文字识别系统权限策略参考 文字识别自定义权限策略参考

创建文本库

图文违规检测：识别图片中包含的广告和文字违规内容。语音反垃圾：识别语音中包含的违规内容。您还可以通过控制台操作创建文本库。更多信息，请参见创建和管理自定义文本库。计费信息：该接口为免费接口。QPS限制本接口的单用户QPS限制为...

智能语音交互呼出业务流程

通过控制台查询：控制台选择业务统计语音记录查询，通过语音服务类型、时间、主叫号码、被叫号码等信息，找到并查看任务的详细情况。调用API查询：您可调用 QueryCallDetailByCallId 接口查询指定通话的呼叫详情。后续步骤消息回执返回...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成...

语音通知实现告警功能

本文以语音通知服务功能为例，为您介绍如何通过语音通知的功能，实现自身的系统、设备、服务器等相关的告警功能。适用场景适用于科技公司的各种语音告警需求。当您的系统检测到服务器出现异常，或者物联网等设备出现异常时，可以通过语音...

什么是智能外呼机器人

产品概述智能外呼机器人是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，NLU）等技术，面向企业客户提供的一款智能客服机器人产品...

新功能发布记录

API明细表商品名称商品功能资源包抵扣按量付费模式通用文字识别 全文识别高精版支持支持通用文字识别 支持支持表格识别支持支持电商图片文字识别 支持支持通用手写体识别支持支持文档结构化识别支持支持个人证照识别 ...

SDK FAQ

有SDK，在专有云安装包里默认不提供，可以通过阿里云帮助中心对应的服务文档中下载，如实时语音识别的 Android SDK 和 iOS SDK。移动端SDK可以调用公共云ASR、TTS服务，也可以用在专有云环境下。Token如何使用？公共云Token在不同项目间、...

应用场景

智能语音交互智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲...

Android SDK

使用Android Studio打开此工程查看参考代码实现，其中实时语音识别示例代码为SpeechTranscriberActivity.java文件，替换Appkey和Token后可直接运行。SDK关键接口 initialize：初始化SDK。初始化SDK，SDK为单例，请先释放后再次进行初始化。...

性能类

关于达摩院智能语音交互语音识别准确度的数字，我们通过了CNAS（国家软件测试中心）的评测，国家软件中心对语音识别算法准确度测试中，在60分贝以下的降噪环境中，用普通话在距离耳麦1厘米的位置，以240字/小时的匀速朗读样本量1207字的...

VoiceReport

需开启号码状态（早媒体）识别功能，开启后会产生语音识别费用。开启号码状态识别功能可辅助识别停机、无服务等号码状态，并根据号码状态自动执行挂断动作。状态码说明请查看呼叫状态码。说明获取智能语音交互呼叫记录信息时，如需开启...

Java SDK

用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeParam 的链式方法设置。参数类型是否必须说明 model String 是指定要使用的模型名称。以下参数通过 OmniRealtimeConfig 的...

热词模型

语音识别模型如果90天内没有真实在线上使用，系统会自动回收，请妥善使用和维护。视频讲解操作流程新建热词组进入智能工具选择“语音模型训练工具”中的热词模型，点击列表右上方的新建热词组按钮，需要注意的是，当前每个用户最多可...

新功能发布记录

2025-06-26 语音识别 新增视频截帧 AI搜索开放平台支持通过API的方式调用视频截帧服务，可从视频中提取关键帧画面，并结合文字识别（OCR）、图像解析或多模态向量服务，实现对视频内容的深度解析与结构化处理。2025-06-26 视频截帧更新 ...

产品优势

在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。识别速度快采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；中国独创的LFR解码技术，在不...

WebSocket API

本文介绍如何通过WebSocket连接访问实时语音识别服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Paraformer实时语音识别应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见 ...

DeletePrecisionTask-删除语音识别检测任务

删除语音识别检测任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...

配置语音交互

生活物联网平台支持产品对接多种语音平台，如Amazon Alexa、Google Assistant等，接入后可通过语音直接对设备进行控制。背景信息在生活物联网平台创建的产品对接语音平台需要绑定技能，通过技能与语音平台打通，实现设备可以跨平台控制。...

语音接收管理

语音消息接收人设置完成后，您可以通过语音接收相关的通知信息。添加外呼号码至白名单为了避免阿里云的重要来电被您的手机误拦截，建议您将以下号码添加至手机的通讯白名单。此外，如果阿里云的来电遭到运营商层面的误拦截，请联系您的...

免费额度

国际护照识别 200次/月户口本识别 200次/月不动产权证识别 200次/月银行卡识别 200次/月出生证明识别 200次/月中国护照识别 200次/月来往大陆（内地）通行证识别 200次/月往来港澳台通行证识别 200次/月中国香港身份证识别 200次/...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

使用OpenAPI

本文为您介绍使用文字识别（OCR）OpenAPI的基本信息及注意事项。说明关于如何使用阿里云OpenAPI，请参见学习文档：使用OpenAPI。基本信息版本说明版本号说明 2021-07-07 推荐接入点说明参见服务接入点。用户身份用户身份支持情况 ...

API概览

智能语音交互通话 API 标题 API概述 SmartCall 发起智能语音交互通话智能语音交互服务，是一种人机交互技术，它允许用户通过语音与机器进行自然的对话和沟通。SmartCallOperate 发起智能语音指定动作在智能外呼通话中发起指定动作，仅...

通用文字识别

阿里云通用文字识别是高精度智能服务，可从图片中快速提取多语言文字。本文系统阐述其核心能力、应用场景与接入方法，助您自动提取图片文字，深度挖掘非结构化数据价值。