英语语音识别-英语语音识别文档介绍内容-移动阿里云

WebSocket协议说明

使用WebSocket调用实时语音识别时，WebSocket经常自动终止服务，不能实现实时语音识别，需要手动发送PCM或WAV音频文件，是什么原因？以上情况表示系统已经接收到您传输的音频，在符合协议以及传参的情况下，WSS或HTTP协议都能实现实时语音...

Android SDK

本文档提供了Paraformer实时语音识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v...

Android SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

Android SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

录音文件识别（SenseVoice）-即将下线

重要 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。

应用场景

语音识别 语音搜索支持各种场景下的语音搜索，如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中，最大限度地解放双手。语音指令通过语音命令控制智能设备，实现快捷便利的操作，如控制空调开关、电视换台等。可以集成到智能...

iOS SDK

本文档提供了Paraformer实时语音识别iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

iOS SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

iOS SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

智能纪要

功能语音转写章节速览摘要总结（全文摘要、发言总结、问答回顾）要点提炼（待办事项、关键词、重点内容）口语书面化服务质检自定义Prompt 实现步骤为了提高语音识别准确度，建议客户端集成RTC的智能降噪模块，这样有助于提高语音...

错误码

为方便进行问题定位，本文为您介绍语音识别业务中详细的错误码信息。错误码识别成功错误码错误信息描述 0 SUCCESS 成功配置或参数错误错误码错误消息描述解决方案 240999 DEFAULT_ERROR 内部默认错误。内部错误，请重试。240001 ...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

Python SDK

返回值：无 2.start 同步开始实时语音识别，该方法会阻塞当前线程直到实时语音识别就绪（on_start 回调返回）。参数说明参数类型参数说明 aformat String 要识别音频格式，支持PCM，OPUS，OPU，默认值：PCM。SDK不会自动将PCM编码成OPUS...

错误码

为方便进行问题定位，本文为您介绍语音识别业务中详细的错误码信息。错误码识别成功错误码错误信息描述 0 SUCCESS 成功配置或参数错误错误码错误消息描述解决方案 240999 DEFAULT_ERROR 内部默认错误。内部错误，请重试。240001 ...

Android SDK

语音识别效果参数通过 setParams 接口配置nl_config参数，或者通过 startFileTranscriber 接口配置所有语音识别效果参数。参数示例：以下为 JSON 字符串示例，参数未完整列出。请按实际需求在编码时补充：{"file_urls":[...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成...

iOS SDK

语音识别效果参数通过 nui_set_params 接口配置nl_config参数，或者通过 nui_file_trans_start 接口配置所有语音识别效果参数。参数示例：以下为 JSON 字符串示例，参数未完整列出。请按实际需求在编码时补充：{"file_urls":[...

智能标签

说明需要开启的识别功能可以在智能标签任务模板中的分析类型中进行配置：分析类型中开启人脸识别、文字识别、语音识别分别对应视频人脸识别、视频文字识别标签、视频语音识别标签计费项。其他分析类型对应视频分类+结构化标签计费项...

Android SDK

语音识别效果参数通过setParams接口配置nl_config参数，或者通过 startFileTranscriber 接口配置所有语音识别效果参数。参数示例：以下为 JSON 字符串示例，参数未完整列出。请按实际需求在编码时补充：{"file_urls":[...

iOS SDK

语音识别效果参数通过 nui_set_param 接口配置nl_config参数，或者通过 nui_file_trans_start 接口配置所有语音识别效果参数。参数示例：以下为 JSON 字符串示例，参数未完整列出。请按实际需求在编码时补充：{"file_urls":[...

微信小程序

实时语音识别 Class:SpeechTranscription SpeechTranscription类用于进行实时语音识别。构造函数参数说明：参数类型参数说明 config Object 连接配置对象。config object说明：参数类型参数说明 url String 服务URL地址。token String ...

Python SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

Python SDK

目前支持的翻译包括：中文（zh）→英文（en）／日语（ja）／韩语（ko）／法语（fr）／德语（de）／西班牙语（es）／俄语（ru）／意大利语（it）英文（en）→中文（zh）／日语（ja）／韩语（ko）／葡萄牙语（pt）／法语（fr）／德语（de）／...

概述

在通义听悟的语音转写中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到热词词表从而改善语音识别效果。使用须知目前仅支持中文和英文热词识别。每个用户默认最多创建10个热词词表。每个词表最多...

定制语言模型

本文为您介绍如何在控制台创建定制模型并应用模型。前提条件已开通智能语音交互服务，详情请参见开通服务。...说明语言模型定制时选的基础模型需要和当前项目配置的语音识别模型一致，才会在下拉框中显示您定制的模型名称。

2025年12月16日产品更新动态

本文档介绍了云联络中心2025年12月16日产品更新动态。本次更新重点内容数字员工中TTS服务支持参数调节描述：数字员工...支持绑定第三方开放平台中的实时语音服务，通过在系统管理中绑定对应鉴权信息，完成后即可设置自定义语音识别服务。

ASR效果优化方案

如果在所有情况下语音识别都不准确，或者识别率很低，需要确保录音文件的采样率（8k或者16k）与调用时设置的采样率参数（8k或者16k）保持一致，否则会影响ASR识别效果。图中通用模型为中文8k通用模型。怎么查看音频文件的采样率？可以使用...

语音识别热词

功能概述 语音识别热词功能允许用户设定一组特定的词汇作为热词。当语音识别系统运行时，它会优先处理这些热词，提高其在识别过程中的权重。如果您的业务领域有部分词汇识别效果不佳，可以考虑使用热词功能，从而提高识别效果。使用限制 ...

语音识别

AI搜索开放平台支持通过API的方式调用语音识别服务，可将视频或音频中的语音内容快速转化为结构化文本，可用于会议记录、视频检索、在线客服等场景。服务列表服务名称服务ID（service_id）服务描述 API调用QPS限制（含主账号与RAM子账号...

什么是语音服务

智能语音交互智能语音交互基于语音识别、合成与自然语言理解技术，赋予产品“能听、会说、懂你”的交互体验，适用于智能问答、质检、庭审记录等多场景，广泛应用于金融、保险、司法、电商等领域。更多详情，请参见应用场景。

从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍如何使用智能语音交互，帮助您快速了解其使用...

快速开始

示例代码以下示例展示了调用Paraformer语音识别文件转写API，对一个通过URL给出的音频文件进行语音识别的代码。说明需要使用您的API-KEY替换示例中的 your-dashscope-api-key，代码才能正常运行。通过URL指定进行语音转写的文件，其大小...

Java SDK

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechTranscriber：实时语音识别类，通过该接口设置请求参数，发送请求及...

智能对话分析的审计事件

DeletePrecisionTask 删除语音识别检测任务。DeleteScoreForApi 删除评分大项。DeleteSkillGroupConfig 删除配置。DeleteSubScoreForApi 删除评分小项。DeleteTaskAssignRule 删除复核任务自动分配规则。DeleteUser 删除用户。...

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信...智能语音交互增值服务 ASR 提供语音识别，语音转文本服务。录音提供录音服务。行业云联络中心_座席提供坐席服务。

在控制台创建热词

创建热词设置热词后，新建的语音识别请求立即生效。已经运行的识别请求无法使用该热词。登录智能语音交互控制台。在左侧导航栏选择自学习平台热词。在热词页面，单击创建热词。在添加热词组弹框中，输入热词组名称、选择热词...

Java SDK

本文档介绍如何使用 DashScope Java SDK 调用实时语音识别（Qwen-ASR-Realtime）模型。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeParam 的链式方法设置。参数类型是否必须...

模型效果评测

语音识别检测，可以直观的看到指定语音模型语音转文字的识别准确率，通过人工校验得到正确的文本标注结果，用来训练您的自定义模型；通过型对比可以看到每次优化后的准确率提升情况，从而让您十分高效的提升语音转文字的识别准确率。提升...

产品概述

产品优势高精度语音识别 能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。大模型全面...