导航语音识别-导航语音识别文档介绍内容-移动阿里云

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。建议您...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信...智能语音交互增值服务 ASR 提供语音识别，语音转文本服务。录音提供录音服务。行业云联络中心_座席提供坐席服务。

Java SDK

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechTranscriber：实时语音识别类，通过该接口设置请求参数，发送请求及...

产品概述

高级服务语音对话场景语音地址输入识别在语音场景下，针对语音识别转写后的地址相关信息，通过语音顺滑、地址抽取、地址纠错、地址补齐后，给用户输出标准化地址信息，解决语音对话场景下的地址识别应用，例如语音导航等。对话上下文...

从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍如何使用智能语音交互，帮助您快速了解其使用...

Python SDK

本文档介绍如何使用 DashScope Python SDK 调用实时语音识别（Qwen-ASR-Realtime）模型。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeConversation 的构造方法设置。参数类型...

语音数据集

ASR泛热词表在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。如地名、人名、特定品牌名等。这些热词表可以加载到场景和任务里生效，以提高识别效果。热词不...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

语音地址输入识别

在语音场景下，针对语音识别转写后的地址相关信息，通过语音顺滑、地址抽取、地址纠错、地址补齐后，给用户输出标准化地址信息，解决语音对话场景下的地址识别应用，例如语音导航等。测试您可以在地址标准化产品控制台进行 API测试。请求...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成...

功能特性

获取通话录音 ASR 智能语音识别功能。智能语音机器人行业版行业版服务（邀约制）AI软件+话术定制一体化运营服务，包含从需求沟通和确认，到话术模板初始化、话术调整、真人录音提供、客户测试、调整优化，再到最终外呼执行、呼叫效果统计...

接口说明

对一分钟内的短语音进行识别，适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。功能简介 NUI SDK提供更小的工具包和更完善的状态管理。为满足不同用户需求，NUI SDK既能提供全链路的语音能力，同时可做原子能力SDK...

iOS SDK

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号，暂不使用*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果*@param finish:本轮识别是否结束标志*@param resultCode:参见错误...

RESTful API

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别RESTful API的使用。...

Android SDK

使用Android Studio打开此工程查看参考代码实现，其中实时语音识别示例代码为SpeechTranscriberActivity.java文件，替换Appkey和Token后可直接运行。SDK关键接口 initialize：初始化SDK。初始化SDK，SDK为单例，请先释放后再次进行初始化。...

什么是地址标准化

语音地址识别语音地址输入识别是指在语音场景下，针对语音识别转写后的地址相关信息，通过语音顺滑、地址抽取、地址纠错、地址补齐后，给用户输出标准化地址信息，解决语音对话场景下的地址识别应用，例如语音导航等。如图所示：2.对话上...

客户端事件

用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 session.update 用于更新会话配置，建议在 WebSocket 连接建立后首先发送该事件。建议在WebSocket连接建立成功后，立即发送此事件作为交互的第一步。如果未发送，系统...

音频采集和播放说明

音频格式说明类型可选参数设置语音格式说明 语音识别 upstream.audio_format 支持的输入格式："pcm"：PCM编码（无压缩的PCM或WAV），16bit 采样深度，单通道。raw-opus"：裸 OPUS 数据，以定长发送音频采样率：默认16000 Hz。语音合成...

自学习平台FAQ

语音识别类常见问题主要分为以下几类：功能类自学习模型的调用限制是什么？控制台与POP API设置自学习模型的区别是什么？如何通过控制台添加热词？如何通过控制台设置泛热词的权重？如何通过POP API创建热词词表？热词有数量限制吗？除了...

错误码查询

一句话语音识别支持60s以内的音频，如果超过60s，建议调用实时语音识别接口。41010105 SILENT_SPEECH 纯静音数据或噪音数据，导致无法检测出任何有效语音。无。录音文件识别/录音文件识别闲时版错误码状态码状态消息原因解决方案 ...

Go SDK

实时语音识别 1.SpeechTranscriptionStartParam 实时语音识别参数。参数类型参数说明 Format String 音频格式，默认值：PCM。取值为OPUS、OPU和PCM，如果是OPUS或OPU时，您需要自行编码。SampleRate Integer 采样率，默认值：16000 Hz。...

Java SDK

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechRecognizer：一句话识别处理类，通过该接口设置请求参数，发送请求及...

使用SDK 2.0设置自学习模型

实时语音识别 在实时语音识别中，需要通过设置高级参数 customization_id 设置自学习模型ID。Java SDK 说明请首先阅读 Java SDK，了解Java SDK的基本用法。由于SDK中没有 customization_id 参数对应的set方法，需要通过SpeechTranscriber...

使用SDK设置业务专属热词

本文为您介绍在一句话识别、实时语音识别和录音文件识别SDK示例中如何设置业务专属热词。概况通过管控台配置的业务专属热词表与项目标识（Appkey）绑定，无需自行设置。通过POP API训练获取的业务专属热词表，需要在SDK中设置其词表ID。...

语音转文字（阿里云智能语音交互）

重要音频采样率为 16K 且不可更改，请确保所使用的阿里云智能语音交互项目，语音识别模型的采样率相同。回调配置回调事件句子结束：在每一句转义结束后触发。转义完成：在所录制的音频全部转义完成后触发。使用插件组件绑定 Chat 组件...

Python SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论是从外部设备如麦克风获取的音频流，还是从本地文件读取的...

Python SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论是从外部设备如麦克风获取的音频流，还是从本地文件...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

Java SDK

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

Python SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Python SDK的使用。...

接口说明

实时语音识别服务的智能断句功能会判断出一句话的开始与结束，如：{"header":{"namespace":"SpeechTranscriber","name":"SentenceBegin","status":20000000,"message_id":"a426f3d4618447519c9d85d1a0d1*","task_id":"5ec521b5aa104e3abccf...

Android SDK（旧版）

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechSynthesizer：代表一次语音合成请求。SpeechSynthesizerCallback：语音...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

BatchRobotSmartCall-批量发起智能语音机器人外呼任务

100002970*EarlyMediaAsr boolean 否早媒体语音识别标识。默认为 false，即不启用。如果需要启用早媒体语音识别标识，请设置为 true。true TaskName string 是任务名称。支持中文和英文。长度限制为：0~30 个字符。批量外呼任务 ...

地域和域名

多地域产品能力对比产品能力子项华东2（上海）（当前地域）华北2（北京）（新增地域）华南1（深圳）（新增地域）管控台管控台统一管控台统一管控台统一管控台 语音识别 一句话识别支持支持支持实时语音识别 支持支持支持录音...

RESTful API

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...