语音识别系统的组成-语音识别系统的组成文档介绍内容-移动阿里云

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

功能特性

视频特定LOGO识别识别视频内容中的特定LOGO，包括台标和商标-视频语音内容识别识别视频内容中的语音部分是否违规-语音审核1.0版语音色情识别识别语音中的色情和低俗内容短语音同步检测语音异步检测语音涉政暴恐识别识别语音内容中...

配置语音和图片识别

开启语音识别 步骤一：创建阿里云智能语音交互语音识别项目进入阿里云智能语音交互首页并开通服务。进入阿里云智能语音交互-全部项目，单击创建项目。在对话框中填写项目名称，项目类型选择为 语音识别+语音合成+语音分析或仅...

语音&智能VUI

其他情况无需填写，默认使用项目中绑定的语音识别与合成能力。内容试听：当语音参数配置完成后，可以自定义输入一些文字进行效果测试。第三方语音服务使用第三方的语音合成前提是需要在系统管理中配置第三方语音鉴权信息，同时由于开发...

智能语音合成服务及服务改进计划协议

1.3 智能语音交互服务：指阿里云面向客户方提供的智能语音识别以及智能语音合成等服务。1.4 业务数据：指您使用智能语音交互服务进行识别、合成或其他方式处理的原始数据。1.5 本服务：指智能语音交互服务中，长文本以及短文本的智能语音...

产品优势

在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。识别速度快采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；中国独创的LFR解码技术，在不...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

WebSocket协议说明

使用WebSocket调用实时语音识别时，WebSocket经常自动终止服务，不能实现实时语音识别，需要手动发送PCM或WAV音频文件，是什么原因？以上情况表示系统已经接收到您传输的音频，在符合协议以及传参的情况下，WSS或HTTP协议都能实现实时语音...

场景管理

VAD模块 VAD（Voice Activity Detection）模块是用于检测语音活动的模块，常用于语音识别和语音通信系统中。以下是与VAD模块相关的两个配置选项的解释：噪音过滤阈值：该参数用于判断噪音和语音的概率。取值越趋近于-1，表示噪音被判定为...

并发和QPS说明

并发概念适用于智能语音交互产品中的一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成等服务。在智能语音交互产品中，不同服务之间不共享并发额度，同一服务下的不同项目（对应不同AppKey）共享并发额度。例如，以...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

非结构化数据（OSS+SLS）授权

如果一键连接时未选中立即扫描数据库资产并进行数据识别，您可以前往数据洞察任务管理页面的识别任务页签，在系统默认任务列表中执行重扫操作，手动执行系统默认任务。系统默认任务支持自定义重扫时间点与扫描周期，具体操作，...

音频采集和播放说明

检查音频文件格式建议您检查待测试的语音格式是否符合语音识别输入格式要求。更多内容，请参见上文音频格式说明。将待测试语音转换成16K、16 bit采样位数、单声道（mono）无压缩的WAV文件。Tap2Talk/Duplex 模式下，发送音频没有最终结果...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

通用数据库授权

如果一键连接时未选中立即扫描数据资产并进行数据识别，您可以前往分类分级任务管理页面的识别任务页签，在系统默认任务列表中执行重扫操作，手动执行系统默认任务。系统默认任务支持自定义重扫时间点与扫描周期，具体操作，请...

MaxCompute授权

如果一键连接时未选中立即扫描数据库资产并进行数据识别，您可以前往数据洞察任务管理页面的识别任务页签，在系统默认任务列表中执行重扫操作，手动执行系统默认任务。系统默认任务支持自定义重扫时间点与扫描周期，具体操作，...

资产授权管理

如果一键连接时未选中立即扫描数据库资产并进行数据识别，您可以前往数据洞察任务管理页面的识别任务页签，在系统默认任务列表中执行重扫操作，手动执行系统默认任务。系统默认任务支持自定义重扫时间点与扫描周期，具体操作，...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

普通节点

语音配置：语音配置是指在使用语音技术或语音识别系统时，对系统进行各种参数设置和调整的过程。通过语音配置，使系统能够适应不同的环境和语音特点。用户说用户说中可以定义在这个交互节点中，后续用户的回复分支。单击新建用户说分支，...

功能发布记录

新增接口说明 2020年11月27日功能分类功能名称功能描述更新类型相关文档语音识别录音文件识别极速版录音文件识别极速版支持全场景的语音识别模型，管控台支持录音文件识别极速版的调用量查询。新增接口说明语音识别对WAV文件的...

2025年12月16日产品更新动态

本文档介绍了云联络中心2025年12月16日产品更新动态。本次更新重点内容数字员工中TTS服务支持参数调节描述：数字员工...支持绑定第三方开放平台中的实时语音服务，通过在系统管理中绑定对应鉴权信息，完成后即可设置自定义语音识别服务。

消息对话快速入门

说明若要实现语音识别或文本朗读功能，您必须配置以下节点：配置 STT 语音转文字节点可以实现按键语音识别。配置 TTS 文字转语音节点可以实现文本朗读。STT 语音转文字该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统...

管理项目

配置项目 语音识别 当项目类型为仅语音识别 或 语音识别+语音合成+语音分析时，项目配置操作如下。单击目标项目右侧的项目功能配置。在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，...

WebSocket API

本文介绍如何通过WebSocket连接访问实时语音识别服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Paraformer实时语音识别应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见 ...

Android SDK（旧版）

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechSynthesizer：代表一次语音合成请求。SpeechSynthesizerCallback：语音...

功能概览

数据集：数据表是一种用于语音识别服务的数据集，可以通过上传自定义热词表来改善特定领域识别效果不佳的情况。系统管理支持对接三方语音（科大）的语音合成与识别能力，在此配置鉴权信息。关于数字员工的更多详细内容请参见数字员工。

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式语音识别服务语音输入格式说明一句话识别支持的输入格式：单...

实时语音翻译-Gummy

实时语音翻译结合了语音识别和机器翻译技术，直接将一种语言的语音转化为另一种语言的文本，实现“边说边翻译成文本”的效果。核心功能支持多语种实时语音翻译，覆盖中英日韩等多种语言支持热词定制，可提升特定词汇的翻译准确率支持...

RESTful API

3.语音识别接口请求路径：/stream/v1/asr。4.设置必选请求参数：appkey、format、sample_rate。5.设置可选请求参数：enable_punctuation_prediction、enable_inverse_text_normalization、enable_voice_detection。String url=...

语音&VUI

语音识别服务默认服务：配置项的含义及系统界面如下图所示：ASR模型：支持中文以及英文等多语种场景。ASR热词：可在语音数据集中上传热词集后进行选择。噪音过滤阈值：取值越趋于-1，噪音被判定为语音的概率越大；取值越趋于+1，语音被...

SDK和API概览

Python SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、C++ SDK 一句话识别、实时语音识别、语音合成 Go SDK 一句话识别、实时语音识别、语音合成 Node.js SDK 一句话识别、实时语音识别、语音合成小程序 ...

iOS SDK（旧版）

关键接口 AliyunNlsClientAdaptor：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。NlsSpeechSynthesizerRequest：语音合成处理的请求对象，线程...

实时语音识别-Fun-ASR/Gummy/Paraformer

Fun-ASR 识别传入麦克风的语音 实时语音识别可以识别麦克风中传入的语音并输出识别结果，达到“边说边出文字”的效果。Java import com.alibaba.dashscope.audio.asr.recognition.Recognition;import ...

Java SDK

创建 NlsClient 实例 NlsClient 是语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口/函数参数返回值描述 public NlsClient(String url,...

音视频通话快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

Android SDK

本文档提供了Gummy实时语音识别/翻译Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验快速开始获取API Key：...

Android SDK

本文档提供了Gummy实时语音识别/翻译Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验快速开始获取API ...