自动语音识别asr-自动语音识别asr文档介绍内容-移动阿里云

影视传媒视频理解

功能概述影视传媒视频理解轻应用通过整合视频处理、自动语音识别（ASR）、视觉语言模型（VLM）和大语言模型（LLM）等算法能力，构建了一套通用的视频理解方案。该方案支持视频描述、结构解析、标签分类、问答场景、内容挖掘、视频检索、...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

模型列表

语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音识别、Gummy语音识别/翻译、Paraformer语音识别和 SenseVoice语音识别可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy语音...

管理项目

在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，在线测试无问题后，单击确认使用。如果基础模型无法满足业务需求，您可以通过设置热词或者定制模型实现个性化配置。具体操作请参见语言模型...

通信智能引擎快速入门

通信智能引擎通过集成ASR（语音识别）和TTS（文本转语音），以文本流推拉的方式进行和大模型的交互，并对通话过程的打断、静音、抢话等事件进行感知和控制，形成整体拟人化的交互效果。智能联络中心同时提供其他功能模块可供您选择：如果您...

智能处理后参与视频合成

1,"AdaptMode":"Cover","Effects":[{"Type":"Crop","X":0.25,"Height":1,"Width":0.5 },{"Type":"Volume","Gain":0 }]}]}]} AI_ASR自动识别字幕重点内容并高亮在AI_ASR的Effect中设置"NeedHighlighting":true 并配置高亮字幕样式，即可为...

产品公共FAQ

以下是相关的功能的视频介绍：音频基础知识+智能语音控制台介绍 ASR产品使用介绍自学习平台语音合成性能类 ASR语音识别和TTS语音合成超并发会有什么现象？超并发可能会出现以下情况：查看日志会有大量超时现象，具体服务状态码为...

2025年12月16日产品更新动态

本文档介绍了云联络中心2025年12月16日产品...数字员工ASR新增第三方音色描述：数字员工场景中支持第三方ASR语音识别能力。支持绑定第三方开放平台中的实时语音服务，通过在系统管理中绑定对应鉴权信息，完成后即可设置自定义语音识别服务。

小模型通信

而智能联络机器人基于自动语音识别、文字转语音以及自然语言理解等技术，面向企业客户提供的一款智能客服机器人产品。智能联络机器人可根据业务场景，自动发起联络任务，根据客户的意图进行智能应答。前提条件已注册阿里云账号，并完成 ...

智能外呼机器人

智能外呼是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音(Text To Speech，TTS)以及自然语言理解（Natural Language Understanding，简称NLU）技术并面向企业客户提供的一款智能客服机器人产品。智能外呼机器人...

热词管理

应用场景在“智能媒体服务”涉及ASR语音识别的大部分场景下，通常能够较为准确地识别通用词汇。但是当面对特定的人名、品牌名称、产品型号或专业领域术语时，识别效果可能会有所降低。通过自定义热词功能，可以根据实际需求添加专属词汇，...

AI实时对话智能体

可选设置智能体 ASR语音识别配置：参数描述是否必选 ASR名称为ASR的当前配置设定的一个便于识别的名称，用以体现其场景或用途。必选语音断句检测阈值此设置决定了当用户说话停顿下来时，机器需要等待多久才会认为用户的一句话已经说...

WebSocket API

本文介绍如何通过WebSocket协议直接接入Fun-ASR实时语音识别服务。该方式适用于所有支持WebSocket的编程语言。为简化Java和Python开发者的接入流程，我们另提供了封装度更高的SDK（Python SDK/Java SDK），但您仍可选择使用本文描述的通用...

调用三方语音模型

使用三方语音识别（ASR）结果请求对话您可以调用三方的语音识别服务进行语音识别。并使用其识别结果调用百炼多模交互服务。获取完整语音识别结果后，您可以使用文本直接调用的方式请求多模态交互服务。您需要在客户端处于Listening状态下...

什么是智能外呼机器人

产品概述智能外呼机器人是综合利用 自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，NLU）等技术，面向企业客户提供的一款智能客服机器人产品...

智能联络机器人

智能联络机器人是基于自动语音识别（Automatic Speech Recognition，ASR）、文字转语音（Text To Speech，TTS）以及自然语言理解（Natural Language Understanding，NLU）等技术，面向企业客户提供的一款智能客服机器人产品。智能联络机器...

Android SDK

本文档提供了Fun-ASR实时语音识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 快速开始获取与配置 API Key 下载SDK并运行示例代码：下载最新SDK...

iOS SDK

本文档提供了Fun-ASR实时语音识别iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 快速开始获取API Key：获取API Key 下载SDK并运行示例代码：下载最新...

iOS SDK

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号（暂不支持）*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果*@param finish:本轮识别是否结束标志*@param resultCode:参见...

实时多模态交互协议（WebSocket）

语音识别支持的模型包括：Gummy实时语音识别（Gummy），Paraformer实时语音识别（Paraformer），FUN-ASR实时语音识别（FunASR），通义千问3-ASR-Flash-Realtime（qwen3-asr-flash-realtime），多模态交互轻量版语音识别（AppSpecificASR-...

参数详情

本文介绍InputFile详情和FpShotConfig详情。InputFile详情参数类型是否必选描述 Bucket String ...ASR：语音识别结果。SimilarityThreshold Float 否 SaveType=save模式下相似度阈值，可根据实际情况调整。取值范围：[0,1]。默认值：0.8。

Paraformer语音识别热词定制与管理

说明支持的领域/任务：audio（音频）/asr（语音识别）在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。热词简介热词通过热词列表的形式在SDK中使用，热词...

地域和域名

多地域产品能力对比产品能力子项华东2（上海）（当前地域）华北2（北京）（新增地域）华南1（深圳）（新增地域）管控台管控台统一管控台统一管控台统一管控台 语音识别 一句话识别支持支持支持实时语音识别 支持支持支持录音...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

更新公告

影视传媒视频理解支持SRT格式“自动语音识别设置”选项处，自定义ASR文件增加支持SRT格式。2025年6月日期功能模块变更点功能说明 6月27日作文批改助手轻应用上线通过自动分析学生作文，检查语法、拼写错误及诗词典故等，快速生成...

限流

为了保证用户调用模型的公平性，阿里云百炼设置了基础限流。...若超出限制，API请求将会失败，需等到解除限流条件时再次调用。...不同模型独立限流：具体参见下方表格。限流FAQ 为什么触发限流？根据错误信息判断：Requests rate limit exceeded...

功能发布记录

新增接口说明 语音识别对WAV文件的支持优化优化ASR对WAV文件的支持。支持更多格式的WAV文件头，减少文件头对识别结果的影响。优化无录音文件识别极速版超时录音文件识别极速版使用16k模型进行8k语音识别时没有直接返回错误，导致超时...

Android SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验快速开始获取API Key：获取API Key，为安全起见，推荐将API Key配置到环境变量。说明当需要为第三方应用或用户提供...

Android SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验快速开始获取API Key：获取API Key，为安全起见，推荐将API Key配置到环境变量。说明当需要为第三方应用或...

iOS SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验快速开始获取API Key：获取API Key 说明当需要为第三方应用或用户提供临时访问权限，或者希望严格控制敏感数据访问...

iOS SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验快速开始获取API Key：获取API Key 说明当需要为第三方应用或用户提供临时访问权限，或者希望严格控制敏感...

HarmonyOS Next SDK

一句话识别 console.log("start asr for 实时语音识别")parameters.set("service_type",Constants.kServiceTypeSpeechTranscriber);必填此处是实时语音识别功能与一句话识别功能配置3个差异之2 params=MapToJson(parameters);parameters....

SDK和API概览

Python SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、C++ SDK 一句话识别、实时语音识别、语音合成 Go SDK 一句话识别、实时语音识别、语音合成 Node.js SDK 一句话识别、实时语音识别、语音合成小程序 ...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

HarmonyOS Next SDK

EVENT_ASR_RESULT 语音识别最终结果。EVENT_ASR_ERROR 根据错误码信息判断出错原因。EVENT_MIC_EEROR 录音错误，表示SDK连续2秒未收到任何音频，可检查录音系统是否正常。setParams：以JSON格式设置SDK参数。以JSON格式设置参数*@param ...

iOS SDK

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号，暂不使用*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果*@param finish:本轮识别是否结束标志*@param resultCode:参见错误...

移动端IOS推流

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号，暂不使用*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果和翻译结果*@param finish:本轮识别是否结束标志*@param resultCode...

产品计费

当选择Fun-ASR时，每次语音识别按3次标准语音识别计费；当选择通义千问3-TTS时，每次语音合成按3次标准语音合成计费。计费项和标准价格价格取决于各环节是否使用及所用模型/能力。具体价格请见下表。交互链路标准价格（元/千次）备注 ...

最佳实践

预处理视频文件以提高文件转写效率 Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，因此建议您对视频文件进行预处理。仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低文件尺寸、减少API...

AI Chat 应用语音转文字功能启用指南

步骤一：创建阿里云智能语音交互语音识别项目进入阿里云智能语音交互，并开通服务进入阿里云智能语音交互-全部项目，创建项目创建项目，选择“语音识别+语音合成+语音分析”或“仅语音识别”。进入项目，记录下 appkey，根据需要修改...