添加语音识别-添加语音识别文档介绍内容-移动阿里云

节省计划与资源包

paraformer-realtime-v2、paraformer-realtime-v1、paraformer-realtime-8k-v2、paraformer-realtime-8k-v1 实时语音识别（Fun-ASR）：fun-asr-realtime、fun-asr-realtime-2025-11-07、fun-asr-realtime-2025-09-15 实时语音识别（Qwen-...

什么是智能双录质检

产品优势基于达摩院 AI 能力阿里巴巴达摩院团队人工智能（Artificial Intelligence，简称 AI）实验室在语音识别、图像识别、视觉理解、语言理解等方面开展大量研究，并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

运行示例

通过SDK调用实时语音识别 使用Java开发语言调用SDK，可用于生产环境。通过Python示例调用录音文件转写 Python脚本示例，可上传长语音文件（512 MB以内）。通过SDK调用语音合成使用Java开发语言调用SDK，可用于生产环境。通过Curl命令调用...

产品简介

智能纪要高精度语音识别：能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。大模型全面...

管理通知组

点击 添加语音通知组：输入组名、成员，点击保存。编辑通知组在左侧导航栏上，点击报警管理通知组。选择要编辑的通知组，点击操作栏下方的编辑按钮，修改后，点击保存。删除通知组在左侧导航栏上，点击报警管理通知组。选择要...

Android SDK

EVENT_ASR_PARTIAL_RESULT 语音识别中间结果。EVENT_ASR_RESULT 语音识别最终结果。EVENT_ASR_ERROR 根据错误码信息判断出错原因。EVENT_MIC_EEROR 录音错误，表示SDK连续2秒未收到任何音频，可检查录音系统是否正常。setParams：以JSON...

语音&智能VUI

目前支持第三方克隆音色，填入需要的音色ID即可，请注意需要提前在外呼系统管理中进行配置对应的鉴权信息 语音识别 默认服务：配置项的含义及系统界面如下图所示：ASR模型：支持中文以及英文等多语种场景。ASR热词：可在语音数据集中上...

实时多模态交互协议（WebSocket）

语音识别支持的模型包括：Gummy实时语音识别（Gummy），Paraformer实时语音识别（Paraformer），FUN-ASR实时语音识别（FunASR），通义千问3-ASR-Flash-Realtime（qwen3-asr-flash-realtime），多模态交互轻量版语音识别（AppSpecificASR-...

iOS SDK（旧版）

关键接口 AliyunNlsClientAdaptor：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。NlsSpeechSynthesizerRequest：语音合成处理的请求对象，线程...

智能机翻

说明 语音识别：针对视频中无字幕的场景，对视频中的语音进行识别，以识别的文案作为主字幕。字幕识别：针对视频中包含底部字幕的场景，对视频中的字幕进行识别，以识别的文案作为主字幕。4.2 开始翻译点击开始翻译按钮后，将开始对视频...

视频AI

支持将语音识别为文本等。视频AI功能特性功能描述更多参考智能审核智能审核服务支持对点播视频资源的视频文件、封面图片及标题文本中涉黄、性感、暴恐、特殊装束、特殊标识、武器、涉政等内容进行识别，并给出建议结果。产品信息：...

智能标签

视频语音识别标签ASR 分析视频中的语音信息，提取语音文本内容。视频标签分析视频中节目、人物角色、物体、场景、地域等内容。图片标签分析图片中的人物角色、地域、动作事件、标识、物体等内容。使用限制智能标签可以处理的文件类型和...

音视频通话快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

功能发布记录

服务端 2025-05-16 语音识别热词离线视频分析支持离线视频重新分析。服务端 2025-05-31 记忆轮数工作流支持记忆对话轮数配置。控制台 2025-05-31 消息对话富消息输入和输出 Web端支持输出代码/表格的 Markdown格式。Web 2025-05-31 ...

移动端Android推流

EVENT_TRANSCRIBER_COMPLETE 停止语音识别后最终事件 onNuiAudioRMSChanged：音频能量值回调。运行过程中收到音频的实时音频能量值*@param val:音频数据能量值回调，范围-160至0，一般用于UI展示语音动效*/public void ...

应用场景

智能语音交互智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲...

通义听悟实时流

什么是通义听悟实时流通义听悟实时流是一种实时语音识别服务，它能够将实时的语音输入转换为文本输出。这项功能特别适用于需要即时语音转写的场景，如实时会议记录、直播字幕等。通义听悟实时流需要配合通义听悟集成操作来使用。具体而言...

语言模型

可以使用这些历史数据作为语料来对自定义的语言模型进行训练，自定义的语言模型在训练时，是在通用模型的基础上进行训练的，通过对您的训练语料做模型训练，可以有效提高您的特有场景的语音识别准确率，尤其是专有名词和文本中的高频词汇，...

iOS和Mac

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

常见问题

检查音频文件格式：建议您检查待测试的语音格式是否符合语音识别输入格式要求，格式要求请参见音频采集和播放说明。将待测试语音转换成16kHz、16 bit采样位数、单声道（mono）无压缩的WAV文件。Tap2Talk/Duplex 模式下，发送音频没有最终...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

Android SDK

本文为您介绍如何使用...SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param resultCode:参见错误码，在出现EVENT_ASR_ERROR事件时有效*@param arg2:保留参数*@param asrResult:语音识别结果*@param taskId:转写任务ID*/void ...

产品优势

除语音识别、翻译、说话人分离外，还包括章节速览、大模型摘要总结（全文摘要、发言总结、问答回顾、思维导图）、要点提炼（关键词、待办事项、重点内容、场景识别）、服务质检、PPT提取及摘要、口语书面化、自定义prompt等功能。...

电话呼出&呼入快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

VoiceReport

需开启号码状态（早媒体）识别功能，开启后会产生语音识别费用。开启号码状态识别功能可辅助识别停机、无服务等号码状态，并根据号码状态自动执行挂断动作。状态码说明请查看呼叫状态码。说明获取智能语音交互呼叫记录信息时，如需开启...

语音&VUI

语音识别服务默认服务：配置项的含义及系统界面如下图所示：ASR模型：支持中文以及英文等多语种场景。ASR热词：可在语音数据集中上传热词集后进行选择。噪音过滤阈值：取值越趋于-1，噪音被判定为语音的概率越大；取值越趋于+1，语音被...

国内语音服务定价

说明 ASR：Automatic Speech Recognition，语音识别技术通话时长不满一分钟按一分钟扣除。智能语音机器人为按量计费模式，根据实际通话分钟数进行实时梯度计费。即实时计费，自动跨档，跨档后当月所有发送量按新阶梯价重新计算。语音互动...

接口与实现

语音识别（Transcription）Parameters.Transcription.OutputLevel int 1 设置语音识别结果返回等级。1：识别出完整句子时返回识别结果 2：识别出中间结果及完整句子时返回识别结果仅在实时记录场景下按需设置，离线转写场景无须设置。...

数据结构

AICallAgentShareConfig 智能体分享配置信息 AICallAgentConfig 通话智能体启动与运行配置 AICallAgentAsrConfig 语音识别配置 AICallAgentTtsConfig 语音合成配置 AICallAgentLlmConfig 大语言模型配置 AICallAgentAvatarConfig 数字人...

数据结构

AICallAgentShareConfig 智能体分享配置信息 AICallAgentConfig 通话智能体启动与运行配置 AICallAgentAsrConfig 语音识别配置 AICallAgentTtsConfig 语音合成配置 AICallAgentLlmConfig 大语言模型配置 AICallAgentAvatarConfig 数字人...

移动端Harmony推流

EVENT_TRANSCRIBER_COMPLETE 停止语音识别后最终事件 onNuiAudioRMSChanged：音频能量值回调。音频能量值回调*@param val:音频数据能量值回调，范围-160至0，一般用于UI展示语音动效*/onNuiAudioRMSChanged:(val:number)=number;setParams...

DeletePrecisionTask-删除语音识别检测任务

删除语音识别检测任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中...

语音地址输入识别

在语音场景下，针对语音识别转写后的地址相关信息，通过语音顺滑、地址抽取、地址纠错、地址补齐后，给用户输出标准化地址信息，解决语音对话场景下的地址识别应用，例如语音导航等。测试您可以在地址标准化产品控制台进行 API测试。请求...

产品简介

此外，支持实时语音识别，能够识别对端的语音确认，辅助本端判断对端的意向；点播功能可实现在视频通话过程中，播放视频、PPT 等多种提示画面。音视频通话具有安全性高的特点，端到端全链路加密，符合国密标准，视频录制传输及存储均进行...

数据结构

aiAgentAsrMaxSilence int 语音识别最大静音时长，单位：毫秒，取值范围：200ms～1200ms，默认值：400ms。aiAgentVolume int 智能体说话的音量，取值范围：1～100，默认值：1，若不填：默认使用阿里云推荐的自适应音量模式。...

数据结构

aiAgentAsrMaxSilence int 语音识别最大静音时长，单位：毫秒，取值范围：200ms～1200ms，默认值：400ms。aiAgentVolume int 智能体说话的音量，取值范围：1～100，默认值：1，若不填：默认使用阿里云推荐的自适应音量模式。...

智能标签模板

视频语音识别标签：开启 asr。说明配置智能标签功能开启的分析类型，将会产生费用，收费标准请参见智能标签。ocr FaceCategoryIds string 否参与识别的⼈脸库 ID 列表，可多选，⽤半角逗号（,）分隔。可填⼊系统⼈脸库 ID 和⾃定义⼈脸...