音频语音识别-音频语音识别文档介绍内容-移动阿里云

基于LangStudio&语音识别服务搭建音频内容智能总结...

基于 LangStudio 的“音频总结助手”模板，开发者可快速构建集成语音识别和智能总结功能的 AI 应用，自动将音频/视频文件转录为文本并根据用户需求生成结构化总结报告。开发者可以基于该模板进行灵活扩展和二次开发，以满足会议纪要、学习...

模型列表

语音识别/翻译通义千问实时语音识别、通义千问录音文件识别、Fun-ASR语音识别、Gummy语音识别/翻译、Paraformer语音识别和 SenseVoice语音识别可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy语音...

实时多模态交互协议（WebSocket）

上传的语音识别音频需满足：16bit（采样位深）、单声道、有符号、little-endian PCM编码，采样率参考 Start 消息的参数parameters.upstream.sample_rate的取值说明。如果希望减少网络流量和带宽占用，用户可以把PCM音频编码为Opus格式，...

语音识别FAQ

语音识别服务支持哪些采样率？怎么查看音频文件的采样率？语音识别服务支持的方言模型和语种都有哪些？语音识别能否自动断开多句话？实时识别和录音文件转写分别支持哪些语音格式？性能类语音识别的识别准确率怎么计算？语音识别模型的字...

语音类

背景信息本文介绍以下语音类标注模板的数据结构：音频分类音频分割音频识别音频分类音频分类（Audio Classification）是指从一组固定的分类标签集合中，找到与输入音频内容相匹配的一个或多个分类标签，并将其分配给该输入音频。...

实时语音识别-通义千问

❌ 音频输入方式二进制音频流待识别音频格式 pcm、opus 待识别音频声道单声道待识别音频采样率 8000Hz、16000Hz 快速开始使用DashScope SDK Java 安装SDK，确保DashScope SDK版本不低于2.21.14。获取API Key，推荐使用环境变量配置 ...

Java SDK

InputAudioTranscription String 用于输入音频转录的语音识别模型，当前仅支持设置为"gummy-realtime-v1"enableTurnDetection Boolean 是否开启语音活动检测(VAD)，如果关闭后，由用户手动提交音频创建omni回复。turnDetectionType String ...

Python SDK

input_audio_transcription_model str 用于输入音频转录的语音识别模型，当前仅支持设置为"gummy-realtime-v1。turn_detection_type str 服务端VAD类型，目前固定为"server_vad。turn_detection_threshold float VAD检测阈值。建议在嘈杂的...

移动端Android Lite SDK

WS 链路音频格式说明：上行：支持 pcm 和 opus 格式音频进行语音识别。下行：支持 pcm 和 mp3 音频流。交互模式说明 SDK支持 Push2Talk、Tap2Talk 和 Duplex（全双工）三种交互模式。Push2Talk:长按说话，抬起结束的收音方式。Tap2Talk:...

移动端iOS Lite SDK

WS 链路音频格式说明：上行：支持 pcm 和 opus 格式音频进行语音识别。下行：支持 pcm 和 mp3 音频流。交互模式说明 SDK支持 Push2Talk、Tap2Talk 和 Duplex（全双工）三种交互模式。Push2Talk:长按说话，抬起结束（或者点击开始，点击结束...

移动端Android SDK

WS 链路音频格式说明：上行：支持 pcm 和 opus 格式音频进行语音识别。下行：支持 pcm 和 mp3 音频流。音视频交互：仅支持RTC 传输方式连接进行交互，提供端到端的音视频多模交互能力。RTC 链路音频格式说明：上行：支持 pcm 传入 SDK，...

Linux C++ SDK

20251201_Linux_aarch64_11.tar.gz Linux aarch64(gcc-arm-11.2)320b8bd39ebfcb499ef873c8d8b606db 音频格式说明 Websocket 链路音频格式说明：上行：支持 pcm 和 opus 格式音频进行语音识别。仅支持用户送入pcm格式音频（16K采样率，16bit...

功能特性

语音识别语种模型采样率（Hz）正式版/Beta版中文普通话方言外语 16K 正式版普通话（兼容部分口音）湖北话、四川话、粤语、山西话、陕西话、东北话、天津话、甘肃话、贵州话、山东话、苏州话、浙江话、上海话、河南话、云南话、江西话...

API详情

概述 Paraformer语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将结果返回给调用者。常见的音频或音视频文件一般采用16kHz及以上的采样率进行录制，可选择paraformer-v1模型进行中英文语音识别，或选择...

Android SDK

本文档提供了Fun-ASR录音文件识别Android SDK的详细...EVENT_FILE_TRANS_UPLOADED 上传待识别音频文件成功。EVENT_FILE_TRANS_QUERY_RESULT 查询任务结果。EVENT_FILE_TRANS_RESULT 识别最终结果。EVENT_ASR_ERROR 语音识别过程中出现错误。

应用配置

语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-Flash-Realtime。语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大...

iOS SDK

本文档提供了Fun-ASR录音文件识别iOS SDK的详细使用...EVENT_FILE_TRANS_UPLOADED 上传待识别音频文件成功。EVENT_FILE_TRANS_QUERY_RESULT 查询任务结果。EVENT_FILE_TRANS_RESULT 识别最终结果。EVENT_ASR_ERROR 语音识别过程中出现错误。

Android SDK

本文档提供了Paraformer录音文件识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议...EVENT_FILE_TRANS_UPLOADED 上传待识别音频文件成功。EVENT_FILE_TRANS_QUERY_RESULT 查询任务结果。EVENT_FILE...

iOS SDK

语音识别效果参数通过 nui_set_param 接口配置nl_config参数，或者通过 nui_file_trans_start 接口配置所有语音识别效果参数。参数示例：以下为 JSON 字符串示例，参数未完整列出。请按实际需求在编码时补充：{"file_urls":[...

产品更新动态

语音算法服务拆分为语音合成与语音识别 描述：将大模型场景与小模型场景中【语音&VUI】的语音算法能力拆分成语音合成和语音识别服务配置，方便客户对ASR和TTS的自定义选择。大模型场景支持第三方语音ASR识别服务描述：大模型场景支持第三...

Java SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Java SDK的使用。用户...

WebSocket API

示例：{"header":{"task_id":"2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx","event":"task-started","attributes":{} },"payload":{} } 2、result-generated事件：包含语音识别响应结果客户端发送待识别音频和 finish-task 指令的同时，服务端...

WebSocket API

示例：{"header":{"task_id":"2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx","event":"task-started","attributes":{} },"payload":{} } 2、result-generated事件：包含语音识别响应结果客户端发送待识别音频和 finish-task 指令的同时，服务端...

快速开始

示例代码以下示例展示了调用Paraformer语音识别文件转写API，对一个通过URL给出的音频文件进行语音识别的代码。说明需要使用您的API-KEY替换示例中的 your-dashscope-api-key，代码才能正常运行。通过URL指定进行语音转写的文件，其大小...

SDK和API概览

Python SDK 一句话识别、实时语音识别、录音文件识别、录音文件识别闲时版、语音合成、C++ SDK 一句话识别、实时语音识别、语音合成 Go SDK 一句话识别、实时语音识别、语音合成 Node.js SDK 一句话识别、实时语音识别、语音合成小程序 ...

RESTful API

模型列表模型名模型简介 sensevoice-v1 语音识别大模型，支持50多种语言的识别，具备情感分析和音频事件检测功能，并默认提供标点符号预测及逆文本正则化（ITN）能力。约束服务不支持本地音/视频文件直传，输入源需为可通过公网访问的...

Java Demo

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。前提条件使用SDK前，请先阅读接口说明，详情请参见接口说明。已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。...

探索（模板市场）

AI应用模板模板实践文档文档内容洞察助手基于LangStudio&搜索MCP服务搭建文档智能问答Agent应用音频总结助手基于LangStudio&语音识别服务搭建音频内容智能总结助手智能数据Agent 基于LangStudio&Hologres构建ChatBI数据分析Agent...

Java Demo

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。前提条件使用SDK前，请先阅读接口说明，详情请参见接口说明。已开通智能语音交互并获取AccessKey ID和AccessKey Secret，详情请参见从这里开始。...

Java SDK

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

Python SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Python SDK的使用。...

RESTful API

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

Python SDK

默认支持，无需配置 ✅ 默认支持，无需配置 ✅ 默认支持，无需配置定制热词 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理 ✅ 参见 Paraformer语音识别热词定制与管理指定待识别语种 ❌ ❌ ❌ ...

Java SDK

channelId List Integer[0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。specialWordFilter String-否指定在语音识别过程中需要处理的敏感词，并支持...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

WebSocket API

header.task_id string 客户端生成的task_id 2.result-generated事件：语音识别结果客户端发送待识别音频和 finish-task指令的同时，服务端持续返回 result-generated 事件，该事件包含语音识别的结果。可以通过 result-generated 事件中...

RESTful API

channel_id array[integer][0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。special_word_filter string-否指定在语音识别过程中需要处理的敏感词，...

Python SDK

channel_id list[int][0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。special_word_filter str-否指定在语音识别过程中需要处理的敏感词，并支持对...

WebSocket API

示例：{"header":{"task_id":"2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx","event":"task-started","attributes":{} },"payload":{} } 2、result-generated事件：包含语音识别响应结果客户端发送待识别音频和 finish-task 指令的同时，服务端...

WebSocket API

示例：{"header":{"task_id":"2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx","event":"task-started","attributes":{} },"payload":{} } 2、result-generated事件：包含语音识别响应结果客户端发送待识别音频和 finish-task 指令的同时，服务端...