小程序语音识别-小程序语音识别文档介绍内容-移动阿里云

Go SDK

实时语音识别 1.SpeechTranscriptionStartParam 实时语音识别参数。参数类型参数说明 Format String 音频格式，默认值：PCM。取值为OPUS、OPU和PCM，如果是OPUS或OPU时，您需要自行编码。SampleRate Integer 采样率，默认值：16000 Hz。...

智能双录质检的审计事件

事件名称事件含义 AsrRealtime 实时语音识别。AsrSentence 一句话识别。AsrTask 语音识别任务。AssociateRoom 关联房间。CheckServiceLinkedRole 查询服务关联角色。Create 实例或者资源包等的购买操作。CreateApp 创建应用。...

语音转文字（阿里云智能语音交互）

重要音频采样率为 16K 且不可更改，请确保所使用的阿里云智能语音交互项目，语音识别模型的采样率相同。回调配置回调事件句子结束：在每一句转义结束后触发。转义完成：在所录制的音频全部转义完成后触发。使用插件组件绑定 Chat 组件...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./srDemo 关键接口基础接口 NlsClient：语音处理客户端，...

BatchRobotSmartCall-批量发起智能语音机器人外呼任务

100002970*EarlyMediaAsr boolean 否早媒体语音识别标识。默认为 false，即不启用。如果需要启用早媒体语音识别标识，请设置为 true。true TaskName string 是任务名称。支持中文和英文。长度限制为：0~30 个字符。批量外呼任务 ...

查询服务用量和账单明细

例如，在 语音识别 页签，勾选服务下拉菜单中的录音文件识别服务，其他过滤条件保持默认，即可查看录音文件识别服务的所有项目在近7日内的调用量和QPS并发量。设置资源包额度预警登录智能语音交互控制台。在总览页面，鼠标悬停告...

小程序使用指南

小程序主要功能文档内容识别从图片中提取文字或表格，对文档内容进行识别，支持翻译和导出Word/Excel等更多功能。文档格式转换将文档格式进行转换，上传PDF、图片等文档后，将其转换为可编辑的Word/Excel，并保留原始文档的版式样式信息...

地域和域名

多地域产品能力对比产品能力子项华东2（上海）（当前地域）华北2（北京）（新增地域）华南1（深圳）（新增地域）管控台管控台统一管控台统一管控台统一管控台 语音识别 一句话识别支持支持支持实时语音识别 支持支持支持录音...

热词模型

语音识别模型如果90天内没有真实在线上使用，系统会自动回收，请妥善使用和维护。视频讲解操作流程新建热词组进入智能工具选择“语音模型训练工具”中的热词模型，点击列表右上方的新建热词组按钮，需要注意的是，当前每个用户最多可...

RESTful API

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别RESTful API的使用。...

声纹检索

应用案例：网约车司机行为安全监控与敏感内容检测背景某出行公司希望通过语音识别技术，对网约车内录制的音频进行分析，从多人对话中准确提取司机的语音片段，识别司机语音中是否存在违规内容。通过 AnalyticDB for MySQL 提供的声纹识别...

Android

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成/长文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo ...

paraformer-realtime-v2、paraformer-realtime-v1、paraformer-realtime-8k-v2、paraformer-realtime-8k-v1 实时语音识别（Fun-ASR）：fun-asr-realtime、fun-asr-realtime-2025-11-07、fun-asr-realtime-2025-09-15 实时语音识别（Qwen-...

什么是智能双录质检

产品优势基于达摩院 AI 能力阿里巴巴达摩院团队人工智能（Artificial Intelligence，简称 AI）实验室在语音识别、图像识别、视觉理解、语言理解等方面开展大量研究，并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

基本概念

目前语音识别中常用的采样位数为16 bit小端序，即每次采样的音频信息用2字节保存，或者说2字节记录1/16000s的音频数据。其中，2字节采样位数已经能够达到CD标准。每个采样数据记录的是振幅，采样精度取决于采样位数的大小：1字节（8 bit）...

Python SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Python SDK的使用。...

大模型场景基本业务流程创建

更多操作外呼通话过程中，如遇到问答或者语音识别效果不好时，可通过以下方式尝试解决：热词配置：在语音通话过程中，如遇到词汇识别效果不好的情况，可将其添加到热词表提升识别结果。高频问答配置：将高频率问题及其答案添加到高频问答...

产品简介

智能纪要高精度语音识别：能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、法语、俄语的转写及实时双向互译。转写结果可返回段落、句子划分和词级别的起止时间，用于对应字幕展示。大模型全面...

智能机翻

说明 语音识别：针对视频中无字幕的场景，对视频中的语音进行识别，以识别的文案作为主字幕。字幕识别：针对视频中包含底部字幕的场景，对视频中的字幕进行识别，以识别的文案作为主字幕。4.2 开始翻译点击开始翻译按钮后，将开始对视频...

视频AI

支持将语音识别为文本等。视频AI功能特性功能描述更多参考智能审核智能审核服务支持对点播视频资源的视频文件、封面图片及标题文本中涉黄、性感、暴恐、特殊装束、特殊标识、武器、涉政等内容进行识别，并给出建议结果。产品信息：...

音视频通话快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

功能发布记录

服务端 2025-05-16 语音识别热词离线视频分析支持离线视频重新分析。服务端 2025-05-31 记忆轮数工作流支持记忆对话轮数配置。控制台 2025-05-31 消息对话富消息输入和输出 Web端支持输出代码/表格的 Markdown格式。Web 2025-05-31 ...

应用场景

智能语音交互智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲...

通义听悟实时流

什么是通义听悟实时流通义听悟实时流是一种实时语音识别服务，它能够将实时的语音输入转换为文本输出。这项功能特别适用于需要即时语音转写的场景，如实时会议记录、直播字幕等。通义听悟实时流需要配合通义听悟集成操作来使用。具体而言...

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式 语音识别服务语音输入格式说明一句话识别支持的输入格式：单...

iOS和Mac

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

常见问题

检查音频文件格式：建议您检查待测试的语音格式是否符合语音识别输入格式要求，格式要求请参见音频采集和播放说明。将待测试语音转换成16kHz、16 bit采样位数、单声道（mono）无压缩的WAV文件。Tap2Talk/Duplex 模式下，发送音频没有最终...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

产品优势

除语音识别、翻译、说话人分离外，还包括章节速览、大模型摘要总结（全文摘要、发言总结、问答回顾、思维导图）、要点提炼（关键词、待办事项、重点内容、场景识别）、服务质检、PPT提取及摘要、口语书面化、自定义prompt等功能。...

电话呼出&呼入快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

基本概念

目前语音识别中常用的采样位数为16 bit小端序。即每次采样的音频信息用2字节保存，或者说2字节记录1/16000s的音频数据。每个采样数据记录的是振幅，采样精度取决于采样位数的大小：1字节（8比特）记录256个数，亦即将振幅划分为256个等级。...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

接口与实现

语音识别（Transcription）Parameters.Transcription.OutputLevel int 1 设置语音识别结果返回等级。1：识别出完整句子时返回识别结果 2：识别出中间结果及完整句子时返回识别结果仅在实时记录场景下按需设置，离线转写场景无须设置。...