方言语音识别-方言语音识别文档介绍内容-移动阿里云

产品概述

采用汽车行业专用语音识别（ASR）和微调模型（SFT），分析全流程场景：电话邀约、门店接待、试乘试驾、售后服务，对话内容涵盖服务流程、业务要求、竞品应对等，帮助企业优化服务流程并挖掘商机。支持电话、手机、智能工牌及车载设备等录音...

语音转写

目前可选用的领域专属模型如下表所示：模型名称参数值支持语言采样率实时/离线适用场景汽车领域销售对话语音识别模型 domain-automotive 中文 16k 离线适用于汽车行业，包括门店接待、汽车试驾、车型推销等场景下的语音识别 教育...

语音转文本热词库

在语音识别中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。本文为您介绍语音转文本热词库的创建流程与使用流程。创建热词库登录智能联络中心控制台。在左侧导航栏，大...

模型效果评测

语音识别检测，可以直观的看到指定语音模型语音转文字的识别准确率，通过人工校验得到正确的文本标注结果，用来训练您的自定义模型；通过型对比可以看到每次优化后的准确率提升情况，从而让您十分高效的提升语音转文字的识别准确率。提升...

开发指南

智能体通话记录：阿里云内置的语音识别技术，可以自动转录通话内容，从而便于您对通话记录进行审核、模型训练等操作。智能体回调：智能体回调允许您的应用在特定事件发生时自动触发预设的操作或响应。语音识别热词：如果您的业务中存在某些...

自定义敏感词

配置敏感词后，语音识别系统将实时识别已配置的敏感词，针对自定义敏感词库，如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。说明在识别到敏感词后，系统会将替换后的内容传递至大模型节点。配置流程准备敏感词...

消息对话快速入门

说明若要实现语音识别或文本朗读功能，您必须配置以下节点：配置 STT 语音转文字节点可以实现按键语音识别。配置 TTS 文字转语音节点可以实现文本朗读。STT 语音转文字该节点负责将语音输入转换成可读的文字格式，支持多语种识别。系统...

视频翻译

字幕识别模型可以选择"语音识别"和"字幕识别"，语音识别会根据视频中的语音生成字幕，字幕识别会根据视频中的字幕生成字幕。4.创建项目点击创建项目，等待解析完成。项目创建成功后，可以点击分配译员。若不需线上进行人工编辑，只需要...

什么是语音服务

智能语音交互智能语音交互基于语音识别、合成与自然语言理解技术，赋予产品“能听、会说、懂你”的交互体验，适用于智能问答、质检、庭审记录等多场景，广泛应用于金融、保险、司法、电商等领域。更多详情，请参见应用场景。

Java SDK

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别Java SDK的使用。用户...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。建议您...

快速开始

示例代码以下示例展示了调用Paraformer语音识别文件转写API，对一个通过URL给出的音频文件进行语音识别的代码。说明需要使用您的API-KEY替换示例中的 your-dashscope-api-key，代码才能正常运行。通过URL指定进行语音转写的文件，其大小...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。...

对接操作审计

DeleteAsrModel 删除语音识别基础模型。DeleteData 删除数据。DeleteProject 删除项目或应用。PublishAsrModel 发布ASR模型。TrainAsrModel 训练ASR模型。UpdateProject 更新项目或应用。UpdateTtsModel 更新TTS基础模型。...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

功能特性

语音服务语音服务（Voice Service），是阿里云为了方便用户使用语音能力，联合运营商提供稳定可靠、安全可信的云通信...智能语音交互增值服务 ASR 提供语音识别，语音转文本服务。录音提供录音服务。行业云联络中心_座席提供坐席服务。

Python SDK

本文档介绍如何使用 DashScope Python SDK 调用实时语音识别（Qwen-ASR-Realtime）模型。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeConversation 的构造方法设置。参数类型...

Java SDK

关键接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。SpeechTranscriber：实时语音识别类，通过该接口设置请求参数，发送请求及...

语音数据集

ASR泛热词表在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。如地名、人名、特定品牌名等。这些热词表可以加载到场景和任务里生效，以提高识别效果。热词不...

从这里开始

智能语音交互产品基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。本文为您介绍如何使用智能语音交互，帮助您快速了解其使用...

消息队列

实时质检对话分析结果：也就是质检结果（规则命中信息），不支持单独发送，需要与实时质检单句语音识别结果或实时质检全文语音识别结果类型的消息一起发送，也就会说在发送语音识别结果消息时携带质检结果。消息推送的类型及消息结构...

功能特性

获取通话录音 ASR 智能语音识别功能。智能语音机器人行业版行业版服务（邀约制）AI软件+话术定制一体化运营服务，包含从需求沟通和确认，到话术模板初始化、话术调整、真人录音提供、客户测试、调整优化，再到最终外呼执行、呼叫效果统计...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成...

智能标签

返回ASR语音识别原始结果单击开关按钮，切换是否返回语音识别结果。开启后，标签任务可返回ASR语音识别原始结果。单击提交任务，完成创建智能标签任务。API提交智能标签任务通过模板配置分析类型。智能标签作业可以通过模板设置分析类型...

RESTful API

警告 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。本文介绍SenseVoice录音文件识别RESTful API的使用。...

客户端事件

用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 session.update 用于更新会话配置，建议在 WebSocket 连接建立后首先发送该事件。建议在WebSocket连接建立成功后，立即发送此事件作为交互的第一步。如果未发送，系统...

在控制台创建热词

创建热词设置热词后，新建的语音识别请求立即生效。已经运行的识别请求无法使用该热词。登录智能语音交互控制台。在左侧导航栏选择自学习平台热词。在热词页面，单击创建热词。在添加热词组弹框中，输入热词组名称、选择热词...

iOS SDK

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号，暂不使用*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果*@param finish:本轮识别是否结束标志*@param resultCode:参见错误...

接口说明

客户端在调用实时语音识别时请保持实时速率发送，发送完成后及时关闭链接。50000000 GRPC_ERROR:Grpc error!受机器负载、网络等因素导致的异常，通常为偶发出现。一般重试调用即可恢复。50000001 GRPC_ERROR:Grpc error!受机器负载、网络等...

音频采集和播放说明

音频格式说明类型可选参数设置语音格式说明 语音识别 upstream.audio_format 支持的输入格式："pcm"：PCM编码（无压缩的PCM或WAV），16bit 采样深度，单通道。raw-opus"：裸 OPUS 数据，以定长发送音频采样率：默认16000 Hz。语音合成...

Android SDK

使用Android Studio打开此工程查看参考代码实现，其中实时语音识别示例代码为SpeechTranscriberActivity.java文件，替换Appkey和Token后可直接运行。SDK关键接口 initialize：初始化SDK。初始化SDK，SDK为单例，请先释放后再次进行初始化。...

智能双录质检的审计事件

事件名称事件含义 AsrRealtime 实时语音识别。AsrSentence 一句话识别。AsrTask 语音识别任务。AssociateRoom 关联房间。CheckServiceLinkedRole 查询服务关联角色。Create 实例或者资源包等的购买操作。CreateApp 创建应用。...

Go SDK

实时语音识别 1.SpeechTranscriptionStartParam 实时语音识别参数。参数类型参数说明 Format String 音频格式，默认值：PCM。取值为OPUS、OPU和PCM，如果是OPUS或OPU时，您需要自行编码。SampleRate Integer 采样率，默认值：16000 Hz。...

自学习平台FAQ

语音识别类常见问题主要分为以下几类：功能类自学习模型的调用限制是什么？控制台与POP API设置自学习模型的区别是什么？如何通过控制台添加热词？如何通过控制台设置泛热词的权重？如何通过POP API创建热词词表？热词有数量限制吗？除了...

错误码查询

一句话语音识别支持60s以内的音频，如果超过60s，建议调用实时语音识别接口。41010105 SILENT_SPEECH 纯静音数据或噪音数据，导致无法检测出任何有效语音。无。录音文件识别/录音文件识别闲时版错误码状态码状态消息原因解决方案 ...

使用SDK设置业务专属热词

本文为您介绍在一句话识别、实时语音识别和录音文件识别SDK示例中如何设置业务专属热词。概况通过管控台配置的业务专属热词表与项目标识（Appkey）绑定，无需自行设置。通过POP API训练获取的业务专属热词表，需要在SDK中设置其词表ID。...

使用SDK 2.0设置自学习模型

实时语音识别 在实时语音识别中，需要通过设置高级参数 customization_id 设置自学习模型ID。Java SDK 说明请首先阅读 Java SDK，了解Java SDK的基本用法。由于SDK中没有 customization_id 参数对应的set方法，需要通过SpeechTranscriber...

语音转文字（阿里云智能语音交互）

重要音频采样率为 16K 且不可更改，请确保所使用的阿里云智能语音交互项目，语音识别模型的采样率相同。回调配置回调事件句子结束：在每一句转义结束后触发。转义完成：在所录制的音频全部转义完成后触发。使用插件组件绑定 Chat 组件...