韩语语音识别在线-韩语语音识别在线文档介绍内容-移动阿里云

在控制台创建热词

创建热词设置热词后，新建的语音识别请求立即生效。已经运行的识别请求无法使用该热词。登录智能语音交互控制台。在左侧导航栏选择自学习平台热词。在热词页面，单击创建热词。在添加热词组弹框中，输入热词组名称、选择热词...

接口说明

对一分钟内的短语音进行识别，适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。功能简介 NUI SDK提供更小的工具包和更完善的状态管理。为满足不同用户需求，NUI SDK既能提供全链路的语音能力，同时可做原子能力SDK...

Go SDK

实时语音识别 1.SpeechTranscriptionStartParam 实时语音识别参数。参数类型参数说明 Format String 音频格式，默认值：PCM。取值为OPUS、OPU和PCM，如果是OPUS或OPU时，您需要自行编码。SampleRate Integer 采样率，默认值：16000 Hz。...

自学习平台FAQ

语音识别类常见问题主要分为以下几类：功能类自学习模型的调用限制是什么？控制台与POP API设置自学习模型的区别是什么？如何通过控制台添加热词？如何通过控制台设置泛热词的权重？如何通过POP API创建热词词表？热词有数量限制吗？除了...

语音转文字（阿里云智能语音交互）

重要音频采样率为 16K 且不可更改，请确保所使用的阿里云智能语音交互项目，语音识别模型的采样率相同。回调配置回调事件句子结束：在每一句转义结束后触发。转义完成：在所录制的音频全部转义完成后触发。使用插件组件绑定 Chat 组件...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

文件格式说明

车辆物流识别行驶证识别驾驶证识别电子面单识别车牌识别车辆vin码识别机动车注册登记证识别车辆合格证识别小语种识别通用多语言识别英语专项识别日语识别俄语识别 韩语识别 泰语识别拉丁语识别教育场景识别口算判题题目...

接口说明

实时语音识别服务的智能断句功能会判断出一句话的开始与结束，如：{"header":{"namespace":"SpeechTranscriber","name":"SentenceBegin","status":20000000,"message_id":"a426f3d4618447519c9d85d1a0d1*","task_id":"5ec521b5aa104e3abccf...

BatchRobotSmartCall-批量发起智能语音机器人外呼任务

100002970*EarlyMediaAsr boolean 否早媒体语音识别标识。默认为 false，即不启用。如果需要启用早媒体语音识别标识，请设置为 true。true TaskName string 是任务名称。支持中文和英文。长度限制为：0~30 个字符。批量外呼任务 ...

查询服务用量和账单明细

例如，在 语音识别 页签，勾选服务下拉菜单中的录音文件识别服务，其他过滤条件保持默认，即可查看录音文件识别服务的所有项目在近7日内的调用量和QPS并发量。设置资源包额度预警登录智能语音交互控制台。在总览页面，鼠标悬停告...

HarmonyOS Next SDK

类别兼容范围系统支持 HarmonyOS Next 5.0 版本，API LEVEL 12,DevEco Studio版本号 5.0.3.403 架构 arm64-v8a 此SDK还包含如下功能：功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成...

热词模型

语音识别模型如果90天内没有真实在线上使用，系统会自动回收，请妥善使用和维护。视频讲解操作流程新建热词组进入智能工具选择“语音模型训练工具”中的热词模型，点击列表右上方的新建热词组按钮，需要注意的是，当前每个用户最多可...

Web SDK 发布说明

V 1.0.9 增加开始语音识别失败接口 OnStartAsrFailed（见被调接口 50）。语音识别结果接口名从 OnAsrMsg 修改为 OnAsrMessage（见被调接口 53）。开始语音识别接口添加参数引擎类型 procType（见主调接口 30）。服务端录制结束通知接口名从...

移动端IOS推流

SDK主要事件回调*@param event:回调事件，参见如下事件列表*@param dialog:会话编号，暂不使用*@param wuw:语音唤醒功能使用（暂不支持）*@param asr_result:语音识别结果和翻译结果*@param finish:本轮识别是否结束标志*@param resultCode...

Python SDK

本文介绍Fun-ASR实时语音识别Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。前提条件已开通服务并获取与配置 API Key。请配置API Key到环境变量，而非硬编码在代码中，...

声纹检索

应用案例：网约车司机行为安全监控与敏感内容检测背景某出行公司希望通过语音识别技术，对网约车内录制的音频进行分析，从多人对话中准确提取司机的语音片段，识别司机语音中是否存在违规内容。通过 AnalyticDB for MySQL 提供的声纹识别...

移动端SDK说明

一句话语音识别支持60s以内的音频，如果超过60s，建议调用实时语音识别接口。41010105 SILENT_SPEECH 纯静音数据或噪音数据，导致无法检测出任何有效语音。无。一句话识别/实时语音识别/录音文件识别极速版配置或参数错误状态码状态消息...

Android

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

iOS SDK

SDK主要事件回调*@param nuiEvent:回调事件，参见如下事件列表*@param asrResult:语音识别结果*@param taskId:一个任务对应的唯一id*@param ifFinish:本轮识别是否结束标志*@param retCode:参见错误码，在出现EVENT_ASR_ERROR事件时有效*/-...

paraformer-realtime-v2、paraformer-realtime-v1、paraformer-realtime-8k-v2、paraformer-realtime-8k-v1 实时语音识别（Fun-ASR）：fun-asr-realtime、fun-asr-realtime-2025-11-07、fun-asr-realtime-2025-09-15 实时语音识别（Qwen-...

错误信息

input must contain file_urls 原因：使用语音识别（Paraformer）的录音文件识别时，未对请求参数 file_urls 赋值。解决方案：请在请求中包含 file_urls 参数并为其赋值。The provided URL does not appear to be valid.Ensure it is ...

大模型场景基本业务流程创建

更多操作外呼通话过程中，如遇到问答或者语音识别效果不好时，可通过以下方式尝试解决：热词配置：在语音通话过程中，如遇到词汇识别效果不好的情况，可将其添加到热词表提升识别结果。高频问答配置：将高频率问题及其答案添加到高频问答...

运行示例

通过SDK调用实时语音识别 使用Java开发语言调用SDK，可用于生产环境。通过Python示例调用录音文件转写 Python脚本示例，可上传长语音文件（512 MB以内）。通过SDK调用语音合成使用Java开发语言调用SDK，可用于生产环境。通过Curl命令调用...

Java SDK

channelId List Integer[0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。specialWordFilter String-否指定在语音识别过程中需要处理的敏感词，并支持...

实时多模态交互协议（WebSocket）

语音识别支持的模型包括：Gummy实时语音识别（Gummy），Paraformer实时语音识别（Paraformer），FUN-ASR实时语音识别（FunASR），通义千问3-ASR-Flash-Realtime（qwen3-asr-flash-realtime），多模态交互轻量版语音识别（AppSpecificASR-...

Java SDK

本文介绍Fun-ASR实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。前提条件已开通服务并获取与配置 API Key。请配置API Key到环境变量，而非硬编码在代码中，...

语音&智能VUI

目前支持第三方克隆音色，填入需要的音色ID即可，请注意需要提前在外呼系统管理中进行配置对应的鉴权信息 语音识别 默认服务：配置项的含义及系统界面如下图所示：ASR模型：支持中文以及英文等多语种场景。ASR热词：可在语音数据集中上...

智能机翻

说明 语音识别：针对视频中无字幕的场景，对视频中的语音进行识别，以识别的文案作为主字幕。字幕识别：针对视频中包含底部字幕的场景，对视频中的字幕进行识别，以识别的文案作为主字幕。4.2 开始翻译点击开始翻译按钮后，将开始对视频...

视频AI

支持将语音识别为文本等。视频AI功能特性功能描述更多参考智能审核智能审核服务支持对点播视频资源的视频文件、封面图片及标题文本中涉黄、性感、暴恐、特殊装束、特殊标识、武器、涉政等内容进行识别，并给出建议结果。产品信息：...

智能标签

视频语音识别标签ASR 分析视频中的语音信息，提取语音文本内容。视频标签分析视频中节目、人物角色、物体、场景、地域等内容。图片标签分析图片中的人物角色、地域、动作事件、标识、物体等内容。使用限制智能标签可以处理的文件类型和...

音视频通话快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

移动端Android推流

EVENT_TRANSCRIBER_COMPLETE 停止语音识别后最终事件 onNuiAudioRMSChanged：音频能量值回调。运行过程中收到音频的实时音频能量值*@param val:音频数据能量值回调，范围-160至0，一般用于UI展示语音动效*/public void ...

通义听悟实时流

什么是通义听悟实时流通义听悟实时流是一种实时语音识别服务，它能够将实时的语音输入转换为文本输出。这项功能特别适用于需要即时语音转写的场景，如实时会议记录、直播字幕等。通义听悟实时流需要配合通义听悟集成操作来使用。具体而言...

RESTful API

channel_id array[integer][0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。special_word_filter string-否指定在语音识别过程中需要处理的敏感词，...

语言模型

可以使用这些历史数据作为语料来对自定义的语言模型进行训练，自定义的语言模型在训练时，是在通用模型的基础上进行训练的，通过对您的训练语料做模型训练，可以有效提高您的特有场景的语音识别准确率，尤其是专有名词和文本中的高频词汇，...

iOS和Mac

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

智能语音对话系统

本文提供一个项目示例代码，旨在演示如何集成 ASR（自动语音识别）、LLM（大语言模型）和 TTS（语音合成）三大核心能力，构建智能语音对话系统。准备环境和代码请先在本地或开发服务器上完成环境准备和项目示例代码获取。重要本项目要求 ...

常见问题

检查音频文件格式：建议您检查待测试的语音格式是否符合语音识别输入格式要求，格式要求请参见音频采集和播放说明。将待测试语音转换成16kHz、16 bit采样位数、单声道（mono）无压缩的WAV文件。Tap2Talk/Duplex 模式下，发送音频没有最终...

应用场景

智能语音交互智能语音交互是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭庭审实时记录、实时演讲...

Python SDK

channel_id list[int][0]否指定在多音轨文件中需要进行语音识别的音轨索引，以List的形式给出，例如[0]表示仅识别第一条音轨，[0,1]表示同时识别前两条音轨。special_word_filter str-否指定在语音识别过程中需要处理的敏感词，并支持对...