韩语语音识别在线-韩语语音识别在线文档介绍内容-移动阿里云

计费说明（通义晓蜜-CCAI对话分析AIO）

功能模型规格单次调用价格 语音识别 实时语音识别 限时免费离线语音识别 0.33元/小时图片识别通义晓蜜-VLMax 0.01元/次调用大模型分析通义晓蜜-Plus 0.01元/次调用通义晓蜜-Turbo 0.001元/次调用常见问题如何开通通义晓蜜-CCAI...

通义晓蜜CCAI-对话分析AIO计费项变更通知

调整内容新增计费类型：本次调整后，语音识别能力通过API接入方式实现离线语音转译服务将进行收费：离线语音识别：0.33元/小时新增图片识别能力，通过通义晓蜜-VLMax模型实现图片文字识别、总结、推理，该服务的API接入将进行收费。...

实时多模态

法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语，Qwen-Omni-Turbo-Realtime 仅支持 2 种（汉语（普通话）和英语）。支持的音色 qwen3-omni-flash-realtime-2025-12-01支持的音色增加至49种，qwen3-omni-flash-realtime-2025-...

错误码查询

一句话语音识别支持60s以内的音频，如果超过60s，建议调用实时语音识别接口。41010105 SILENT_SPEECH 纯静音数据或噪音数据，导致无法检测出任何有效语音。无。录音文件识别/录音文件识别闲时版错误码状态码状态消息原因解决方案 ...

应用配置

语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-Flash-Realtime。语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大...

WebSocket协议说明

北京：ws:/nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1 请求指令请求指令用于控制语音识别任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两...

WebSocket协议说明

北京：ws:/nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1 请求指令请求指令用于控制语音识别任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。返回语音合成产品详情页计费和并发限制异步长文本语音合成仅提供商用版，不支持试用，详情请参见试用版和商用版。要使用该功能，请开通商用版，详情...

接口说明

长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。说明语音合成产品详情页仅提供大部分音色试听，若详情页没有您想要的音色试听，请通过接口文档进行调用试听。接口文档请参见 Java SDK、C++ SDK。计费...

管理项目

配置项目 语音识别 当项目类型为仅语音识别 或 语音识别+语音合成+语音分析时，项目配置操作如下。单击目标项目右侧的项目功能配置。在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，...

最佳实践

预处理视频文件以提高文件转写效率 Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，因此建议您对视频文件进行预处理。仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低文件尺寸、减少API...

AI Chat 应用语音转文字功能启用指南

步骤一：创建阿里云智能语音交互语音识别项目进入阿里云智能语音交互，并开通服务进入阿里云智能语音交互-全部项目，创建项目创建项目，选择“语音识别+语音合成+语音分析”或“仅语音识别”。进入项目，记录下 appkey，根据需要修改...

计费项

支持服务 语音识别：录音文件识别、实时语音识别、一句话识别语音合成：语音合成语音分析：说话人识别、声音事件检测、性别识别、语种识别 语音识别：录音文件识别、实时语音识别、一句话识别、录音文件识别（极速版）、录音文件识别（闲...

智能语音交互

智能语音交互（Intelligent Speech Interaction），是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能质检、法庭...

Quick BI智能问数开通智能问数语音服务，需要购买哪一...

概述 Quick BI智能问数开通智能问数语音服务，需要购买哪一项？详细信息需要购买智能语音交互 语音识别第一项的实时语音识别即可。适用于 Quick BI 独立部署版 v5.4.1

智能对话分析

智能对话分析(Smart Conversation Analysis)依托于阿里云语音识别和自然语言分析技术，为企业用户提供智能的对话分析服务，支持语音和文本数据的接入。可用于电话/在线客服坐席服务质量检测、风险监控识别、服务策略优化等场景。

Android SDK

则必须app_key、ak_id和ak_secret，或app_key、sts_ak_id、sts_ak_secret和sts_token/若使用在线功能(语音合成、实时转写、一句话识别、录音文件转写等),则只需app_key和token JSONObject object=Auth.getTicket(Auth.GetTicketMethod.GET_...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

产品公共FAQ

产品公共常见问题主要分为以下几类：功能类使用阿里云音视频通信RTC如何调用语音识别服务？智能语音交互服务中语音识别和语音合成用到的端口是哪些？开通商用或者扩容并发，多久才会在控制台上显示？智能语音交互创建的项目数量有限制吗？...

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

智能外呼机器人

智能外呼是综合利用自动语音识别（Automatic Speech Recognition，ASR）、文字转语音(Text To Speech，TTS)以及自然语言理解（Natural Language Understanding，简称NLU）技术并面向企业客户提供的一款智能客服机器人产品。智能外呼机器人...

最佳实践

预处理视频文件以提高文件转写效率（针对录音文件识别场景）虽然Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，建议对其进行预处理，仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低...

计量计费

本文为您介绍Paraformer语音识别的计费详细说明。计费方式模型服务模型名计费单元计费单价 Paraformer语音识别 paraformer-1 秒（不足1秒四舍五入）0.00008元/秒 paraformer-8k-1 paraformer-mtl-1 重要 Paraformer语音识别模型服务仅...

语音识别参数设置

功能入口在智能对话分析控制台中，点击智能工具，选择语音模型训练工具，进入语音识别参数设置界面功能说明编辑选择编辑按钮可以对语音识别的重要参数进行设置，以优化语音识别的效果。参数编辑保存后，先在数据集质检中进行测试。非...

语音识别自学习工具

您在使用智能语音交互进行语音识别时，如果有部分词汇默认识别效果不满足您的需求，您可以使用热词功能提高业务相关术语的识别精度。如果您需要的语音识别服务场景不在所提供的模型范围内，或者需要对标准模型进行更进一步优化，可以使用...

配置语音和图片识别

开启语音识别 步骤一：创建阿里云智能语音交互语音识别项目进入阿里云智能语音交互首页并开通服务。进入阿里云智能语音交互-全部项目，单击创建项目。在对话框中填写项目名称，项目类型选择为 语音识别+语音合成+语音分析或仅...

产品计费

交互链路标准价格（元/千次）备注语音交互多模态交互轻量版语音识别 0.05 可选，每轮交互计为一次标准语音识别 0.75 多模态交互轻量版语音合成 0.09 可选，每轮交互计为一次标准语音合成 1.7 意图识别意图识别（可选）0.8 每轮交互计...

语音数据集

功能概述 ASR泛热词表是一种用于语音识别服务的数据集，用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明：作用：ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题，如地名、人名、特定品牌名等。通过将...

Android SDK

本文档提供了Fun-ASR实时语音识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 快速开始获取与配置 API Key 下载SDK并运行示例代码：下载最新SDK...

语言模型定制

阿里云智能语音交互对某些场景（包括通用、教育、司法、医疗等）进行了大量语音识别训练，提供了高准确率场景模型。当您的语音识别需求超出预设模型范畴，或是希望对现有的标准模型进行个性化定制时，可以通过自学习平台的语言模型定制功能...

录音文件识别（SenseVoice）-即将下线

重要 SenseVoice 服务即将下线：SenseVoice 录音文件识别服务即将下线，为避免影响业务，请尽快迁移至其他语音识别服务（录音文件识别-Paraformer/Fun-ASR、录音文件识别-通义千问）。

交互流程

实时语音识别-通义千问服务通过 WebSocket 协议，接收实时音频流并实时转写。支持 VAD 模式和 Manual 模式交互流程。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 URL 编码时，将 model_name 替换为实际的模型...

iOS SDK

本文档提供了Fun-ASR实时语音识别iOS SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 快速开始获取API Key：获取API Key 下载SDK并运行示例代码：下载最新...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

智能纪要

功能语音转写章节速览摘要总结（全文摘要、发言总结、问答回顾）要点提炼（待办事项、关键词、重点内容）口语书面化服务质检自定义Prompt 实现步骤为了提高语音识别准确度，建议客户端集成RTC的智能降噪模块，这样有助于提高语音...

性能类

关于达摩院智能语音交互语音识别准确度的数字，我们通过了CNAS（国家软件测试中心）的评测，国家软件中心对语音识别算法准确度测试中，在60分贝以下的降噪环境中，用普通话在距离耳麦1厘米的位置，以240字/小时的匀速朗读样本量1207字的...

非开发者使用指南

语音识别（语音转文字）在 语音识别 处单击去配置，选择语言后，单击右下角麦克风按钮开始识别，完成后单击确认使用。语音合成（文字转语音）在语音合成处单击去配置，选择声音后，在右侧文本框输入文字，单击右下角扬声器按钮开始...

Node.js SDK

nls"/import { SpeechSynthesizer } from"alibabacloud-nls"实时语音识别 Class:SpeechTranscription SpeechTranscription类用于进行实时语音识别。构造函数参数说明：参数类型参数说明 config Object 连接配置对象。config object说明：...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

功能发布记录

语音识别 百炼服务模型服务—录音文件识别，支持的语种/方言包括：中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话）、英语、日语、韩语、...