离线语音识别-离线语音识别文档介绍内容-移动阿里云

通义晓蜜CCAI-对话分析AIO计费项变更通知

同时离线语音识别将从免费邀测阶段转为商业化收费运营，可通过调试窗口进行免费测试。调整过程不会影响的正常使用。调整时间预计调整时间为北京时间2025年08月14日。实际调整时间请以生效时间为准。调整内容新增计费类型：本次调整后，...

计费说明（通义晓蜜-CCAI对话分析AIO）

平台提供实时语音识别、离线语音识别两种语音识别能力，目前实时语音限时免费体验；离线语音识别可通过调试窗口进行免费测试，通过API接入方式为0.33元/小时按实际使用时长计费。转译成文本的录音文件会再调用大模型进行分析。对于大模型...

功能发布记录

同时支持实时和离线语音识别，支持8k和16k模型。识别速度快：采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；服务响应毫秒级延迟。新增无后处理模型更新修复英文ITN时间戳问题。修复ITN离线...

语音识别FAQ

语音识别服务支持离线功能吗？语音识别支持哪些模型？语音识别是否可以混合识别极少量英文单词和字母？开启ITN（逆文本规整）后，中文数字混合时为什么并不是全部转为阿拉伯数字？录音文件识别的enable_sample_rate_adaptive和极速版本里的...

错误码查询

一句话语音识别支持60s以内的音频，如果超过60s，建议调用实时语音识别接口。41010105 SILENT_SPEECH 纯静音数据或噪音数据，导致无法检测出任何有效语音。无。录音文件识别/录音文件识别闲时版错误码状态码状态消息原因解决方案 ...

开通授权

本文介绍如何开通离线语音合成标准版/精品版，购买、配置并激活对应的SDK授权。背景信息 离线语音合成提供了商业版SDK，包含标准版/精品版两种声音品质，您可以根据使用场景及设备性能状况选择合适的版本。精品版音质更好；但如果设备性能...

数据概览

功能介绍在概览页面中可以查询当前数据统计信息以及趋势图、离线语音和离线文本指标。在概览页面上方导航栏单击质检用量统计，可查看近七日的计费统计信息。数据统计图数据统计图包括：大模型调用量、文本质检字符数（包括实文本...

https://help.aliyun.com/zh/ram/developer-reference/sts-sdk-overview //STS Python SDK调用示例：https://help.aliyun.com/zh/ram/developer-reference/use-the-sts-openapi-example // //账号需求说明:/若使用离线功能(离线语音合成、...

创建质检任务

离线语音质检 离线语音是来自呼叫中心中上传的离线语音文件，用户可以根据质检匹配条件筛选出需要质检的数据，系统支持AND和OR条件的简单逻辑筛选。实时语音质检实时语音是来自呼叫中心中的语音数据，用户可以根据质检匹配条件筛选出需要...

产品定价

计费说明质检类型计费单位及说明用量阶梯单价 离线语音质检被质检的离线语音总时长，单位为小时/天。0=用量=1000 2.7元/小时 1000 用量=3000 2.1元/小时 3000 用量 1.5元/小时实时语音质检被质检的实时语音总时长，单位为小时/天。0...

数据源管理

功能说明数据源管理主要是对【离线语音质检、离线文本质检、实时语音质检、实时文本质检】四种数据源类型的自定义字段的名称和类型的编辑。功能入口在智能对话分析控制台中点击“系统管理-数据源管理”，可以看到目前数据源列表包括（离...

功能发布记录

服务端 2025-05-16 语音识别热词离线视频分析支持离线视频重新分析。服务端 2025-05-31 记忆轮数工作流支持记忆对话轮数配置。控制台 2025-05-31 消息对话富消息输入和输出 Web端支持输出代码/表格的 Markdown格式。Web 2025-05-31 ...

产品简介

肢体动作计数反馈机制SDK（iOS）服务端人脸识别服务端人脸识别SDK（Linux）服务端人脸识别离线SDK，包括人脸检测、人脸跟踪、人脸关键点定位、人脸质量、角度模型、活体检测和人脸识别等能力，可以直接部署在服务器上。图片增强图片增强...

GetSchemeTaskConfig-获取质检任务

{"sourceDataType":3,"id":588} JsonStr 说明属性值类型是否必须描述 id Inetger 是任务 id sourceDataType Inetger 是任务类型：1（离线语音）；2（离线文本）；3（实时语音）；4（实时文本）；51（离线语音二次质检）；52（离线...

产品功能相关

印刷文字识别OCR支持离线SDK售卖，当前已有离线识别SDK包括：身份证识别、银行卡、物流面单识别、扫读识别、指尖点读离线SDK等，售卖地址可见 OCR云市场服务中心；如您有更多需求，也可联系我们；重要离线sdk现暂不提供支持，如有变动，...

通用文字识别SDK

在离线环境下，支持在Android或iOS设备端实现通用文字的离线识别，包体小，可达到秒级识别速度。说明阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或问题咨询等，请通过钉钉群（23109592）加入阿里云视觉智能开放平台咨询群...

SDK和API概览

移动端鸿蒙Next SDK 一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成离线移动端iOS SDK 离线语音合成离线移动端Android SDK 离线语音合成服务端 Java SDK 一句话识别、实时语音识别、录音文件识别、录音文件...

服务端人脸识别SDK

服务端人脸识别离线SDK，包括人脸检测、人脸跟踪、人脸关键点定位、人脸质量、角度模型、活体检测和人脸识别等能力，可以直接部署服务器上。人脸识别SDK具有授权功能，一旦授权成功，可以在无网的条件下使用，用户可根据自己的业务需求进行...

2021年

2021-06-30 Android、iOS 车辆类识别SDK 通用文字识别SDK 在离线环境下，支持在Android或iOS设备端实现通用文字的离线识别，包体小，可达到秒级识别速度。2021-06-30 Android、iOS 通用文字识别SDK 2021年05月类目名称接口名称功能描述 ...

音视频文件离线转写

音视频文件转写是针对已经录制完成的录音文件或视频文件，进行离线处理（包含语音识别、翻译、要点提炼、摘要总结、PPT提取及摘要等功能）的服务。离线转写是非实时业务场景，且提交待处理的文件是提交基于HTTP或HTTPS可访问的文件URL地址...

HarmonyOS Next SDK

是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/libs/neonui.har 是SDK生成的HAR包文件，在用户工程项目中导入调用即可。如果需要HarmonyOS Next CPP接入...

HarmonyOS Next SDK

是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/libs/neonui.har 是SDK生成的HAR包文件，在用户工程项目中导入调用即可。如果需要HarmonyOS Next CPP接入...

Android SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，在 app/libs 目录下获取AAR格式的SDK包，将AAR...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

HarmonyOS Next SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是以arkts HAR包的形式进行集成。解压压缩包，其中entry/...

iOS SDK

功能是否支持一句话识别是实时语音识别 是语音合成是实时长文本语音合成是流式文本语音合成是 离线语音合成否录音文件识别极速版是唤醒及命令词否听悟实时推流是解压ZIP包，将ZIP包中的nuisdk.framework添加到您的工程中...

语音转写

目前可选用的领域专属模型如下表所示：模型名称参数值支持语言采样率实时/离线适用场景汽车领域销售对话语音识别模型 domain-automotive 中文 16k 离线适用于汽车行业，包括门店接待、汽车试驾、车型推销等场景下的语音识别 教育...

ASR效果优化方案

离线语音质检是否支持多种方言支持，创建质检任务时，可以选择具体的语言模型，如果列表中的语言模型不满足要求，可以联系阿里云工程师添加。离线语音质检和实时语音质检分别支持哪些语音格式？语音识别服务支持哪些采样率？一般支持8000 ...

证件识别SDK

应用场景离线证件识别：银行卡、身份证、驾驶证等离线证件识别场景，基于手机或安卓类硬件集成该功能，实现证件的高效识别。前提条件使用SDK前需完成激活授权，具体请参见激活并授权离线SDK。计费说明关于证件识别SDK的报价，请参见 ...

功能发布记录

2020-08-13/脏话识别服务预训练模型针对一句话识别是否是脏话，以及抽取脏话关键词，详见右侧文档 2020-08-26 脏话识别服务使用教程情绪识别服务预训练模型针对一句话识别情绪，当前支持8种情绪识别，详见右侧文档 2020-08-26 情绪...

DataWorks产品安全能力介绍

说明仅DataWorks企业版支持配置实时及离线风险识别规则，并对检测到的风险事件进行响应。DataWorks提供离线、实时风险响应的基础能力，帮助您感知、处理风险事件。离线风险响应：支持对MaxCompute数据访问/操作配置异常行为相关的离线风险...

PAI端到端文字识别预测

本文为您介绍如何通过PAI-EasyVision使用已有的训练模型完成端到端文字识别的离线预测任务。数据格式请参见输入数据格式。端到端文字识别预测基于已有的文件列表，您可以通过PAI命令启动端到端文字识别的离线预测任务，示例如下。您可以...

什么是智能语音交互

智能语音交互（Intelligent Speech Interaction）是基于语音识别、语音合成、自然语言理解等技术，为企业在多种实际应用场景下，赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲...

产品概述

通义听悟智能纪要 Agent 基于语音识别和大语言模型，对会议、访谈、课堂等场景下的实时或离线录音进行智能总结分析。产品优势高精度语音识别 能够将实时音频流或音视频文件中的语音转写成文字，支持中文、英文、粤语、日语、韩语、德语、...

并发和QPS说明

QPS概念适用于智能语音交互产品中的录音文件识别、录音文件识别闲时版等离线类产品。例如，以录音文件识别（含闲时版）为例，QPS限制是指您每秒最多调用的请求数，如果超过QPS限制，可能会出现 Throttling.User:Request was denied due ...

应用配置

语音识别：支持使用阿里云百炼的语音识别模型，包括Gummy实时语音识别、Paraformer实时语音识别、多模态交互轻量版语音识别、Fun-ASR实时语音识别以及通义千问3-ASR-Flash-Realtime。语音合成：支持使用阿里云百炼的语音合成CosyVoice-v2大...

WebSocket协议说明

北京：ws:/nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1 请求指令请求指令用于控制语音识别任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两...

WebSocket协议说明

北京：ws:/nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1 请求指令请求指令用于控制语音识别任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两...

管理项目

配置项目 语音识别 当项目类型为仅语音识别 或 语音识别+语音合成+语音分析时，项目配置操作如下。单击目标项目右侧的项目功能配置。在 语音识别ASR 区域，选择基础模型或者自学习模型。单击修改配置，根据使用场景选择基础模型，...

离线 语音识别

离线语音识别