自动语音识别生成字幕-自动语音识别生成字幕文档介绍内容-移动阿里云

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

QuerySmarttagJob-智能标签任务查询接口

运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：操作：是指具体的权限点。访问...

计费项

支持服务 语音识别：录音文件识别、实时语音识别、一句话识别语音合成：语音合成语音分析：说话人识别、声音事件检测、性别识别、语种识别 语音识别：录音文件识别、实时语音识别、一句话识别、录音文件识别（极速版）、录音文件识别（闲...

WebSocket协议说明

使用WebSocket调用实时语音识别时，WebSocket经常自动终止服务，不能实现实时语音识别，需要手动发送PCM或WAV音频文件，是什么原因？以上情况表示系统已经接收到您传输的音频，在符合协议以及传参的情况下，WSS或HTTP协议都能实现实时语音...

电话呼出&呼入快速入门

自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。LLM 大语言模型 ...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

视频翻译参数介绍与示例

1280/1920)=67.SourceLanguage 取值范围字幕级翻译语音级翻译面容级翻译当字幕来源为OCR识别（即 TextSource=OCR或OCR_ASR时）当字幕来源为ASR识别（即 TextSource=ASR时）当字幕来源为srt字幕文件（即传入 InputConfig.Subtitle 时）...

直播功能概览

云端合流实时字幕（公测）视频直播提供实时字幕功能，可以通过实时语音识别将直播流的语音转换成字幕，且支持翻译。实时字幕（公测）回调管理视频直播提供直播推流状态、直播录制、直播截图和智能审核等功能的事件回调。回调管理直播+...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

基本概念

调用语音识别服务时，如果语音数据采样率高于16000Hz，需要先把采样率转换为16000Hz才能发送给语音识别服务；如果语音数据采样率是8000Hz，请勿将采样率转换为16000Hz，项目中选用支持8000Hz采样率的模型。采样位数（sample size）采样值或...

导入发布包

自动识别结果针对来源环境和目标环境生效的都是自动识别记录，且来源环境的自动识别结果和目标环境的自动识别结果冲突时的处理策略，支持追加、覆盖或覆盖并锁定。追加：将来源环境的自动识别结果追加到目标环境中，作为一条识别记录，...

导入发布包

自动识别结果针对来源环境和目标环境生效的都是自动识别记录，且来源环境的自动识别结果和目标环境的自动识别结果冲突时的处理策略，支持追加、覆盖或覆盖并锁定。追加：将来源环境的自动识别结果追加到目标环境中，作为一条识别记录，...

通用型导播台指南

实时字幕是通过对直播流中的音频进行实时的语音识别，把识别后的文字以字幕的方式同步显示在直播流上。识别的字幕可进行实时翻译，支持显示直播流音频源的源语言字幕、翻译后的目标语言字幕，或者双语字幕。翻译语言支持中、英、西、俄语互...

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

并发和QPS说明

并发概念适用于智能语音交互产品中的一句话识别、实时语音识别、录音文件识别极速版、语音合成、长文本语音合成等服务。在智能语音交互产品中，不同服务之间不共享并发额度，同一服务下的不同项目（对应不同AppKey）共享并发额度。例如，以...

Java SDK

创建 NlsClient 实例 NlsClient 是语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口/函数参数返回值描述 public NlsClient(String url,...

最佳实践

预处理视频文件以提高文件转写效率（针对录音文件识别场景）虽然Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，建议对其进行预处理，仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低...

StartCloudNote-开始纪要任务

2 TranscriptionLevel integer 否 语音识别结果返回等级，默认 2。1：识别出完整句子时返回识别结果；2：识别出中间结果及完整句子时返回识别结果；1 PhraseId string 否热词表 ID。b27cb31b8ca24c5b8e664e0387bac573 AutoChapters object...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，...

AI生成分类分级推荐规则最佳实践

通过这一功能，SASE 能够对终端文件进行测绘并生成资产地图，同时利用大模型技术对测绘上报的文件进行学习，从而自动生成分类分级识别规则。这些规则可以被添加到智能推荐库中，方便用户在配置外发文件检测策略时直接使用，简化了整个配置...

语音识别参数设置

功能入口在智能对话分析控制台中，点击智能工具，选择语音模型训练工具，进入语音识别参数设置界面功能说明编辑选择编辑按钮可以对语音识别的重要参数进行设置，以优化语音识别的效果。参数编辑保存后，先在数据集质检中进行测试。非...

计量计费

本文为您介绍Paraformer语音识别的计费详细说明。计费方式模型服务模型名计费单元计费单价 Paraformer语音识别 paraformer-1 秒（不足1秒四舍五入）0.00008元/秒 paraformer-8k-1 paraformer-mtl-1 重要 Paraformer语音识别模型服务仅...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./syDemo 关键接口基础接口 NlsClient：语音处理客户端，...

功能特性

对媒体的内容、文字、语音、场景进行多模态分析，实现智能审核、内容理解、智能编辑等多种处理功能。音视频转码把音视频码流转换为另一种清晰度、编码格式或封装格式，以适应不同网络带宽、不同终端播放设备的使用场景。媒体处理覆盖了...

语音识别输入格式FAQ

本文主要介绍智能语音交互的语音识别输入格式说明，以及输入语音格式不符合要求时常见问题以及方法，您可以优先在文本档获取对应解决方案。语音识别各服务支持的语音输入格式 语音识别服务语音输入格式说明一句话识别支持的输入格式：单...

接口说明

sample_rate Integer 否表示语音识别模型的采样率，上传的音频如果不符合其取值会被自动升/降采样率至8000或16000。取值：16000（非电话）/8000（电话）。默认：16000。vocabulary_id String 否添加热词表ID。默认：不添加。...

智能媒资检索

音频 语音识别 支持从ASR的结果中搜索。文本标题、描述支持从标题和描述中搜索。搜索能力与形式搜索能力搜索形式原理使用场景标签检索关键词搜索使用AI算法自动提取媒资中的标签、关键词等文本信息进行搜索。可搜索的内容包括媒...

QuerySmarttagJob-查询智能标签作业

运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：操作：是指具体的权限点。访问...

基于LangStudio&语音识别服务搭建音频内容智能总结...

基于 LangStudio 的“音频总结助手”模板，开发者可快速构建集成语音识别和智能总结功能的 AI 应用，自动将音频/视频文件转录为文本并根据用户需求生成结构化总结报告。开发者可以基于该模板进行灵活扩展和二次开发，以满足会议纪要、学习...

语音识别自学习工具

您在使用智能语音交互进行语音识别时，如果有部分词汇默认识别效果不满足您的需求，您可以使用热词功能提高业务相关术语的识别精度。如果您需要的语音识别服务场景不在所提供的模型范围内，或者需要对标准模型进行更进一步优化，可以使用...

功能发布记录

智能结构化媒资理解 API 2025-06-17 提交媒资智能结构化分析任务 2025年5月功能名称功能描述支持端发布时间相关链接热词管理上线热词管理功能，支持在视频翻译、ASR智能生成字幕及智能结构化媒资场景中应用。API 2025-05-30 热词...

产品计费

交互链路标准价格（元/千次）备注语音交互多模态交互轻量版语音识别 0.05 可选，每轮交互计为一次标准语音识别 0.75 多模态交互轻量版语音合成 0.09 可选，每轮交互计为一次标准语音合成 1.7 意图识别意图识别（可选）0.8 每轮交互计...

语音数据集

功能概述 ASR泛热词表是一种用于语音识别服务的数据集，用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明：作用：ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题，如地名、人名、特定品牌名等。通过将...

开发指南

智能体通话记录：阿里云内置的语音识别技术，可以自动转录通话内容，从而便于您对通话记录进行审核、模型训练等操作。智能体回调：智能体回调允许您的应用在特定事件发生时自动触发预设的操作或响应。语音识别热词：如果您的业务中存在某些...

AIAgentConfig

true AsrConfig object 语音识别配置 AsrLanguageId string asr 语种 Id。可选：zh_mandarin 中文 en 英文 zh_en 中英混 es 西班牙语 jp 日语 zh_mandarin AsrMaxSilence integer 语音断句检测阈值，静音时长超过该阈值会被认为断句，参数...

接口说明

录音文件识别闲时版是针对已经录制完成的录音文件，进行离线识别的服务。录音文件识别闲时版是非实时的，识别的文件需要提交基于HTTP可访问的URL地址，不支持提交本地文件。与录音文件识别区别在于返回时间不同，闲时版为24小时内返回结果...

接口说明

录音文件识别是针对已经录制完成的录音文件，进行离线识别的服务。录音文件识别是非实时的，识别的文件需要提交基于HTTP可访问的URL地址，不支持提交本地文件。计费和并发限制录音文件识别提供试用版和商用版两种计费模式，详情请参见 ...

Timeline配置说明

参考文档：素材与素材时长自动对齐音频轨素材直接由文字转化生成时间线示例请参考最佳实践：AI_TTS 文字转语音并将语音合并到视频中。目前仅支持北京、上海、杭州区域可用。名称类型是否必填描述 Type String 是固定值：AI_TTS ...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...

WebSocket API

若想使用其他编程语言开发Gummy实时语音识别、翻译应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket...