能识别语音的翻译软件-能识别语音的翻译软件文档介绍内容-移动阿里云

Java SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论是从外部设备如麦克风获取的音频流，还是从本地文件...

视频翻译

语音翻译-二次修正重要如果对语音级别的翻译结果不满意，并希望对结果进行二次修正，请在提交翻译任务之前启用“是否开启二次编辑”参数。接下来将介绍两种针对语音级翻译结果进行二次修正的方法。注意：当前版本的“面容级翻译”仅支持...

视频翻译

语音翻译-二次修正（可选）重要如果对语音级别的翻译结果不满意，并希望对结果进行二次修正，请在提交翻译任务之前启用“是否开启二次编辑”参数。接下来将介绍两种针对语音级翻译结果进行二次修正的方法。注意：当前版本的“面容级翻译”...

产品优势

文本翻译实时语音翻译：实时记录支持中、英、日、韩语间的实时双向互译；中英自由说翻译成中、英或中&英。离线文件翻译：音视频文件语音转文字，支持中、英、日、韩语间的双向互译；中英自由说翻译成中、英或中&英。口语书面化口语书面化...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成/长文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo ...

配置语音和图片识别

在对话框中填写项目名称，项目类型选择为语音识别+语音合成+语音分析或仅语音识别，单击确定。在跳转的项目详情页面，单击复制保存 appkey，同时可修改语音识别模型的配置信息以满足不同需求。具体操作，请参见管理项目。步骤二：...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

C++ SDK

生成SDK库文件和可执行程序：srDemo（一句话识别）、stDemo（实时语音识别）、syDemo（语音合成）、daDemo（语音对话）、fsDemo（流式文本语音合成）。scripts/build_linux.sh 查看范例使用方式。cd build/demo./fsDemo 关键接口基础接口 ...

非开发者使用指南

语音识别（语音转文字）在语音识别处单击去配置，选择语言后，单击右下角麦克风按钮开始识别，完成后单击确认使用。语音合成（文字转语音）在语音合成处单击去配置，选择声音后，在右侧文本框输入文字，单击右下角扬声器按钮开始...

语音数据集

功能概述 ASR泛热词表是一种用于语音识别服务的数据集，用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明：作用：ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题，如地名、人名、特定品牌名等。通过将...

EchoMind概述

平台采用AI驱动技术，能够智能识别语音内容并生成精准字幕，支持多种语言配音，大幅提升制作效率。结构化媒资通义听悟依托通义千问语言模型及音视频人工智能模型的强大能力，可进行实时语音识别，实现对话的实时记录、多语言翻译、发言...

接口与实现

若语音的语种是单语种，音视频文件对应的语言种类；支持cn（中文）、en（英文）、粤语（yue）、日语（ja）、韩语（ko）。若语音中的语种非单语种，涉及多个语种，可传入（multilingual），识别出对应语种的文字。结合Input.LanguageHints...

Python SDK

本文介绍如何使用阿里云智能语音服务提供的Python SDK，包括SDK的安装方法及SDK代码示例。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。下载安装说明 SDK仅支持Python3，暂不支持Python2。请确认已安装Python包管理工具...

语音转文字（阿里云智能语音交互）

文档将指导您如何创建和使用语音转文字（阿里云智能语音交互）扩展。创建插件打开“代码”面板，点击对应作用域的“+”后选中“语音转文字”。选择已创建的阿里云智能语音交互集成作为资源，选择 API 后会展开该 API 下的所有参数，配置...

人机协同翻译平台定价

资源包购买通用版文本翻译通用版文本翻译资源包购买专业版文本翻译专业版文本翻译资源包购买通用版图片翻译通用版图片翻译资源包购买电商版图片翻译电商版图片翻译资源包购买身份证翻译身份证翻译资源包购买驾照翻译驾照翻译...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

含UI集成方案

ASR热词您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。声纹降噪在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。真人接管在用户与智能体进行...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

功能发布记录

API 2024-12-01 高级转场示例高级特效效果示例 webSDK websdk升级5.2.3：修复未预览时，字幕坐标计算错误，添加公共媒资库搜索框 websdk升级5.2.4：语音翻译二次编辑，优化媒资标记交互逻辑 websdk升级5.2.5：视频翻译，新增42种语言支持 ...

Go SDK

本文介绍如何使用智能语音交互一句话识别的Go SDK，包括SDK的安装方法及SDK代码示例等。前提条件在使用SDK前，请先阅读接口说明，详情请参见接口说明。请确认已经安装Golang环境，并完成基本配置。SDK支持Go 1.16及以上版本。下载安装 ...

功能发布记录

服务端 2025-05-16 语音识别热词离线视频分析支持离线视频重新分析。服务端 2025-05-31 记忆轮数工作流支持记忆对话轮数配置。控制台 2025-05-31 消息对话富消息输入和输出 Web端支持输出代码/表格的 Markdown格式。Web 2025-05-31 ...

交互流程

此模式适用于客户端能明确判断语句边界的场景，如聊天软件中的发送语音。启用方式：将客户端 session.update 事件的 session.turn_detection 设为null。客户端通过发送 input_audio_buffer.append 事件将音频追加到缓冲区。客户端通过发送 ...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

实时语音翻译-Gummy

实时语音翻译结合了语音识别和机器翻译技术，直接将一种语言的语音转化为另一种语言的文本，实现“边说边翻译成文本”的效果。核心功能支持多语种实时语音翻译，覆盖中英日韩等多种语言支持热词定制，可提升特定词汇的翻译准确率支持...

视频翻译

这项技术不仅涵盖字幕翻译，还包括语音翻译，确保翻译后的内容在视觉和听觉上的一致性与自然性。同时，它能够跨越语言障碍，丰富教育内容，提升娱乐体验，从而极大地促进跨文化交流。功能特性智能媒体服务所提供的视频翻译服务，支持字幕...

常见问题

功能介绍语音合成支持哪些音色？CosyVoice-V2 支持的音色请参见：语音合成-CosyVoice/Sambert 中 CosyVoice音色列表（CosyVoice-V2）。...语音翻译：启动一次语音翻译到退出，算一次调用。实时视频通话：启动后，一问一答算作一次调用。

并发和QPS说明

并发/QPS限制服务免费试用商用一句话识别 2路并发 200路并发实时语音识别 2路并发 200路并发录音文件识别 识别语音时长：2小时录音/日说明新用户试用期3个月内，每隔24小时可免费识别2小时时长的音频文件。免费额度用完后，间隔24...

文本翻译

实时语音翻译价格优惠、延迟低，是极具性价比的服务。请求参数参数名类型说明 TranslationEnabled boolean 默认为false。Translation object 翻译功能控制参数集合。Translation.TargetLanguages list[]翻译目标语言设置。支持设置中文...

QueryVideoCognitionJob-查询智能内容理解任务

translation.paragraphs list[]翻译结果以段落形式组织的集合，和语音识别结果报文对应。translation.paragraphs.paragraphId string 段落分段 id 标识，和语音识别结果中的 ParagraphId 对应。translation.paragraphs.sentences list[]...

QuerySmarttagJob-智能标签任务查询接口

translation.paragraphs list[]翻译结果以段落形式组织的集合，和语音识别结果报文对应。translation.paragraphs.paragraphId string 段落分段 id 标识，和语音识别结果中的 ParagraphId 对应。translation.paragraphs.sentences list[]...

模型上架与更新

实时多模态 语音翻译 2025-12-04 qwen3-livetranslate-flash、qwen3-livetranslate-flash-2025-12-01 通义千问3-LiveTranslate-Flash 是音视频翻译模型，支持 18 种语言（包括中文、英文、俄文、法文等）互译，可结合视觉上下文提升翻译...

性能类

关于达摩院智能语音交互语音识别准确度的数字，我们通过了CNAS（国家软件测试中心）的评测，国家软件中心对语音识别算法准确度测试中，在60分贝以下的降噪环境中，用普通话在距离耳麦1厘米的位置，以240字/小时的匀速朗读样本量1207字的...

SDK FAQ

请参考使用SDK设置业务专属热词，将为您介绍在一句话识别、实时语音识别、录音文件识别中如何设置泛热词。SDK报错“DNS resolved timeout”是什么问题？查看/etc/resolv.conf 文件中nameserver的设置，建议增加并优先使用以下配置：...

结构化媒资

AIGC依托通义千问语言模型及音视频人工智能模型的强大能力，可进行实时语音识别，实现对话的实时记录、多语言翻译、发言总结、内容规整等。构建完美的结构化媒体资料库，旨在为用户提供高效、准确的音视频转写与分析服务。功能特性音频转...

C++ SDK

cd build/demo./srDemo 关键接口基础接口 NlsClient：语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。接口名启用版本功能描述 getInstance 2.x ...

视频翻译

字幕识别模型可以选择"语音识别"和"字幕识别"，语音识别会根据视频中的语音生成字幕，字幕识别会根据视频中的字幕生成字幕。4.创建项目点击创建项目，等待解析完成。项目创建成功后，可以点击分配译员。若不需线上进行人工编辑，只需要...

WebSocket协议说明

如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的Java、C或C++的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。功能介绍阿里云智能语音交互产品通过WebSocket协议对外提供实时语音流语音转写功能，支持...

调用官方Agent

目前支持对部分语言的翻译结果进行实时语音播报：翻译语言为中文或英文：使用用户指定的音色播报翻译语言为日文或韩文：使用系统默认的音色播报设置方式要开启语音播报能力，请在管控台语音翻译Agent选项中勾选“翻译语音”。...