德珀-德珀文档介绍内容-移动阿里云

机器翻译语言代码列表

本文为您介绍机器翻译的语言代码。语言说明文本翻译除繁体中文、蒙语、粤语外，其他212种语言，可支持任意两种语言之间互译。繁体中文、蒙语、粤语仅支持与中文之间的互译。文本翻译支持源语言的自动语言检测，语言代码为auto（粤语为源...

视频翻译参数介绍与示例

本文介绍了有关视频翻译接口 SubmitVideoTranslationJob-提交视频翻译任务的参数与示例，以及通过 GetSmartHandleJob 获取视频翻译任务结果的参数。说明目前已开通的区域为：字幕级翻译：华东2（上海）、华北2（北京）、华南1（深圳）、...

标准编码格式

本文列举了日志服务中支持的标准编码格式。编码别名语言 ascii 646、us-ascii 英语 big5 big5-tw、csbig5 繁体中文 big5hkscs big5-hkscs、hkscs 繁体中文 cp037 IBM037、IBM039 英语 cp273 273、IBM273、csIBM273 德语 cp424 EBCDIC-CP-...

实时多模态

Qwen-Omni-Realtime 是通义千问推出的一款实时音视频聊天模型。它能够同时理解流式的音频与图像输入（例如从视频流中实时抽取的连续图像帧），并实时输出高质量的文本与音频。在线体验请参见如何在线体验 Qwen-Omni-Realtime 模型？...

录音文件识别-Fun-ASR/Paraformer/SenseVoice

录音文件识别（也称为录音文件转写）是指对音视频文件进行语音识别，将语音转换为文本。支持单个文件识别和批量文件识别，适用于处理不需要即时返回结果的场景。应用场景会议、课堂录音记录：将录音文件转成文字，方便后期快速进行信息...

图片审核增强版介绍及计费说明

本文对图片审核增强版功能及计费进行介绍。一、图片审核增强版介绍功能介绍图片审核增强版 API用于识别图像中是否有违反网络内容传播相关规定、影响平台内容秩序、影响用户体验的内容或元素，支持 90+的内容风险标签和 100+的风险...

接口说明

录音文件识别是针对已经录制完成的录音文件，进行离线识别的服务。...计费和并发限制录音文件识别提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版升级为商用版，请参见试用版升级为商用版。...

设置Windows操作系统首选语言

本文介绍如何为阿里云公共镜像中的Windows Server更新下载语言资源包，为一台ECS实例重新设置首选语言。背景信息云服务器ECS仅提供中文版和英文版的Windows Server公共镜像。如果您需要使用其他语言版本，如阿拉伯语、德语、俄语或日语等...

同步检测

本文介绍了调用图片同步检测接口识别通用图文OCR的方法。通用图文OCR能够识别并返回图片中的文字内容。通用图文OCR识别分为普通版本和高精度版本。普通版本适用于识别影视画面、互联网图片等文字较少的场景。高精度版本适用于复杂的文档...

自定义文案与多语言设置

验证码默认提供了17种语言类型，您可以根据业务需求，在客户端接入时设置自定义验证码的文案与多语言。支持的语言说明下文是支持的语言，您可以通过language参数来设置所需的语言。...空间推理验证形态即将下线，具体请参见【公告】空间推理...

同步接口API详情

通用文本向量模型可将文本数据转换为数值向量，用于语义搜索、推荐、聚类、分类等下游任务。模型概览模型名称向量维度最大行数单行最大 Token 数单价（每千输入Token）支持语种免费额度（注）text-embedding-v4 属于 Qwen3-Embedding...

CosyVoice声音复刻API

CosyVoice声音复刻服务基于生成式语音大模型，使用10~20秒音频样本即可生成高度相似且自然的定制声音，无需传统训练过程。声音复刻与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节，语音合成请参见实时语音...

异步检测

本文介绍了调用图片异步检测接口识别通用图文OCR的方法。通用图文OCR能够识别并返回图片中的文字内容。通用图文OCR识别分为普通版本和高精度版本。普通版本适用于识别影视画面、互联网图片等文字较少的场景。高精度版本适用于复杂的文档...

实时语音识别-通义千问

在直播、在线会议、语音聊天或智能助手等场景中，需要将连续的音频流实时转化为文字，以提供即时字幕、生成会议记录或响应语音指令。通义千问实时语音识别服务通过 WebSocket 协议接收音频流并实时转写。支持的模型支持多语言识别、噪声拒...

流式输出

在实时聊天或长文本生成应用中，长时间的等待会损害用户体验并可能导致触发服务端超时，导致任务失败。流式输出通过持续返回模型生成的文本片段，解决了这两个核心问题。工作原理流式输出基于 Server-Sent Events(SSE)协议。...

Java SDK

本文档介绍如何使用 DashScope Java SDK 调用实时语音识别（Qwen-ASR-Realtime）模型。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeParam 的链式方法设置。...

Python SDK

本文档介绍如何使用 DashScope Python SDK 调用实时语音识别（Qwen-ASR-Realtime）模型。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问请求参数以下参数通过 OmniRealtimeConversation 的构造方法设置。...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态（图片、音频、视频）的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。快速开始前提条件已配置 API ...

录音文件识别-通义千问

通义千问系列的录音文件识别模型能将录制好的音频转换为文本，支持多语言识别、歌唱识别、噪声拒识等功能。核心功能多语种识别：支持多语种语音识别（涵盖普通话及多种方言，如粤语、四川话等）。复杂环境适应：具备应对复杂声学环境的...

文本同步检测

本文介绍了调用文本检测接口（/green/text/scan）进行文本内容审核的方法。文本审核帮助您检测指定文本中是否包含色情、广告、灌水、涉政、辱骂等违规信息。使用说明业务接口：/green/text/scan，表示文本检测。您可以调用该接口创建文本...

RESTful API

本文介绍Paraformer录音文件识别RESTful API的参数和接口细节。用户指南：关于模型介绍和选型建议请参见录音文件识别-Paraformer/Fun-ASR/SenseVoice。目前提供了提交任务接口和查询任务接口，通常情况下，您可以先调用提交任务接口...

使用入门

Polar_AI是云原生数据库PolarDB 的一个AI扩展，集成先进的AI模型和算法，构建数据库与现代人工智能技术之间的桥梁，使得数据库能够执行机器学习和自然语言处理等任务。本文档为您介绍Polar_AI引擎的基本功能，包括如何在数据库中调用AI大...

声音复刻

声音复刻依托大模型进行特征提取，无需训练即可复刻声音。仅需提供 10~20 秒的音频，即可生成高度相似且听感自然的定制音色。声音复刻与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节，语音合成请参见实时语音...

语音合成-通义千问

语音合成-通义千问提供多种拟人音色，支持多语言及方言，并可在同一音色下输出多语言内容。系统可自适应语气，流畅处理复杂文本。支持的模型推荐使用通义千问3-TTS-Flash。通义千问3-TTS-Flash拥有 49种音色，支持多种语言及方言。...

接口说明

对长时间的语音数据流进行识别，适用于会议演讲、视频直播等长时间不间断识别的场景。计费和并发限制实时语音识别提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版升级为商用版，请参见试用版升级为商用...

应用流开发

LangStudio 提供了一个直观、高效的集成开发环境，可在此构建、调试和优化由大语言模型、Python节点及其他工具组成的应用流。快速开始步骤一：创建对话型应用流进入 LangStudio，选择工作空间后，在应用流页签单击新建应用流。...

从文本中识别语种

本文介绍从文本中识别语种组件的配置详情。此组件可以尝试识别消息的语言，并将其转化为变量，以便后续可以重复使用。组件信息组件图标组件名称从文本中识别语种。前提条件您可以通过已存在的流程或者创建新的流程进入流程的画布...

文本审核增强版多语言服务

文本审核增强版升级多语言模型能力，能够自动判断语种，并支持更多的语种类型。结合国际化业务特性，提供审核策略和标签体系。本文介绍文本审核增强版多语言服务的内容以及使用方法。功能特性相比较文本审核1.0版本多语言审核服务，...

客户端事件

本文档介绍在与 Qwen-ASR Realtime API 的 WebSocket 会话中，客户端向服务端发送的事件。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 session.update 用于更新会话配置，建议在 WebSocket 连接建立后首先发送该...

AIAgentOutboundCallConfig

名称类型描述示例值 object 智能体模版参数 Greeting string 问候语，修改后下次入会生效。默认无。你好 EnableIntelligentSegment boolean 智能断句开关，开启智能断句后，用户说话的发生断句会智能合并成一句。默认 true。...

DescribeRegions-查询地域列表

根据计费方式、资源类型等参数查询地域信息列表。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息当前API暂无授权信息透出。...

音视频翻译-通义千问

通义千问3-LiveTranslate-Flash 是音视频翻译模型，支持 18 种语言（包括中文、英文、俄文、法文等）互译，可结合视觉上下文提升翻译准确性，并输出文本与语音。工作方式设置语种：参考支持的语种，在 translation_options 参数中设置源...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

WebSocket API

重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。本文介绍如何通过WebSocket连接访问CosyVoice语音合成服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发CosyVoice语音合成应用程序，可以...

接口说明

一句话识别功能支持对一分钟内的短语音进行识别，适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。计费和并发限制一句话识别提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版升级为...

智能工作流配置最佳实践

本文档指导开发者通过智能工作流实现智能媒体处理，帮助用户将媒体处理功能流程化、模块化，并自定义处理流程。...MaxIdleTime：直播流拉取超时时间（超过20秒无数据则终止任务）。source_language_id 是源语种信息，取值可从以下列表中获取...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本，实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件，都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能支持多语种...

录音文件识别（Qwen-ASR）

本文介绍 Qwen-ASR 模型的输入与输出参数。用户指南：模型介绍和选型请参见录音文件识别-通义千问。通义千问3-ASR-Flash和通义千问Audio ASR模型需采用同步调用接入；通义千问3-ASR-Flash-Filetrans模型需采用异步调用接入。...

DescribeZones-查询可用区列表

根据地域ID、计费方式等参数查询可用区信息列表。接口说明 DescribeZones 仅查询阿里云提供的可用区列表并返回少量库存信息。如果您需要查询具体可用区下可购买的实例规格和云盘规格，推荐您使用 DescribeAvailableResource。...

WebSocket API

本文介绍如何通过WebSocket连接访问实时语音识别服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Paraformer实时语音识别应用程序，可以通过WebSocket连接与服务进行通信。用户指南：关于模型介绍和选型建议请参见 ...