德珀

_相关内容

机器翻译语言代码列表

本文为您介绍机器翻译的语言代码。语言说明 文本翻译 除繁体中文、蒙语、粤语外,其他212种语言,可支持任意两种语言之间互译。繁体中文、蒙语、粤语仅支持与中文之间的互译。文本翻译支持源语言的自动语言检测,语言代码为auto(粤语为源...

视频翻译参数介绍与示例

本文介绍了有关视频翻译接口 SubmitVideoTranslationJob-提交视频翻译任务 的参数与示例,以及通过 GetSmartHandleJob 获取视频翻译任务结果的参数。说明 目前已开通的区域为:字幕级翻译:华东2(上海)、华北2(北京)、华南1(深圳)、...

标准编码格式

本文列举了日志服务中支持的标准编码格式。编码 别名 语言 ascii 646、us-ascii 英语 big5 big5-tw、csbig5 繁体中文 big5hkscs big5-hkscs、hkscs 繁体中文 cp037 IBM037、IBM039 英语 cp273 273、IBM273、csIBM273 德语 cp424 EBCDIC-CP-...

实时多模态

Qwen-Omni-Realtime 是通义千问推出的一款实时音视频聊天模型。它能够同时理解流式的音频与图像输入(例如从视频流中实时抽取的连续图像帧),并实时输出高质量的文本与音频。在线体验请参见 如何在线体验 Qwen-Omni-Realtime 模型?...

录音文件识别-Fun-ASR/Paraformer/SenseVoice

录音文件识别(也称为录音文件转写)是指对音视频文件进行语音识别,将语音转换为文本。支持单个文件识别和批量文件识别,适用于处理不需要即时返回结果的场景。应用场景 会议、课堂录音记录:将录音文件转成文字,方便后期快速进行信息...

图片审核增强版介绍及计费说明

本文对图片审核 增强版 功能及计费进行介绍。一、图片审核 增强版 介绍 功能介绍 图片审核 增强版 API用于识别图像中是否有违反网络内容传播相关规定、影响平台内容秩序、影响用户体验的内容或元素,支持 90+的内容风险标签和 100+的风险...

接口说明

录音文件识别是针对已经录制完成的录音文件,进行离线识别的服务。...计费和并发限制 录音文件识别提供试用版和商用版两种计费模式,详情请参见 试用版和商用版。如果您需要将试用版升级为商用版,请参见 试用版升级为商用版。...

设置Windows操作系统首选语言

本文介绍如何为阿里云公共镜像中的Windows Server更新下载语言资源包,为一台ECS实例重新设置首选语言。背景信息 云服务器ECS仅提供中文版和英文版的Windows Server公共镜像。如果您需要使用其他语言版本,如阿拉伯语、德语、俄语或日语等...

同步检测

本文介绍了调用图片同步检测接口识别通用图文OCR的方法。通用图文OCR能够识别并返回图片中的文字内容。通用图文OCR识别分为普通版本和高精度版本。普通版本适用于识别影视画面、互联网图片等文字较少的场景。高精度版本适用于复杂的文档...

自定义文案与多语言设置

验证码默认提供了17种语言类型,您可以根据业务需求,在客户端接入时设置自定义验证码的文案与多语言。支持的语言 说明 下文是支持的语言,您可以通过language参数来设置所需的语言。...空间推理验证形态即将下线,具体请参见【公告】空间推理...

同步接口API详情

通用文本向量模型可将文本数据转换为数值向量,用于语义搜索、推荐、聚类、分类等下游任务。模型概览 模型名称 向量维度 最大行数 单行最大 Token 数 单价(每千输入Token)支持语种 免费额度(注)text-embedding-v4 属于 Qwen3-Embedding...

CosyVoice声音复刻API

CosyVoice声音复刻服务基于生成式语音大模型,使用10~20秒音频样本即可生成高度相似且自然的定制声音,无需传统训练过程。声音复刻与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节,语音合成请参见 实时语音...

异步检测

本文介绍了调用图片异步检测接口识别通用图文OCR的方法。通用图文OCR能够识别并返回图片中的文字内容。通用图文OCR识别分为普通版本和高精度版本。普通版本适用于识别影视画面、互联网图片等文字较少的场景。高精度版本适用于复杂的文档...

实时语音识别-通义千问

在直播、在线会议、语音聊天或智能助手等场景中,需要将连续的音频流实时转化为文字,以提供即时字幕、生成会议记录或响应语音指令。通义千问实时语音识别服务通过 WebSocket 协议接收音频流并实时转写。支持的模型 支持多语言识别、噪声拒...

流式输出

在实时聊天或长文本生成应用中,长时间的等待会损害用户体验并可能导致触发服务端超时,导致任务失败。流式输出通过持续返回模型生成的文本片段,解决了这两个核心问题。工作原理 流式输出基于 Server-Sent Events(SSE)协议。...

Java SDK

本文档介绍如何使用 DashScope Java SDK 调用实时语音识别(Qwen-ASR-Realtime)模型。用户指南:模型介绍、功能特性和示例代码请参见 实时语音识别-通义千问 请求参数 以下参数通过 OmniRealtimeParam 的链式方法设置。...

Python SDK

本文档介绍如何使用 DashScope Python SDK 调用实时语音识别(Qwen-ASR-Realtime)模型。用户指南:模型介绍、功能特性和示例代码请参见 实时语音识别-通义千问 请求参数 以下参数通过 OmniRealtimeConversation 的构造方法设置。...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态(图片、音频、视频)的组合输入,并生成文本或语音形式的回复,提供多种拟人音色,支持多语言和方言的语音输出,可应用于文本创作、视觉识别、语音助手等场景。快速开始 前提条件 已 配置 API ...

录音文件识别-通义千问

通义千问系列的录音文件识别模型能将录制好的音频转换为文本,支持多语言识别、歌唱识别、噪声拒识等功能。核心功能 多语种识别:支持多语种语音识别(涵盖普通话及多种方言,如粤语、四川话等)。复杂环境适应:具备应对复杂声学环境的...

文本同步检测

本文介绍了调用文本检测接口(/green/text/scan)进行文本内容审核的方法。文本审核帮助您检测指定文本中是否包含色情、广告、灌水、涉政、辱骂等违规信息。使用说明 业务接口:/green/text/scan,表示文本检测。您可以调用该接口创建文本...

RESTful API

本文介绍Paraformer录音文件识别RESTful API的参数和接口细节。用户指南:关于模型介绍和选型建议请参见 录音文件识别-Paraformer/Fun-ASR/SenseVoice。目前提供了 提交任务接口 和 查询任务接口,通常情况下,您可以先调用提交任务接口...

使用入门

Polar_AI是 云原生数据库PolarDB 的一个AI扩展,集成先进的AI模型和算法,构建数据库与现代人工智能技术之间的桥梁,使得数据库能够执行机器学习和自然语言处理等任务。本文档为您介绍Polar_AI引擎的基本功能,包括如何在数据库中调用AI大...

声音复刻

声音复刻依托大模型进行特征提取,无需训练即可复刻声音。仅需提供 10~20 秒的音频,即可生成高度相似且听感自然的定制音色。声音复刻与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节,语音合成请参见 实时语音...

语音合成-通义千问

语音合成-通义千问提供多种拟人音色,支持多语言及方言,并可在同一音色下输出多语言内容。系统可自适应语气,流畅处理复杂文本。支持的模型 推荐使用通义千问3-TTS-Flash。通义千问3-TTS-Flash拥有 49种音色,支持多种语言及方言。...

接口说明

对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景。计费和并发限制 实时语音识别提供试用版和商用版两种计费模式,详情请参见 试用版和商用版。如果您需要将试用版升级为商用版,请参见 试用版升级为商用...

应用流开发

LangStudio 提供了一个直观、高效的集成开发环境,可在此构建、调试和优化由大语言模型、Python节点及其他工具组成的应用流。快速开始 步骤一:创建对话型应用流 进入 LangStudio,选择工作空间后,在 应用流 页签单击 新建应用流。...

从文本中识别语种

本文介绍 从文本中识别语种 组件的配置详情。此组件可以尝试识别消息的语言,并将其转化为变量,以便后续可以重复使用。组件 信息 组件 图标 组件 名称 从文本中识别语种。前提条件 您可以通过已存在的流程或者创建新的流程进入流程的画布...

文本审核增强版多语言服务

文本审核 增强版 升级多语言模型能力,能够自动判断语种,并支持更多的语种类型。结合国际化业务特性,提供审核策略和标签体系。本文介绍文本审核 增强版 多语言服务的内容以及使用方法。功能特性 相比较文本审核1.0版本多语言审核服务,...

客户端事件

本文档介绍在与 Qwen-ASR Realtime API 的 WebSocket 会话中,客户端向服务端发送的事件。用户指南:模型介绍、功能特性和示例代码请参见 实时语音识别-通义千问 session.update 用于更新会话配置,建议在 WebSocket 连接建立后首先发送该...

AIAgentOutboundCallConfig

名称 类型 描述 示例值 object 智能体模版参数 Greeting string 问候语,修改后下次入会生效。默认无。你好 EnableIntelligentSegment boolean 智能断句开关,开启智能断句后,用户说话的发生断句会智能合并成一句。默认 true。...

DescribeRegions-查询地域列表

根据计费方式、资源类型等参数查询地域信息列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

音视频翻译-通义千问

通义千问3-LiveTranslate-Flash 是音视频翻译模型,支持 18 种语言(包括中文、英文、俄文、法文等)互译,可结合视觉上下文提升翻译准确性,并输出文本与语音。工作方式 设置语种:参考 支持的语种,在 translation_options 参数中设置源...

Python SDK

本文介绍Paraformer实时语音识别Python SDK的参数和接口细节。用户指南:关于模型介绍和选型建议请参见 实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验:仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

WebSocket API

重要 本文档仅适用于“中国大陆(北京)”地域,且必须使用该地域的 API Key。本文介绍如何通过WebSocket连接访问CosyVoice语音合成服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发CosyVoice语音合成应用程序,可以...

接口说明

一句话识别功能支持对一分钟内的短语音进行识别,适用于对话聊天、控制口令、语音输入法、语音搜索等较短的语音识别场景。计费和并发限制 一句话识别提供试用版和商用版两种计费模式,详情请参见 试用版和商用版。如果您需要将试用版升级为...

智能工作流配置最佳实践

本文档指导开发者通过智能工作流实现智能媒体处理,帮助用户将媒体处理功能流程化、模块化,并自定义处理流程。...MaxIdleTime:直播流拉取超时时间(超过20秒无数据则终止任务)。source_language_id 是 源语种信息,取值可从以下列表中获取...

实时语音识别-Fun-ASR/Gummy/Paraformer

实时语音识别服务可将音频流实时转换为带标点的文本,实现“边说边出文字”的效果。无论是麦克风语音、会议录音还是本地音频文件,都能轻松转录。服务广泛应用于会议实时记录、直播字幕、语音聊天、智能客服等场景。核心功能 支持多语种...

录音文件识别(Qwen-ASR)

本文介绍 Qwen-ASR 模型的输入与输出参数。用户指南:模型介绍和选型请参见 录音文件识别-通义千问。通义千问3-ASR-Flash和通义千问Audio ASR模型需采用 同步调用 接入;通义千问3-ASR-Flash-Filetrans模型需采用 异步调用 接入。...

DescribeZones-查询可用区列表

根据地域ID、计费方式等参数查询可用区信息列表。接口说明 DescribeZones 仅查询阿里云提供的可用区列表并返回少量库存信息。如果您需要查询具体可用区下可购买的实例规格和云盘规格,推荐您使用 DescribeAvailableResource。...

WebSocket API

本文介绍如何通过WebSocket连接访问实时语音识别服务。DashScope SDK目前仅支持Java和Python。若想使用其他编程语言开发Paraformer实时语音识别应用程序,可以通过WebSocket连接与服务进行通信。用户指南:关于模型介绍和选型建议请参见 ...
< 1 2 3 4 5 >
共有5页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用