德珀-德珀文档介绍内容-移动阿里云

AIAgentConfig

名称类型描述示例值 object 智能体模版参数。Greeting string 问候语，修改后下次入会生效。默认无。你好 WakeUpQuery string 用户在通话启动前的指令，智能体在通话启动后立即响应这一句话。今天天气怎么样？MaxIdleTime integer 和...

什么是向量

本文主要介绍向量的基本概念，包括向量维度、距离度量方式、数据类型等，通过基本概念快速了解什么是向量，以及如何更好地使用向量检索服务 DashVector。向量的基本概念在AI领域，向量是描述对象特征的抽象表达。以百炼的通用文本向量 ...

Java SDK

本文介绍Paraformer实时语音识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1...

通义千问-图像翻译

通义千问-图像翻译模型（Qwen-MT-Image）可精准翻译图像中的文字，并保留原始排版。该模型还支持领域提示、敏感词过滤、术语干预等自定义功能。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。...

机器翻译通用版介绍

本文为您介绍阿里机器翻译——文本翻译——机器翻译通用版。说明更多产品问题，请前往售前咨询或搜钉钉群号23369411入群咨询专家。产品介绍机器翻译通用版，依托阿里巴巴自然语言处理技术和海量数据优势，致力于解决全场景语言障碍，...

常见问题

本文档汇总了在使用阿里云百炼大模型服务平台时遇到的常见问题及其解答。计费相关阿里云百炼平台中模型服务中各模型的收费单价是什么？详情请参见模型列表与价格与计费项。模型部署的费用是如何计算的？如何进行模型部署，请参见：模型...

Java SDK

本文介绍语音合成CosyVoice Java SDK的参数和接口细节。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。前提条件已开通服务并获取...

服务端事件

本文档介绍在与 Qwen-ASR Realtime API 的 WebSocket 会话中，服务端向客户端发送的事件。用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问 error 当服务端检测到错误（包括客户端错误和服务端错误）时，向客户端发送...

Java SDK

本文介绍Paraformer录音文件识别Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见录音文件识别-Paraformer/Fun-ASR/SenseVoice。前提条件已开通服务并获取API Key。请配置API Key到环境变量，而非硬编码在代码中，...

OpenAI兼容-Embedding

阿里云百炼的Embedding模型兼容OpenAI接口规范。...单行最大 Token 数单价（每千输入Token）支持语种免费额度（注）text-embedding-v4 属于 Qwen3-Embedding 系列 2,048、1,536、1,024（默认）、768、512、256、128、64 10 8,192 0.0005元 ...

深度思考

本文介绍如何调用 Qwen、DeepSeek 等支持深度思考的模型。Qwen 显示思考过程 ▼ 11/100。更精确地：9.9=99/10=990/100，9.11=911/100，990/100 与 911/100 比较，显然 990>911，所以 990/100>911/100，因此 9.9>9.11。...

Python SDK

本文介绍语音合成CosyVoice Python SDK的参数和接口细节。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。用户指南：关于模型介绍和选型建议请参见实时语音合成-CosyVoice/Sambert。前提条件已开通服务并 ...

视觉理解

通义千问VL模型可以根据您传入的图片或视频进行回答，支持单图或多图的输入，适用于图像描述、视觉问答、物体定位等多种任务。在线体验：视觉模型（北京或新加坡）快速开始前提条件已获取 API Key 并配置API Key到环境变量。...

文字提取

通义千问OCR 是专用于文字提取的视觉理解模型，可从各类图像（如扫描文档、表格、票据等）中提取文本或解析结构化数据，支持识别多种语言，并能通过特定任务指令实现信息抽取、表格解析、公式识别等高级功能。您可以在阿里云百炼平台...

实时音视频翻译-通义千问

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型，支持 18 种语言（中、英、俄、法等）互译，可同时处理音频与图像输入，适用于实时视频流或本地视频文件，利用视觉上下文信息提升翻译准确性，并实时输出高质量的翻译文本与...

声音设计

声音设计通过文本描述生成定制化音色，支持多语言和多维度音色特征定义，适用于广告配音、角色塑造、有声内容创作等多种应用。声音设计与语音合成是前后关联的两个步骤。本文档聚焦于介绍声音设计的参数和接口细节，语音合成请参见实时...

机器翻译专业版介绍

本文为您介绍阿里机器翻译——文本翻译——机器翻译专业版。说明更多产品问题，请前往售前咨询或搜钉钉群号23369411入群咨询专家。产品介绍机器翻译专业版，依托先进的自然语言处理技术和海量数据优势，研发基于注意力机制的深层神经...

阿里云上的Salesforce CRM Summer'25夏季版-发布说明

重要提示与全球其他地区的 Salesforce CRM 一样，阿里云上的 Salesforce CRM 也遵循每年三次的主要发布时间表。我们的产品目标，是在合规的情况下让阿里云上的 Salesforce 与全球其他地方的 Salesforce 尽可能保持一致。...

SubmitSmarttagJob-提交智能标签作业

提交智能标签作业。接口说明前提条件通过本接口提交智能标签作业时，需要先通过模板配置分析类型。具体操作请参见 CreateCustomTemplate。使用限制智能标签功能，目前开通的地域为华北 2（北京）、华东 2（上海）、华东 1（杭州），其他...

实时语音合成-CosyVoice/Sambert

语音合成，又称文本转语音（Text-to-Speech，TTS），是将文本转换为自然语音的技术。该技术基于机器学习算法，通过学习大量语音样本，掌握语言的韵律、语调和发音规则，从而在接收到文本输入时生成真人般自然的语音内容。...

语音审核增强版多语言服务

语音审核增强版升级音频模型能力，能够支持中文、英文和中英文混合的音频内容。结合国际化业务特性，提供审核策略和标签体系。本文介绍语音审核增强版多语言服务的内容以及使用方法。功能特性相比较语音审核1.0版本，语音审核增强版 ...

实时语音合成-通义千问

实时语音合成-通义千问提供低延迟、流式文本输入与流式音频输出能力，提供多种拟人音色，支持多语种/方言合成，可在同一音色下输出多语种，并能自适应调节语气，流畅处理复杂文本。核心功能实时生成高保真语音，支持中英等多语种自然发声 ...

文本审核增强版多语言PLUS服务

文本审核增强版升级多语言模型能力，能够自动判断语种，并支持更多的语种类型。结合国际化业务特性，提供审核策略和标签体系。本文介绍文本审核增强版多语言服务的内容以及使用方法。功能特性相比较文本审核1.0版本多语言审核服务，...

快速开始：Mixtral-8x7B MoE模型部署及微调

Mixtral-8x7B是Mistral AI最新发布的大语言模型，在许多基准测试上表现优于GPT-3.5，是当前最为先进的开源大语言模型之一。PAI已对Mixtral-8x7B模型进行全面支持，开发者和企业用户可以基于Model Gallery轻松完成对Mixtral-8x7B模型的微调...

存储过程

本文介绍RDS SQL Server（2012及以上版本）支持的存储过程。使用说明本文所述命令适用于在SSMS工具中执行，命令中包含了 GO 作为批命令分隔符。如果您计划在DMS中执行存储过程命令，请勿在命令中添加 GO 关键字，否则会报错。...

文件搜索功能

本文介绍了文件搜索功能，旨在方便快速地从海量文件中查找并定位所需文件。基础搜索能力综合搜索综合搜索功能支持按文件名称搜索和全文检索进行同步查询。文件名称搜索文件名称搜索功能支持通过文件名或文件名关键字进行搜索。...

Python SDK

本文介绍Paraformer录音文件识别Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见录音文件识别-Paraformer/Fun-ASR/SenseVoice。前提条件已开通服务并获取API Key。请配置API Key到环境变量，而非硬编码在代码中，...

RecognizeMultiLanguage-通用多语言识别

支持国际主流几大语系的自动语言分类判定并返回对应语言的文字信息。接口说明本接口适用场景阿里云通用多语言证识别，是阿里云官方自研 OCR 文字识别产品，适用于国际化所需的各类图文识别与信息翻译场景。阿里云 OCR 产品基于阿里巴巴...

使用指南

本文介绍如何配置并使用通义听悟-工业生产指令转写Agent。准备工作开通通义听悟 Agent 服务。说明开通后即可使用阿里云百炼平台全系通义听悟 Agent 服务。...二、调试配置完成调试配置后，您可多次体验效果，确认效果满足预期后再发布...

接口说明

录音文件识别闲时版是针对已经录制完成的录音文件，进行离线识别的服务。...与录音文件识别区别在于返回时间不同，闲时版为24小时内返回结果。计费和并发限制录音文件识别闲时版仅提供商用版，不支持试用，详情请参见试用版和商用版。...

LanguageEnum

平台语言种类。...DE_DE("de-DE","德语","German"),JA_JP("ja-JP","日语","Japanese"),FR_FR("fr-FR","法语（法国）","French"),KO_KR("ko-KR","韩语","Korean"),ES_ES("es-ES","西班牙文（西班牙）","Spanish"),RU_RU("ru-RU","俄语",...

数字人离线合成openAPI

版本变更版本描述时间 v0.8 提交数字人视频合成任务修改变音规则介绍-tts版本新增脚本新增参数音调、情绪脚本新增语种字段声音模板查询接口修改出参ttsVersion 新增声音复刻接口提交声音复刻任务批量查询声音复刻任务信息声音...

CreateTask

创建离线会议纪要任务的API参考。前提条件已开通服务并获取API Key，请配置API Key到环境变量，而非硬编码在代码中，防范因代码泄露导致的安全风险。说明当您需要为第三方应用或用户提供临时访问权限，或者希望严格控制敏感数据访问、...

Android SDK

本文档提供了Paraformer录音文件识别Android SDK的详细使用指南，帮助您将语音转换为文本。用户指南：关于模型介绍和选型建议请参见录音文件识别。快速开始获取API Key：获取API Key，为安全起见，推荐将API Key配置到环境变量。...

批处理接口API详情

模型概览模型名称数据类型向量维度单次请求文本最大行数单行最大输入Token 支持语种 text-embedding-async-v2 float（32位）1,536 100,000 2,048 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语 text-...

Python SDK

本文介绍Gummy一句话识别和翻译Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论...

StartCloudNote-开始纪要任务

开启智能纪要接口说明使用说明本接口用于开始在线频道的纪要任务。如果需要纪要和字幕，建议把所有功能都启用。QPS 限制本接口的单用户 QPS 限制为 10 次/秒。超过限制，API 调用会被限流，这可能会影响您的业务，请合理调用。...

同步调用 API 参考

本文介绍如何通过 OpenAI 兼容模式的 Responses API 同步调用阿里云百炼应用（智能体、工作流）。适用于需要即时获取结果的实时交互场景，可轻松复用现有的 OpenAI 代码库，或快速集成来自 OpenAI 生态的各类工具。...

语音识别FAQ

本文汇总了您在使用语音识别服务时的常见问题。语音识别类常见问题主要分为以下几类：功能类实时转写说话有停顿，但是语音识别不断句怎么办？语音识别能自动断开多句话吗？语音识别服务支持离线功能吗？语音识别支持哪些模型？...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。...