b端用户模型-b端用户模型文档介绍内容-移动阿里云

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验 WebSocket是一种支持全双工通信的网络协议。客户端和服务器通过一次握手建立持久连接，双方可以互相主动推送...

Python SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1支持在线体验。前提条件已开通服务并获取与配置 API Key。请...

iOS SDK

用户指南：关于模型介绍和选型建议请参见语音合成-CosyVoice。模型与价格在资源与预算允许的情况下，优先选择 cosyvoice-v3-plus 获取最佳合成效果，对成本敏感时可选 cosyvoice-v3 平衡质量与价格，其余版本仅建议在兼容或低要求场景...

OpenAI兼容-Batch

pip3 install-U openai 适用范围北京地域支持的模型：文本生成模型：通义千问 Max、Plus、Flash、Turbo、Long 的稳定版本及其部分 latest 版本，以及 QwQ 系列（qwq-plus、qwq-32b-preview）和部分第三方模型（deepseek-r1、deepseek-v3...

实时音视频翻译-通义千问

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型，支持 18 种语言（中、英、俄、法等）互译，可同时处理音频与图像输入，适用于实时视频流或本地视频文件，利用视觉上下文信息提升翻译准确性，并实时输出高质量的翻译文本与...

基于Deepytorch加速器快速实现AIGC绘画

Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1：太乙-动漫风格模型，首个开源的中文Stable Diffusion动漫模型，该模型是基于Taiyi-Stable-Diffusion-1B-Chinese-v0.1进行继续训练，经过100万筛选过的动漫中文图文对训练得到的。...

自定义排序模型

正确编码举例（可用于验证编码逻辑是否正确）：假设原KV串为：gender:female,name:远方不败,city:北京海淀 UTF-8编码后，二进制串为：67 65 6e 64 65 72 3a 66 65 6d 61 6c 65 2c 6e 61 6d 65 3a e8 bf 9c e6 96 b9 e4 b8 8d e8 b4 a5 2c ...

修改模型版本

本文中的命令可以在如下工具平台执行：使用MaxCompute客户端使用SQL分析连接使用云命令行（odpscmd）连接使用DataWorks连接删除模型版本为已存在的MaxCompute模型删除指定版本。设置模型默认版本修改已存在的MaxCompute模型的默认...

流式输出

在实时聊天或长文本生成应用中，长时间的等待会损害用户体验并可能导致触发服务端超时，导致任务失败。流式输出通过持续返回模型生成的文本片段，解决了这两个核心问题。工作原理流式输出基于 Server-Sent Events(SSE)协议。发起流式请求...

子业务空间的模型调用

适用场景需要管控某类用户可调用的模型：默认业务空间的 API Key 可调用所有模型（权限过大）。如需管控 RAM用户可调用的模型，可将其添加至某个子业务空间，仅授权必要模型，并要求使用该空间的 API Key 调用。需要对模型调用的费用进行...

Java SDK

用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1支持在线体验。前提条件已开通服务并获取与配置 API Key。请...

深度思考

默认开启思考模式：qwen3-235b-a22b、qwen3-32b、qwen3-30b-a3b、qwen3-14b、qwen3-8b、qwen3-4b、qwen3-1.7b、qwen3-0.6b 仅思考模式：qwen3-next-80b-a3b-thinking、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507 QwQ...

事件订阅接入指南

loras object lora modelId string 模型id modelVersionId string 模型版本id aliasName string 别名 modelFileId string 模型文件id modelFileName string 模型文件名 param object 用户实际生图请求 SD WebUI中，用户生成一张图，内部...

视觉理解

}]} }]},"usage":{"output_tokens":55,"input_tokens":1271,"image_tokens":1247 },"request_id":"ccf845a3-dc33-9cda-b581-20fe7dc23f70"} 模型选型对于如高精度的物体识别与定位（包括 3D 定位）、Agent 工具调用、文档和网页解析、...

使用POP API创建自学习模型

本文为您介绍如何使用POP API，在客户端自行操作训练自学习模型，不需要依赖管控台的设置。您可通过POP API执行如下操作：数据集（训练语料）管理创建数据集：CreateAsrLmData 查询数据集：GetAsrLmData 删除数据集：DeleteAsrLmData 列举...

实时语音合成交互流程

用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问 qwen-tts 的交互流程采用 WebSocket 持久连接+事件驱动响应机制，支持客户端实时输入文本并持续接收语音流。交互模型支持两种使用模式：ServerCommit 模式：服务端智能判断...

声音复刻

用户指南：关于模型介绍和选型建议请参见实时语音合成-通义千问。音频要求高质量的输入音频是获得优质复刻效果的基础。项目要求支持格式 WAV(16bit)、MP3、M4A 音频时长推荐10~20秒，最长不得超过60秒文件大小采样率≥24 kHz 声道单...

GUI-Plus 界面交互专用模型

本文介绍通过 OpenAI 兼容接口或 DashScope API 调用GUI-Plus模型的输入与输出参数。相关文档：界面交互专用模型（GUI-Plus）OpenAI 兼容 SDK 调用配置的 base_url 为：https://dashscope.aliyuncs.com/compatible-mode/v1 HTTP 调用配置...

同步调用 API 参考

User Message object（必选）用户消息，用于向模型传递问题、指令或上下文等。属性 content string 或 array（必选）消息内容。纯文本输入:content 为字符串，例如"你好。多模态输入:content 为一个数组，包含文本、图片或文件对象。子属性...

WebSocket API

用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy。在线体验：仅paraformer-realtime-v2、paraformer-realtime-8k-v2和paraformer-realtime-v1支持在线体验。WebSocket是一种支持全双工通信的网络协议。...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态（图片、音频、视频）的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。快速开始前提条件已配置 API ...

数据清洗或增强

数据处理支持用户使用多种模型算子，对模型调优所使用的训练集进行数据清洗和数据增强，从而获得更高质量的训练集。重要本文档仅适用于中国大陆版（北京地域）。重要如果您训练集中的数据不适合数据清洗与增强（如法律文件、医学记录、...

Assistants

Assistant API 旨在简化 Assistant（一种大模型应用）的构建流程。本文详细介绍了 Assistant API 提供的各项 Assistant 管理方法，包括 Assistant 的创建、列举、检索、更新和删除操作。功能介绍：如果您想了解 Assistant API 的功能和基本...

数据挖掘（Qwen-Doc）

此处以传入示例产品手册A 与示例产品手册B 文件并通过提示词约束模型以JSON格式返回所提取信息为例。文件URL方式当前仅支持DashScope协议，可以选择使用DashScope Python SDK或者HTTP方式调用（如curl）Python import os import ...

Qwen-MT 翻译模型

本文介绍通过 OpenAI 兼容接口或 DashScope API 调用 Qwen-MT 模型的输入与输出参数。相关文档：翻译能力（Qwen-MT）OpenAI 兼容北京地域 SDK 调用配置的 base_url 为：https://dashscope.aliyuncs.com/compatible-mode/v1 HTTP 调用配置...

客户端事件

本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。相关文档：实时音视频翻译-通义千问。session.update 客户端建立 WebSocket 连接后，需首先发送该事件，用于更新会话的默认配置。服务端收到 session.update 事件后，会...

用Assistant API构建Multi-Agent

需要注意的是，与Agent相似，RAG应用的背后也是基于大模型驱动，因此 call_agent_app 的运行时间可能较长。ECS类的定义代码如下：说明请用您在阿里云百炼平台创建的RAG应用的 app_id 替代代码中的 app_id。class ECS:@classmethod#输入：...

EndToEndRealTimeDialog-语音实时对话

调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：操作：是指具体的权限点。访问级别：是指每个操作的访问级别，取值为写入（Write）、读取...

快速开始：Mixtral-8x7B MoE模型部署及微调

PAI已对Mixtral-8x7B模型进行全面支持，开发者和企业用户可以基于Model Gallery轻松完成对Mixtral-8x7B模型的微调和部署。模型介绍 Mixtral-8x7B是基于编码器（Decoder-Only）架构的稀疏专家混合网络（Sparse Mixture-of-Experts，SMoE）...

移动端iOS Lite SDK

通过SDK对接通义大模型以及后端多种Agent，能够支持用户接入语音对话、天气、音乐、新闻等多种能力，并支持视频和图像的大模型对话能力。多模态实时交互服务架构前提条件开通阿里云百炼实时多模交互应用，获取 Workspace ID、APP ID 和 ...

批量添加物模型

单击生成设备端代码，下载物联网平台根据您定义的功能生成的设备端代码，用于设备端物模型功能开发。重要仅华东2（上海）地域的旧版公共实例支持生成设备端代码。实例说明，请参见公共实例。相关API API 描述 UpdateThingModel 更新指定...

智能用户增长

Quick Audience集数据资产构建、用户分析、精准营销投放、跨端社交互动和全渠道会员管理为一体的全渠道消费者运营平台。以消费者运营为核心，通过丰富的用户洞察模型、快速的人群圈选能力和便捷的策略配置，帮助您更好的进行消费者运营，...

使用vLLM部署Qwen模型推理服务

本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例，演示如何在ACK中使用vLLM（Versatile Large Language Model）框架部署通义千问（Qwen）模型推理服务。背景信息 Qwen1.5-4B-Chat Qwen1.5-4B-Chat 是阿里云基于Transformer大语言模型...

快速开始：QwQ-32B模型的部署、微调、评测

模型微调 PAI-Model Gallery为 QwQ-32B 模型配置了 SFT（监督微调）算法，支持LoRA微调、全参微调2种方式，用户可以以开箱即用的方式对模型进行微调。准备训练数据。SFT 训练算法支持使用 JSONL 等格式的训练数据集（更多格式要求可以参考...

应用合规备案

需要备案的典型场景示例以下场景仅为示例，实际大模型应用上架中需要备案的场景包含但不限于以下几类：场景1：面向C端用户且不具有舆论属性或社会动员能力的场景场景示例：个人助手类工具（如智能客服、学习辅导APP）、娱乐类应用（如...

计量计费

基础限流为了保证用户调用模型的公平性，默认对于普通用户设置了基础限流。如果超出限流指定的调用限制，用户的API请求将会因为限流控制而失败，用户需要等待一段时间待满足限流条件后方能再次调用。说明限流是基于模型维度的，并且和...

使用Triton部署Qwen模型推理服务

本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例，演示如何在ACK中使用Triton和vLLM（Versatile Large Language Model）推理框架部署通义千问（Qwen）模型推理服务。背景信息 Qwen1.5-4B-Chat Qwen1.5-4B-Chat 是阿里云基于Transformer...

计量计费

基础限流为了保证用户调用模型的公平性，默认对于普通用户设置了基础限流。如果超出限流指定的调用限制，用户的API请求将会因为限流控制而失败，用户需要等待一段时间待满足限流条件后方能再次调用。说明限流是基于模型维度的，并且和...

实时多模态交互协议（WebSocket）

VAD检测方客户端服务端服务端打断方式 RequestToSpeak 消息打断 RequestToSpeak 消息打断语音打断使用场景由用户控制开始/结束客户端语音发送和识别，适用于按键说话，松开停止说话的场景。客户端需持续上传音频，服务端自动检测...