模型图制作-模型图制作文档介绍内容-移动阿里云

模型列表

多模态模型视觉理解模型通义千问VL、视觉推理模型 QVQ、音频理解模型通义千问Audio、全模态模型通义千问Omni、实时多模态模型通义千问Omni-Realtime 领域模型代码模型、数学模型、翻译模型、法律模型、数据挖掘模型、深入研究模型、...

模型用量

实时语音合成模型录音文件识别模型实时语音识别模型音视频翻译模型全模态模型全模态模型 Token 文本部分按 Token 数，其他模态（音频、图像、视频）按对应的 Token 数计费。实时多模态模型向量模型多模态向量模型 Token 按输入文本...

Chatbox

选择模型图片问答需要使用具有视觉能力的模型，您可以在配置时选择 Qwen-VL、QVQ 或 Qwen-Omni 模型。参见 2.2.配置模型与 API 密钥，在模型处添加您需要使用的视觉模型，并勾选视觉能力。2.对话在发送按钮旁选择视觉模型，在输入框...

使用数据模型设计器

单击页面右上角导出图片，导出数据模型图片。可选：单击页面右上角显示设置，在显示设置对话框中，您可以设置显示字段名称、显示的编码使用和字段显示，完成后单击确定。在画布左侧单击新增数据模型，您可以在画布内新增数据模型...

使用领域模型设计器

使用领域模型设计器，您可以直观地看到领域对象之间的关系，也可以通过图形化界面创建、编辑、删除领域对象以及将领域模型导出为图片。...导出图片名称默认为：限界上下文名称+领域模型图，例如客户域导出的图片名称为：客户域领域模型图。

模型管理

字段描述模型版本填写版本号，同模型下的版本号必须唯一基础模型选择基础模型版本是否设置为默认模型若是设置为默认模型，则会自动出现在最终用户的收藏内可使用角色指有权限使用该模型的角色版本介绍在其中可以添加针对于该...

节省计划与资源包

大语言模型推理资源包订购地址大语言模型推理资源包qwen-plus 大语言模型推理资源包qwen-max 大语言模型推理资源包qwen-turbo 适用模型 qwen-plus及qwen-plus-latest 的实时推理服务（非思考模式）qwen-max及qwen-max-latest 的实时推理...

常见问题

本文涉及的图像模型有：文生图V1和V2、涂鸦作画、图像局部重绘、Cosplay动漫人物生成、人像风格重绘、虚拟模特、鞋靴模特、图像画面扩展、人物实例分割、图像擦除补全、创意海报生成、图像背景生成、图配文。本地调试接口图像API均支持...

精模建筑

制作商选择模型制作商的类型，可选原厂、其他和预言。在完善模型信息对话框中，您还可以查看当前上传的模型的视角，并拖动鼠标自定义调整模型视角至合适的角度，并且系统会自动保存该视角作为封面截图。填写完模型信息和调整视角后，您...

精模建筑

制作商选择模型制作商的类型，可选原厂、其他和预言。在完善模型信息对话框中，您还可以查看当前上传的模型的视角，并拖动鼠标自定义调整模型视角至合适的角度，并且系统会自动保存该视角作为封面截图。填写完模型信息和调整视角后，您...

计量计费

StableDiffusion文生图模型 计费单元模型服务计费单元 StableDiffusion文生图模型 张计费单价模型名称计费单价 stable-diffusion-xl 目前仅供免费体验。免费额度用完后不可调用，推荐参考文本生成图像获取替代方案 stable-diffusion...

计量计费

FLUX文生图模型 计费单元模型服务计费单元 FLUX文生图模型 张计费单价模型名称计费单价 flux-schnell 目前仅供免费体验，免费额度用完后不可调用，推荐访问文本生成图像获取替代方案。flux-dev flux-merged 免费额度模型名称免费...

模型介绍

仅在sv=4的时候支持random值角色引用(cref)不支持指定单张图片权重，仅支持图片URL 草稿模式(draft)不支持与tile/oref同时使用输出引用(oref)不支持指定多张图片，必须为图片URL V7模型不支持多提示词图片提示词最多使用20张垫图 ...

多媒体分析

高级模型服务图文视频动态分类打标 1次高级模型服务为包含多模态内容的动态或帖子提供分类打标服务，支持使用文本+图片或文本+视频的组合进行分类打标，并支持返回高维特征Embedding。高频类别举例：生活、影视综艺、体育、旅游、游戏、...

模型调用计费

输入：图片/视频输出：文本仅纯文本输入输出：文本多模态输入输出：文本+音频仅音频计费 qwen3-omni-flash 非思考和思考模式 0.0018元 0.0158元 0.0033元 0.0069元 0.0127元 0.0626元各100万Token 有效期：阿里云百炼开通后90天内 ...

图像背景生成

y]=(r,g,b,a)#-保存与显示-output_path=os.path.join(current_dir,'output_transparent.png')#保存到当前目录 image.save(output_path,'PNG')print(f"已保存透明背景图片至：{output_path}")#显示图片（可选）image.show()如何切换模型版本...

限流

为了保证用户调用模型的公平性，阿里云百炼设置了基础限流。限流基于模型维度且与用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。若超出限制，API请求将会失败，需等到解除限流条件时再次调用。限流规则主...

文生图FLUX

图片生成以下示例展示了调用FLUX文生图模型对一个用户指令进行响应的代码。以下示例展示了调用 flux-schnell 模型API进行文生图的示例代码。如果要调用 flux-dev 模型，只需要修改 model 为"flux-dev"即可。说明需要使用您的api-key替换...

通义-文生图-Z-Image

通义-文生图-Z-Image 是一款轻量级文生图模型，可快速生成图像，支持中英文字渲染，并灵活适配多种分辨率与宽高比例。快速入口：技术博客前提条件您需要获取与配置 API Key，并配置API Key到环境变量。效果展示输入提示词输出图像 ...

StableDiffusion1.5 API详情

模型概览模型名模型简介 stable-diffusion-xl stable-diffusion-xl相比于v1.5做了重大的改进，并且与当前开源的文生图SOTA模型midjourney效果相当。具体改进之处包括：更大的unet backbone，是之前的3倍；增加了refinement模块用于改善...

图像背景生成

模型概览模型效果示意模型简介模型名模型简介 wanx-background-generation-v2 通义万相-图像背景生成模型为主体商品生成背景图，适用于电商和海报场景。支持多种背景生成方法：文本引导、图像引导、文本与图像结合引导，以及文本、图像...

PAI ArtLab LoRA模型训练实践

常用训练参数介绍说明参数介绍图片数量*repeat数量*设置的epoch/batch_size=模型训练总步数例如，10张图*20步*10个循环/2并行数=1000步。在Kohya-SS页面，选择 LoRA（LoRA）Training（训练）Parameters（参数），即可配置模型训练参数，...

通义万相-文生图V2

通义万相-文生图模型基于文本生成图像，支持多种艺术风格与写实摄影效果，满足多样化创意需求。快速入口：在线体验（北京｜新加坡）｜通义万相官网｜文生图使用指南说明通义万相官网的功能与API支持的能力可能存在差异。本文档以API的...

通义万相-涂鸦作画

输入草图需要与输出图像的分辨率比例保持一致，否则会导致图片拉伸变形，建议使用白色背景图。URL 需为公网可访问的地址，并支持 HTTP 或 HTTPS 协议。您也可在此获取临时公网URL。图像限制：图像格式：JPG、JPEG、PNG、TIFF、WEBP。图像...

StableDiffusion3.5 API详情

StableDiffusion文生图模型 说明支持的领域/任务：aigc 调用模型后，因任务排队等原因，可能需要等几分钟才生成结果，此时任务状态为PENDING 相比于Stable Diffusion 1.5 和 Stable Diffusion XL 模型，最新开源的Stable Diffusion 3.5...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态（图片、音频、视频）的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。快速开始前提条件已配置 API ...

文本生成图像

支持的模型通义千问文生图通义万相文生图模型选型复杂文字渲染（如海报、对联）：首选 qwen-image-plus、wan2.5-t2i-preview。写实场景和摄影风格（通用场景）：可选通义万相模型，如 wan2.5-t2i-preview、wan2.2-t2i-flash。需要...

通义万相-图像局部重绘

模型概览模型效果示意模型简介模型名称模型简介 wanx-x-painting 通义万相-图像局部重绘根据用户输入的原始图片、局部区域涂抹图和prompt提示词文字内容，在涂抹区域生成与文字描述相对应的内容，而涂抹区域外的部分则基本保持不变。...

图像画面扩展

图像画面扩展（也称“扩图”）支持多种扩展方式，包括按宽高比扩图、按比例扩图、在上下左右四个方向添加像素扩图。这三种方式还可以结合旋转角度进行扩图。相关指南：图像画面扩展重要本文档仅适用于“中国大陆（北京）”地域，且必须...

通义千问-文生图

通义千问-文生图模型（Qwen-Image）是一款通用图像生成模型，支持多种艺术风格，尤其擅长复杂文本渲染。模型支持多行布局、段落级文本生成以及细粒度细节刻画，可实现复杂的图文混合布局设计。快速入口：使用指南｜在线体验｜技术博客 ...

快速入门

示例场景文本生成模型自身不具备生成图像的功能，一般需要通过特定的文生图模型，可以将文本转化为图像。借助 Assistant API 创建的智能体应用，能够自动优化用户提供的描述词，通过互联网搜索工具丰富细节，最终调用文生图工具生成高...

图生唱演视频-悦动人像EMO

模型概览模型简介悦动人像EMO-detect，是一个特定的图像检测模型，用于检测输入的图片是否满足emo模型所需的人物肖像图片规范。悦动人像EMO，是一个人物视频生成模型，可基于人物肖像图片和人声音频文件生成人物肖像动态视频。模型效果...

图生舞蹈视频-舞动人像AnimateAnyone

模型概览模型简介舞动人像AnimateAnyone-detect，是一个图像检测模型，用于检测输入的图片是否满足AnimateAnyone模型所需的人物图片规范。舞动人像AnimateAnyone-template，是一个动作模板生成模型，用于从人物运动视频中提取人物动作并...

人物写真FaceChain

FaceChain基于扩散模型的图像生成能力，结合LoRA训练实现人像和风格融合，并叠加一系列后处理能力，实现兼具相似度、真实感、美观度的写真生成。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。...

审核大模型最佳实践

内容审核大模型一览表阿里云内容安全当前提供图片审核大模型、文本审核大模型和视频审核大模型服务，具体的服务如下表：模态服务（service）检测内容适用场景图片审核大模型大小模型融合图片审核服务（postImageCheckByVL）综合应用...

Dify

Dify 是一个开源的大模型应用开发平台，您可以基于阿里云百炼提供的模型 API 来构建大模型应用。前提条件您需要获取API Key，并确保已开通阿里云百炼的模型服务。1.配置模型 1.1.安装模型供应商前往 Dify 市场，在模型下找到通义千问...

数学能力（Qwen-Math）

如果图片中包含复杂的数学问题，可以先使用通义千问VL、QVQ 模型提取图片中的文字，再使用通义千问数学模型解答问题。关于通义千问数学模型的输入与输出参数，请参考通义千问 API 参考。在哪里可以查到错误码的详细信息？如果模型调用...

导出模型流程图

本文介绍如何导出产品碳足迹模型生产过程的流程图，以应用于对外展示、报告撰写等场景。点击生命周期建模页面顶部的【模型导出】。在流程图页面，每个工序为一个流程卡片，卡片内展示该工序的产出物、输入清单和输出清单的名称及相应活动...

安装SDK

您可以使用阿里云百炼官方的 DashScope SDK（支持 Python 和 Java），也可以通过 ...使用文本生成模型、图像生成模型、视频生成模型、语音合成模型、语音识别模型、向量模型、排序模型开始构建您的应用。了解与 OpenAI API 的兼容性详情。

LivePortrait 图像检测

LivePortrait-detect模型，用于确认输入的人物肖像图片是否符合LivePortrait模型的输入规范。本文档介绍了该模型提供的图像检测能力的API调用方法。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览 ...