桥梁制作模型图片-桥梁制作模型图片文档介绍内容-移动阿里云

服务部署

您可以将AI搜索开放平台、ModelScope与定制模型中的模型进行独立部署，提供更高并发、更低延迟的推理服务。模型列表模型类别模型名称模型来源文本向量化 OpenSearch文本向量化服务-001：提供多语言（40+）文本向量化服务，输入文本最大...

工作流应用

在阿里云百炼，通过工作流组合使用大模型、API和函数计算等节点，可有效降低编码成本。本文介绍如何创建工作流。应用介绍为什么使用工作流应用工作流是一种将复杂任务拆分为一系列有序步骤的方法，旨在简化系统复杂度，提高工作效率。在...

计费说明

套元 100小时 600 3D数字人 3D模型服务 3D数字人形象制作（人物｜卡通｜异形）【提供MYA/UE模型和动作表情模型】数字人形象定制，产出一套数字人形象资产，包括一套定制的形象和服装套元 1个 100,000.00 3D数字人形象制作（人物｜卡通｜...

音视频通话快速入门

MLLM多模态大模型基于前置节点对数据的处理，MLLM可以对输入的图片与文字进行理解，生成自然语言文本。您也可以通过选择不同类型的模型来控制模型的输入。目前AI实时互动支持您接入通义千问（系统预置）、阿里百炼平台、阿里通义星尘以及...

基于AnalyticDB Ray实现图片打标和模型微调

在图片打标实现中，面临图片处理、识别模型微调等开发工作，包含对原始图片的泛化增强、模型的微调等，以提高识别准确率。本文介绍基于AnalyticDB Ray的解决方案，旨在提供一套高效、精准的图片打标与模型微调一体化流程。产品方案阿里云...

通义万相-涂鸦作画

模型概览模型效果示意模型简介模型名称模型简介 wanx-sketch-to-image-lite 通义万相-涂鸦作画通过手绘图案和文字描述，生成精美的涂鸦绘画作品。模型说明模型名称计费单价限流（主账号与RAM子账号共用）免费额度（查看）任务下发...

AI试衣-图片分割

AI 试衣-图片分割是一个辅助模型，支持从模特图或 AI 试衣图中分割出服装区域，如上装、下装、连衣裙或连体衣。此模型为可选模型，与 AI 试衣模型配合使用，可实现局部试衣、获取指定服饰坐标等特定效果。重要本文档仅适用于“中国大陆...

图像背景生成

模型概览模型效果示意模型简介模型名模型简介 wanx-background-generation-v2 通义万相-图像背景生成模型为主体商品生成背景图，适用于电商和海报场景。支持多种背景生成方法：文本引导、图像引导、文本与图像结合引导，以及文本、图像...

图像擦除补全

营销广告制作：在广告制作中，需要将产品图片与特定场景或人物结合，但原始图片中可能包含不需要的元素。AI消除功能能够轻松移除这些图像元素，增强海报或广告视觉创意效果。社交媒体创作：用户在社交媒体上分享照片时，可能希望移除照片中...

通义万相-图像局部重绘

模型概览模型效果示意模型简介模型名称模型简介 wanx-x-painting 通义万相-图像局部重绘根据用户输入的原始图片、局部区域涂抹图和prompt提示词文字内容，在涂抹区域生成与文字描述相对应的内容，而涂抹区域外的部分则基本保持不变。...

错误信息

解决方案：如需对图片内容进行文本提取、分析和总结，可使用通义千问VL模型。File[id:file-fe-*]cannot be found.原因：仅在Qwen-Long模型的对话场景中，在发起对话请求后的极短时间内调用OpenAI文件兼容接口删除相关文件时才会出现。解决...

发布为组件

智能体的配置如下：配置项配置内容模型通义千问-Max-Latest 提示词你是一个天气分析助手，你的任务是查询某个城市的实时天气和气温走势 MCP 服务 Amap Maps（获取天气信息）、QuickChart（制作图表）说明 MCP 是一种协议框架，允许您将...

视觉理解

通义千问VL模型可以根据您传入的图片或视频进行回答，支持单图或多图的输入，适用于图像描述、视觉问答、物体定位等多种任务。在线体验：视觉模型（北京或新加坡）快速开始前提条件已获取 API Key 并配置API Key到环境变量。如果通过...

通义万相-文生图V2

通义万相-文生图模型基于文本生成图像，支持多种艺术风格与写实摄影效果，满足多样化创意需求。快速入口：在线体验（北京｜新加坡）｜通义万相官网｜文生图使用指南说明通义万相官网的功能与API支持的能力可能存在差异。本文档以API的...

搭建类似妙鸭相机的应用

按需选择风格模型、服装风格，配置图片数量和高度宽度等参数，然后单击开始生成。等待并查看生成结果。说明如果出现 Error 报错，可查看容器日志确认报错原因。如果是OOM，建议调小照片的宽度和高度，或者重新使用更大显存的GPU规格来...

人物写真生成API详情

关于该接口功能的示例图如下：输入图像自定义模板生成结果应用场景职场证件照制作：一键训练证件照人物形象风格，专为用户打造符合各类企业招聘、求职简历等场景的高质量、规范化的职场证件照，轻松完成高质量的职场证件照制作，节省...

通义万相-文生图V1

模型概览模型简介模型名称模型简介 wanx-v1 通义万相-文本生成图像大模型，主要功能包括：支持中英文双语输入。支持多种图像风格。支持输入参考图片，进行内容或风格迁移，实现更加丰富的风格、主题及派别。模型说明模型名称计费单价 ...

文字纹理生成API详情

模型概览模型名模型简介 wordart-texture WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体材质、场景融合、光影特效等效果，生成效果精美、风格多样的艺术字，结合...

人像风格重绘

人像风格重绘模型支持将人物照片，转换为多种预设或自定义的艺术风格。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。快速入口：使用指南｜HTTP调用新手指南｜免费额度｜计费与限流模型概览模型名称计费...

图像局部重绘

文档简介根据用户输入的原始图片、局部涂抹图和任意的文本描述，使用通义万相模型（wanx-x-painting），即可快速完成图像的二次创作。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。wanx-x-painting 模型...

客户端事件

max_tokens 的设置不会影响大模型的生成过程，如果模型生成的 Token 数超过 max_tokens，本次请求会返回截断后的内容。默认值和最大值都是模型的最大输出长度。关于各模型的最大输出长度，请参见模型列表。max_tokens参数适用于需要限制...

模型评测

Model Gallery预置了多种LLM预训练模型。本文为您介绍如何在Model Gallery中，通过模型评测功能全方位评估模型能力查找适合您业务需求的大语言模型。简介模型评测功能支持从两个维度对大语言模型进行评测：基于自定义数据集和公开数据集...

图像画面扩展

本文介绍图像画面扩展模型的输入输出参数。图像画面扩展（也称“扩图”）支持多种扩展方式，包括按宽高比扩图、按比例扩图、在上下左右四个方向添加像素扩图。这三种方式还可以结合旋转角度进行扩图。相关指南：图像画面扩展重要本文档仅...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态（图片、音频、视频）的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。快速开始前提条件已配置 API ...

功能特性

多媒体分析概述智能设计ArtLab 为设计师群体提供的一站式自动化AIGC设计工具，集成了Stable Diffusion、Kohya等主流的文生图、图生图能力，打通了图片数据集管理、图片打标、LoRA模型训练、AI绘图的AIGC全场景链路，帮助设计师在设计、...

实时音视频翻译-通义千问

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型，支持 18 种语言（中、英、俄、法等）互译，可同时处理音频与图像输入，适用于实时视频流或本地视频文件，利用视觉上下文信息提升翻译准确性，并实时输出高质量的翻译文本与...

图像编辑-通义万相2.5

通义万相-图像编辑模型（wan2.5）支持多图输入（1-3张）和多图输出（1-4张），通过文本指令实现主体一致的单图编辑、目标检测与分割以及多图融合等能力。快速开始前提条件在调用前，先获取与配置 API Key，再配置API Key到环境变量。...

深度思考

本文介绍如何调用 Qwen、DeepSeek 等支持深度思考的模型。Qwen 显示思考过程 ▼ 11/100。更精确地：9.9=99/10=990/100，9.11=911/100，990/100 与 911/100 比较，显然 990>911，所以 990/100>911/100，因此 9.9>9.11。我也可以直接看小数...

涂鸦作画

根据手绘图加上任意文字描述，使用通义万相-涂鸦作画模型，即可轻松完成涂鸦作画。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。基本介绍通义万相-涂鸦作画通过手绘任意内容加文字描述，即可...

构建多模态RAG

以某汽车说明书为例，展示效果如下：您也可以在知识库的知识库问答提示词模板配置 Tab页，修改知识库问答的Prompt，提示模型如果参考了知识库中的图片，在回答中展示该图片。例如在任务描述中添加如果答案中提到了材料中的图片内容，您...

10分钟在企业微信集成AI助手

在阿里云上，您只需 10 分钟，无需任何编码，即可为您的组织在企业微信上集成一个有大模型能力加成的 AI 助手。这个助手可以全天候（7x24）响应用户咨询，还能解答私域问题，成为您企业的专属助手，提升用户体验，增强业务竞争力。方案概览...

EMO 视频生成

EMO模型可基于人物肖像图片和人声音频，生成人脸动态视频。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。效果示例输入示例输出示例人物肖像：人声音频：使用动作风格强度：参数 style_...

Emoji 图像检测

表情包emoji-detect-v1是一个图像合规性检测模型，用于判断输入图像中的人物形象是否满足“表情包Emoji模型”的要求。检测通过后，该模型输出人脸区域及扩展后的动态表情区域坐标，供后续视频生成使用。重要本文档仅适用于“中国大陆...

创意海报生成

本文介绍创意海报生成模型的输入输出参数。根据要求自动生成海报的背景和文字排版，支持多种海报风格。无需设计基础，轻松制作出彩作品，让创意触手可及。相关指南：创意海报生成重要本文档仅适用于“中国大陆（北京）”地域，且必须使用...

PAI ArtLab Stable Diffusion模型生图实践

本文为您介绍如何使用SD WebUI进行PAI ArtLab Stable Diffusion模型的生图实践，包括具体步骤和注意事项。点击登录 PAI ArtLab控制台。背景信息 Stable Diffusion是由Stability AI开发的图像AI大模型，能够根据文本指令生成或修改图像。...

音频理解-Qwen-Audio

通义千问Audio是阿里云研发的大规模音频语言模型，能够理解多种音频（包括说话人语音、自然声音、音乐、歌声等）。模型的核心能力包括音频转录、提取内容摘要、情感分析、音频事件检测及语音聊天等。重要适用地域：通义千问 Audio 模型...

图生舞蹈视频-舞动人像AnimateAnyone

模型概览模型简介舞动人像AnimateAnyone-detect，是一个图像检测模型，用于检测输入的图片是否满足AnimateAnyone模型所需的人物图片规范。舞动人像AnimateAnyone-template，是一个动作模板生成模型，用于从人物运动视频中提取人物动作并...

图生播报视频-灵动人像LivePortrait

模型概览模型简介灵动人像LivePortrait-detect是一个图像检测模型，用于检测输入的图片是否满足LivePortrait模型所需的人物肖像图片规范。灵动人像LivePortrait是一个人物视频生成模型，可基于人物肖像图片和人声音频文件，快速、轻量地...

模型体验介绍

模型体验支持选择多个模型同时体验，快速对比不同模型的效果，最多同时选择3个模型，支持差异化模型配置及重复模型选择。说明为了保障模型的正常使用和输出质量，模型体验中心不同模型的文本输入长度限制不同，例如Qwen-Long模型输入...

图生唱演视频-悦动人像EMO

模型概览模型简介悦动人像EMO-detect，是一个特定的图像检测模型，用于检测输入的图片是否满足emo模型所需的人物肖像图片规范。悦动人像EMO，是一个人物视频生成模型，可基于人物肖像图片和人声音频文件生成人物肖像动态视频。模型效果...