手工制作桥梁模型图片-手工制作桥梁模型图片文档介绍内容-移动阿里云

人物写真生成API详情

关于该接口功能的示例图如下：输入图像自定义模板生成结果应用场景职场证件照制作：一键训练证件照人物形象风格，专为用户打造符合各类企业招聘、求职简历等场景的高质量、规范化的职场证件照，轻松完成高质量的职场证件照制作，节省...

文字纹理生成API详情

模型概览模型名模型简介 wordart-texture WordArt锦书-文字纹理生成可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体材质、场景融合、光影特效等效果，生成效果精美、风格多样的艺术字，结合...

计费说明（妙搜和妙读）

待上线全妙-VL 视频打标预处理为客户上传的多模态数据，利用多模态大模型，针对图片、视频补充相应的标签（例如主题、风格、镜头语言等）。待上线妙读全量PaaS接口模型能力点名称能力点描述接口地址全妙-Long 抽书籍卖点基于一本...

图像局部重绘

文档简介根据用户输入的原始图片、局部涂抹图和任意的文本描述，使用通义万相模型（wanx-x-painting），即可快速完成图像的二次创作。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。wanx-x-painting 模型...

功能特性

多媒体分析概述智能设计ArtLab 为设计师群体提供的一站式自动化AIGC设计工具，集成了Stable Diffusion、Kohya等主流的文生图、图生图能力，打通了图片数据集管理、图片打标、LoRA模型训练、AI绘图的AIGC全场景链路，帮助设计师在设计、...

内容审核

目前支持文本和图片类型的模型，模型与内容安全服务的对应关系，以及计费信息，请参见面向阿里云百炼大模型用户的文本审核服务和面向阿里云百炼大模型用户的图片审核服务。步骤一：开通内容审核服务访问内容审核增强版页面，仔细阅读...

图像编辑-通义万相2.5

通义万相-图像编辑模型（wan2.5）支持多图输入（1-3张）和多图输出（1-4张），通过文本指令实现主体一致的单图编辑、目标检测与分割以及多图融合等能力。快速开始前提条件在调用前，先获取与配置 API Key，再配置API Key到环境变量。...

产品概述

OpenSearch LLM智能问答版内置非结构化数据处理、向量模型、文本&向量检索、LLM，提供一站式开箱即用的检索增强生成（RAG）方案，支持丰富数据格式的快速导入，构建包含对话、链接、图片在内的多模态对话式搜索服务，帮助开发者快速搭建RAG...

涂鸦作画

根据手绘图加上任意文字描述，使用通义万相-涂鸦作画模型，即可轻松完成涂鸦作画。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。基本介绍通义万相-涂鸦作画通过手绘任意内容加文字描述，即可...

服务部署

您可以将AI搜索开放平台、ModelScope与定制模型中的模型进行独立部署，提供更高并发、更低延迟的推理服务。模型列表模型类别模型名称模型来源文本向量化 OpenSearch文本向量化服务-001：提供多语言（40+）文本向量化服务，输入文本最大...

工作流应用

在阿里云百炼，通过工作流组合使用大模型、API和函数计算等节点，可有效降低编码成本。本文介绍如何创建工作流。应用介绍为什么使用工作流应用工作流是一种将复杂任务拆分为一系列有序步骤的方法，旨在简化系统复杂度，提高工作效率。在...

创意海报生成

本文介绍创意海报生成模型的输入输出参数。根据要求自动生成海报的背景和文字排版，支持多种海报风格。无需设计基础，轻松制作出彩作品，让创意触手可及。相关指南：创意海报生成重要本文档仅适用于“中国大陆（北京）”地域，且必须使用...

PAI ArtLab Stable Diffusion模型生图实践

本文为您介绍如何使用SD WebUI进行PAI ArtLab Stable Diffusion模型的生图实践，包括具体步骤和注意事项。点击登录 PAI ArtLab控制台。背景信息 Stable Diffusion是由Stability AI开发的图像AI大模型，能够根据文本指令生成或修改图像。...

Chatbox

选择模型图片问答需要使用具有视觉能力的模型，您可以在配置时选择 Qwen-VL、QVQ 或 Qwen-Omni 模型。参见 2.2.配置模型与 API 密钥，在模型处添加您需要使用的视觉模型，并勾选视觉能力。2.对话在发送按钮旁选择视觉模型，在输入框...

图像背景生成

模型概览模型效果示意模型简介模型名模型简介 wanx-background-generation-v2 通义万相-图像背景生成模型为主体商品生成背景图，适用于电商和海报场景。支持多种背景生成方法：文本引导、图像引导、文本与图像结合引导，以及文本、图像...

AI试衣-图片分割

AI 试衣-图片分割是一个辅助模型，支持从模特图或 AI 试衣图中分割出服装区域，如上装、下装、连衣裙或连体衣。此模型为可选模型，与 AI 试衣模型配合使用，可实现局部试衣、获取指定服饰坐标等特定效果。重要本文档仅适用于“中国大陆...

错误信息

解决方案：如需对图片内容进行文本提取、分析和总结，可使用通义千问VL模型。File[id:file-fe-*]cannot be found.原因：仅在Qwen-Long模型的对话场景中，在发起对话请求后的极短时间内调用OpenAI文件兼容接口删除相关文件时才会出现。解决...

人像风格重绘

人像风格重绘模型支持将人物照片，转换为多种预设或自定义的艺术风格。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。快速入口：使用指南｜HTTP调用新手指南｜免费额度｜计费与限流模型概览模型名称计费...

图像画面扩展

本文介绍图像画面扩展模型的输入输出参数。图像画面扩展（也称“扩图”）支持多种扩展方式，包括按宽高比扩图、按比例扩图、在上下左右四个方向添加像素扩图。这三种方式还可以结合旋转角度进行扩图。相关指南：图像画面扩展重要本文档仅...

客户端事件

max_tokens 的设置不会影响大模型的生成过程，如果模型生成的 Token 数超过 max_tokens，本次请求会返回截断后的内容。默认值和最大值都是模型的最大输出长度。关于各模型的最大输出长度，请参见模型列表。max_tokens参数适用于需要限制...

全模态

Qwen-Omni 模型能够接收文本与单一其他模态（图片、音频、视频）的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。快速开始前提条件已配置 API ...

实时音视频翻译-通义千问

qwen3-livetranslate-flash-realtime 是视觉增强型实时翻译模型，支持 18 种语言（中、英、俄、法等）互译，可同时处理音频与图像输入，适用于实时视频流或本地视频文件，利用视觉上下文信息提升翻译准确性，并实时输出高质量的翻译文本与...

深度思考

本文介绍如何调用 Qwen、DeepSeek 等支持深度思考的模型。Qwen 显示思考过程 ▼ 11/100。更精确地：9.9=99/10=990/100，9.11=911/100，990/100 与 911/100 比较，显然 990>911，所以 990/100>911/100，因此 9.9>9.11。我也可以直接看小数...

构建多模态RAG

传统的RAG流程只处理文本，会忽略PDF、Word等文档中的图片，导致信息丢失。PAI-RAG的多模态功能集成了多模态大语言模型（LLM），能够同时理解图文内容，提供更完整的回答。本文将介绍如何在RAG服务中启用多模态推理。前提条件已部署RAG...

EMO 视频生成

EMO模型可基于人物肖像图片和人声音频，生成人脸动态视频。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。效果示例输入示例输出示例人物肖像：人声音频：使用动作风格强度：参数 style_...

10分钟在企业微信集成AI助手

在阿里云上，您只需 10 分钟，无需任何编码，即可为您的组织在企业微信上集成一个有大模型能力加成的 AI 助手。这个助手可以全天候（7x24）响应用户咨询，还能解答私域问题，成为您企业的专属助手，提升用户体验，增强业务竞争力。方案概览...

Emoji 图像检测

表情包emoji-detect-v1是一个图像合规性检测模型，用于判断输入图像中的人物形象是否满足“表情包Emoji模型”的要求。检测通过后，该模型输出人脸区域及扩展后的动态表情区域坐标，供后续视频生成使用。重要本文档仅适用于“中国大陆...

音频理解-Qwen-Audio

通义千问Audio是阿里云研发的大规模音频语言模型，能够理解多种音频（包括说话人语音、自然声音、音乐、歌声等）。模型的核心能力包括音频转录、提取内容摘要、情感分析、音频事件检测及语音聊天等。重要适用地域：通义千问 Audio 模型...

文件问答

因此，当您选择此类模型并上传图片时，可点击图标，从以下两种图片处理方式中选择：纯模型处理模型仅使用自己的视觉能力来分析图片，然后直接回答，不会调用外部工具。适用于“看图问答”。例如，提问“这张图里有什么？模型处理+规划 ...

图生舞蹈视频-舞动人像AnimateAnyone

模型概览模型简介舞动人像AnimateAnyone-detect，是一个图像检测模型，用于检测输入的图片是否满足AnimateAnyone模型所需的人物图片规范。舞动人像AnimateAnyone-template，是一个动作模板生成模型，用于从人物运动视频中提取人物动作并...

图生播报视频-灵动人像LivePortrait

模型概览模型简介灵动人像LivePortrait-detect是一个图像检测模型，用于检测输入的图片是否满足LivePortrait模型所需的人物肖像图片规范。灵动人像LivePortrait是一个人物视频生成模型，可基于人物肖像图片和人声音频文件，快速、轻量地...

PAI ArtLab 呜哩模型训练

基础模型当前支持图像生成模型、图片编辑模型（视频模型近期将支持），可根据您的需求场景灵活选择。图像生成模型支持Qwen-Image等模型的训练；图像编辑模型支持Qwen-Image-Edit-2509、Qwen-Image-Edit等模型的训练，并支持多图（图片组）...

模型体验介绍

模型体验支持选择多个模型同时体验，快速对比不同模型的效果，最多同时选择3个模型，支持差异化模型配置及重复模型选择。说明为了保障模型的正常使用和输出质量，模型体验中心不同模型的文本输入长度限制不同，例如Qwen-Long模型输入...

图生唱演视频-悦动人像EMO

模型概览模型简介悦动人像EMO-detect，是一个特定的图像检测模型，用于检测输入的图片是否满足emo模型所需的人物肖像图片规范。悦动人像EMO，是一个人物视频生成模型，可基于人物肖像图片和人声音频文件生成人物肖像动态视频。模型效果...

LivePortrait 图像检测

LivePortrait-detect模型，用于确认输入的人物肖像图片是否符合LivePortrait模型的输入规范。本文档介绍了该模型提供的图像检测能力的API调用方法。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览 ...

EMO 图像检测

EMO-detect模型，用于确认输入的人物肖像图片是否符合EMO视频生成模型的输入规范。本文档介绍了该模型提供的图像检测能力的API调用方法。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览模型名模型...

GetSummaryTaskResult-获取财报总结任务结果

qwen-max requestId string 请求 id 0bc13a9517168617617186457e401f time string 时间 2024-04-24 11:54:34 totalTokens integer token 量 300 usage object 消耗 token 量 imageCount integer 图片数量,wanx 等模型 0 imageTokens ...

模型部署简介

（不满1天按1天计费）图片生成模型服务模型类型独占实例资源规格实例单价实例单价（预付费）通义万相-文本生成图像-0521 预置模型轻量版 20元/实例/小时 10,000元/月视频生成模型服务模型类型独占实例资源规格实例单价实例单价...

模型管理

OpenSearch-LLM智能问答版不仅内置了高性能的大语言模型（LLM），还支持用户从阿里云的“大模型服务平台百炼”中增加新的外部LLM。用户可以根据自身的业务需求，灵活选择和集成最合适的大语言模型，从而提高系统的多样性和适应性。本文介绍...

文本与多模态向量化

接口支持单段文本、单张图片或单个视频文件的上传，也允许不同类型组合（如文本+图片），部分模型支持同类型内容的多个输入（如多张图片），请参考具体模型的限制说明。北京模型名称向量维度文本长度限制图片限制视频片限制单价（每...