图像的搜索-图像的搜索文档介绍内容-移动阿里云

2021年

2021年12月类目名称能力名称功能描述发布时间支持终端相关文档离线SDK 肢体关键点SDK 可识别授权人体图像的15个关键点检测信息，包括鼻子、眼睛、脖子、左肩、右肩等。2021-12-30 Android、iOS 肢体关键点SDK 肢体动作计数SDK 通过...

图像编辑-通义千问

快速开始本示例将演示如何使用 qwen-image-edit-plus 模型，根据3张输入图像和提示词，生成2张编辑后的图像。输入提示词：图1中的女生穿着图2中的黑色裙子按图3的姿势坐下。输入图像1 输入图像2 输入图像3 输出图像（多张图像）在调用前，...

多模态向量

base64,{base64_image}，其中：image/{format}：本地图像的格式。请根据实际的图像格式，例如图片为jpg格式，则设置为image/jpeg。base64_image：图像的BASE64数据。{"image":"http://xxxxx/a.jpg" } or { "image":"data:image/jpeg;base64...

FaceChain社区版服务实例部署文档

具体来说，首先使用基于朝向判断的图像旋转模型，以及基于人脸检测和关键点模型的人脸精细化旋转方法，来处理用户上传图像，得到包含正向人脸的图像；接下来使用人体解析模型和人像美肤模型，以获得高质量的人脸训练图像；随后，该项目使用...

API概述

我们为您提供了集成 Stable Diffusion WebUI 和 ComfyUI 环境的接口，方便您快速搭建自己的图像生成服务。无论您是希望通过界面与我们的平台互动，还是直接调用图像生成服务，我们都提供了简单易用的解决方案。以下是快速上手的指南，帮助...

Stable Diffusion AI绘画服务实例部署文档

结果示例：示例中各字段含义如下：字段含义 prompt 提示文本或图像，该参数用于指定提示文本或图像，它对生成图像的主题或内容起着指导作用。通过提供一个具体的提示，模型可以根据该提示生成与提示相关的图像。该参数的作用是为模型提供...

base64,{base64_data} def encode_file(file_path):mime_type,_=mimetypes.guess_type(file_path)if not mime_type or not mime_type.startswith("image/"):raise ValueError("不支持或无法识别的图像格式")with open(file_path,"rb")as ...

PAI ArtLab Stable Diffusion模型生图实践

重绘幅度低：重绘幅度高：空白潜空间：用于添加空白像素以保持图像的原始外观，通常用于在图像的特定区域留白或添加边框，以保持图像的整体美感。重绘幅度低：重绘幅度高：全图（重绘幅度0、0.6在填充和原图下的对比）填充重绘幅度0 重绘...

图像裁剪

本文为您介绍图像生产（imageenhan）类目下的图像裁剪ChangeImageSize的语法及示例。功能描述图像裁剪能力可以对输入的图像按照指定尺寸变换。支持自动判断主体区域位置，使用更好的裁剪方式对图像进行裁剪。说明您可以进入在线咨询 ...

图像隐形图片水印

本文介绍图像生产（imageenhan）类目下的图像隐形图片水印ImageBlindPicWatermark的语法及示例。功能描述图像隐形图片水印能力可以为图像添加或解析图片水印。例如您有一张图A，调用encode_pic参数添加图片盲水印后得到图B。或者您也可以...

Image

x int 横向偏移量 offset_y int 纵向偏移量 window object 控件所在窗口对象 timeout int 等待控件超时时间单位秒调用样例-rpa.ui.image.click-#注意事项：#使用此方法需要先通过捕捉控件功能中的图像录制功能捕捉对应图像控件#代码调用...

风格迁移

功能描述风格迁移能力可以对输入图像的风格进行转换，使得图像的色彩、笔触等视觉风格发生转化。关于该接口功能的示例图如下：说明您可以进入在线咨询获取在线人工帮助。阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题咨询...

Qwen-OCR 文字提取模型

6000000004408-0-tps-689-487.jpg"},#输入图像的最小像素阈值，小于该值图像会放大，直到总像素大于min_pixels"min_pixels":32*32*3,#输入图像的最大像素阈值，超过该值图像会缩小，直到总像素低于max_pixels"max_pixels":32*32*8192 },#...

图像色彩增强

本文介绍图像生产（imageenhan）类目下的图像色彩增强EnhanceImageColor的语法及示例。功能描述图像色彩增强能力可以对输入图像进行智能内容分析，根据图像内容自动调整参数，对图像饱和度、亮度、对比度等多个维度进行优化，输出增强后的...

图像人脸融合

本文介绍人脸人体（facebody）类目下的图像人脸融合MergeImageFace的语法及示例。功能描述图像人脸融合功能可以将用户图中的人脸融合到模板图中的人脸位置，生成一张包含用户图人脸特征的新图像。特别注意的是，该功能严格要求使用者事先...

图像清晰度评分

本文介绍图像生产（imageenhan）类目下的图像清晰度评分AssessSharpness的语法及示例。功能描述图像清晰度评分能力可以对输入的图像进行清晰度评分，评分越高图像越清晰。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉...

图像隐形文字水印

本文介绍图像生产（imageenhan）类目下的图像隐形文字水印ImageBlindCharacterWatermark语法及示例。功能描述图像隐形文字水印能力可以为图片添加或者解析指定文字水印。关于该接口功能的示例图如下：说明您可以进入在线咨询获取在线...

wan2.2-s2v 图像检测

wan2.2-s2v-detect input.image_url String Body 是待检测的图像 URL。图像格式：支持jpg，jpeg，png，bmp，webp。图像分辨率：图像的宽度和高度范围为[400,7000]像素。上传图片仅支持公网可访问的 HTTP/HTTPS 链接。本地文件可通过上传...

通义万相-通用视频编辑

属性 obj_or_bg array[string]（可选）该参数用于标识每张参考图像的用途，与 ref_images_url 参数一一对应。数组中每个元素表示对应位置的图像为“主体”还是“背景”：obj：表示该图像作为主体参考。bg：表示该图像作为背景参考（最多仅...

图像分析处理介绍

能力介绍目前阿里云视觉智能开放平台上线的图像分析处理能力包括：类别能力说明医疗图像分析新冠病毒肺炎辅助诊断对输入的DICOM影像（如5 mm的单个序列，API仅接受单序列），进行新型冠状肺炎的影像分析。胸部CT肺结节检测对输入的...

通义万相-通用图像编辑2.1

该模型通过简单的指令即可实现多样化的图像编辑，适用于扩图、去水印、风格迁移、图像修复、图像美化等场景。当前支持以下功能：图像风格化：全局风格化、局部风格化。图像内容编辑：指令编辑（无需指定区域，仅通过指令增加/修改图片内容...

图像曝光度评分

本文介绍图像生产（imageenhan）类目下的图像曝光度评分AssessExposure的语法及示例。功能描述图像曝光度评分能力可以对输入的图像进行曝光度评分，评分越高，曝光越大。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能...

图像编辑-通义万相2.5

本示例以多图融合为例：在 images 数组中传入2张图像，模型将根据文本提示词输出 1 张融合后的图像。输入提示词：将图1中的闹钟放置到图2的餐桌的花瓶旁边位置。输入图像1 输入图像2 输出图像同步调用重要请确保 DashScope Python SDK...

图像构图美学评分

本文介绍图像生产（imageenhan）类目下的图像构图美学评分AssessComposition的语法及示例。功能描述图像构图美学评分能力可以对输入的图像进行构图美学评分，评分越高，构图效果越好。说明您可以进入在线咨询获取在线人工帮助。当前...

风格识别

功能描述风格识别能力可以对输入图像的风格类型进行分析，识别可能的风格与语意标签。可以识别的风格包括：chinese（中国风）、watercolor（水彩）、cartoon（卡通）、real（实景）、standard（标准）、simple（简洁）、lively（活泼）、...

图像内容风控解决方案

针对该问题，阿里云 PAI 提出了如下解决方案，借助人工智能算法，帮助您快速判断风险内容：解决方案基于 iTAG 平台和PAI数据集管理，对目标场景的图像进行快捷标注和样本管理。基于PAI提供的预训练模型，针对自己的图像风控场景，在可视化...

图像生成训练

通过对原始图片素材进行训练，支持DCGAN、WGAN-GP、LSGAN、GGAN、PGGAN和StyleGAN图像生成模型网络，可生成高质量和多样化的图像生成模型。支持的计算资源 DLC 输入/输出输入桩通过读OSS数据组件，读取训练数据所在的OSS路径。配置此...

底纹报表

request_id参数底纹引导的搜索次数占比引导搜索UV占比点击底纹进行搜索的用户占比引导搜索UV/搜索UV 依赖通过SDK/API搜索时，搜索请求中设置了user_id、from_request_id参数底纹引导的搜索用户占比引导搜索无结果率底纹引导但搜索无...

LivePortrait 图像检测

本文档介绍了该模型提供的图像检测能力的API调用方法。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览模型名模型简介 liveportrait-detect liveportrait-detect是一个特定的图像检测模型，用于检测...

图像生成推理

参数设置模型类型是 dcgan 选择想要使用的图像生成模型网络，支持的网络包含：DCGAN、WGAN-GP、LSGAN、GGAN、PGGAN和StyleGAN。生成总样本数是 16 总共需要生成的样本总数。每批生成样本个数是 4 每批生成的样本个数，批与批之间样本...

基于Deepytorch加速器快速实现AIGC绘画

背景信息 Stable Diffusion是一个可通过文本生成图像的扩散模型，基于CLIP模型从文字中提取隐变量，并通过UNet模型生成图片；最后通过逐步扩散、逐步处理图像，优化图像质量。Deepytorch Inference是阿里云自研的AI推理加速器，专注于为...

通义千问-图像翻译

格式限制：JPG、JPEG、PNG、BMP、PNM、PPM、TIFF、WEBP 尺寸限制：图像的宽度和高度均需在15-8192像素范围内，宽高比在1:10至10:1范围内。大小限制：不超过10MB URL地址若包含中文等非ASCII字符，需进行URL编码后再传入。URL编码 from ...

图像标志擦除

本文介绍图像生产（imageenhan）类目下的图像标志擦除RemoveImageWatermark的语法及示例。功能描述图像标志擦除能力用于擦除图片中的常见标志，如台标、互联网平台Logo标志等。说明您可以进入在线咨询获取在线人工帮助。当前能力可在...

PAI端到端文字识别训练

FLOAT 1.2 random_rotation_angle 否训练时随机旋转图像的角度，其取值为(-angle,angle)范围内的随机值。如果取值为 0，则表示关闭随机旋转图像。FLOAT 10 random_crop_min_area 否训练时随机裁切图像的最小面积占比约束。如果取值为 0，...

通义-文生图-Z-Image

内容审核：输入的 prompt 和输出的图像均会经过内容安全审核，包含违规内容的请求将报错“IPInfringementSuspect”或“DataInspectionFailed”，具体参见错误信息。网络访问配置：图像链接存储于阿里云 OSS，如果业务系统因安全策略无法...

通义千问-图像编辑

通义千问-图像编辑模型（qwen-image-edit-plus）支持多图输入和多图输出，可精确修改图内文字、增删或移动物体、改变主体动作、迁移图片风格及增强画面细节。快速入口：使用指南|技术博客|在线体验模型概览多图图像修改展示器.qwen-image...

ST_Clip

scale 图像的缩放比例。描述语义同 ST_Intersection，但是支持更多自定义的裁剪功能，示例如下图。原始模型裁切出的部分模型（原始模型的中间区域）示例 SELECT ST_AsText(ST_Clip(scene,ST_3DMakeCuboid(1,1,1),0.1))from t;{"type":...

ST_AsImage

extent 图像的范围，默认使用地理坐标系统。pyramidLevel 图像金字塔层级，从0开始，默认值为0。bands 需要获取的波段列表，从0开始，用 '0-2' 或者‘1,2,3’这种形式表示。默认为空。JPEG为1或3，PNG为1、2、3或4。默认使用前三个波段。...

ST_Clip

scale 图像的缩放比例。描述语义同 ST_Intersection，但是支持更多自定义的裁剪功能，示例如下图。原始模型裁切出的部分模型（原始模型的中间区域）示例 SELECT ST_AsText(ST_Clip(scene,ST_3DMakeCuboid(1,1,1),0.1))from t;{"type":...

虚拟模特

枚举值可选的比例有：比例不变，默认值 2:1 16:9 4:3 1:1 3:4 9:16 1:2 parameters object 可选属性 n Integer 可选生成图像的数量，支持 1~4 张，默认值 1。short_side_size string 必选指定生成的图像短边大小，单位：像素。生成图片...