图像行为识别-图像行为识别文档介绍内容-移动阿里云

模型上架与更新

图像编辑-通义千问实时语音识别 2025-10-27 qwen3-asr-flash-realtime、qwen3-asr-flash-realtime-2025-10-27 通义千问实时语音识别大模型具备自动语种识别功能，可识别 11 种语音类型，并能在复杂音频环境下较为准确地转录。实时语音识别...

RecognizeVehicleRegistration-机动车注册登记证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买车辆...

二维码识别

功能描述二维码识别能力可以识别图像中是否含有二维码信息，输出图像中二维码包含的文本信息（每个二维码对应的URL或文本），可支持图像中含有多个二维码识别。说明在同时检测多个Task的情况下，将按照Task的个数进行累计计费。您可以...

RecognizeVehicleCertification-车辆合格证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买车辆...

RecognizeCarInvoice-机动车销售统一发票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买机动车...

RecognizeMixedInvoices-混贴发票识别

支持各类票据的发票代码、价税合计、合计金额、购买方识别号、开票日期等关键字段结构化识别输出。接口说明本接口适用场景阿里云混贴发票识别，是阿里云官方自研 OCR 文字识别产品，适用于获取多种发票集合在一个页面的场景，需要获取...

进阶指南

MPImageGrayListener（废弃）/*获取识别图像的平均灰度值*正常范围大约在 50-140 之间，*当灰度值低于或高于正常范围时，通常意味着环境亮度过低或过高，可以提示用户打开或关闭手电筒*注意：该方法在识别过程中会不断被调用*@param gray ...

多媒体分析

年龄分析 1次基础模型服务 识别图像中主体人脸（唯一）的年龄区间。如果图像中有多个人脸，则只会返回区域最大的主体人脸的结果。如果图像中没有检测到人脸，将返回错误提示。年龄区间包含：'0-2'、'3-9'、'10-19'、'20-29'、'30-39'、'40-...

图像擦除补全

AI擦除补全功能能够自动识别和移除图像中的多种图像格式和尺寸元素的对象，精确识别图像中的对象，确保擦除对象的准确性和补全对象的一致性&自然性。企业级平台服务提供在高并发、大流量下的稳定写真图片生成响应和99.9%的可靠性保障，可...

RecognizeBirthCertification-出生证明识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买出生...

商品分类

功能描述商品分类能力可以识别图像中的商品分类，返回商品类目、置信度等信息。目前已经支持服饰鞋包、3C数码、家居用品等超过六千种类目分类。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品...

头发分割

功能描述头发分割能力用于识别图像中的人物头像，然后对人物头像区域进行抠图解析，最后输出PNG格式的人物头发矩形透明图。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击 ...

图像编辑-通义万相2.1

通义万相-通用图像编辑模型支持输入文本指令，实现扩图、去水印、风格迁移、指令编辑、局部重绘、图像修复等多种图像编辑任务。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览效果示例原图把她的...

通义千问-图像编辑

通义千问-图像编辑模型（qwen-image-edit-plus）支持多图输入和多图输出，可精确修改图内文字、增删或移动物体、改变主体动作、迁移图片风格及增强画面细节。快速入口：使用指南|技术博客|在线体验模型概览多图图像修改展示器.qwen-image...

视觉智能开放平台的审计事件

说明目前操作审计支持视觉智能开放平台的功能包括：人体人脸识别、图像识别、图像分割、目标检测、OCR识别、视觉智能辅助工具。事件名称事件含义 AddBodyTrace 添加Trace。AddFaceImageTemplate 增加图像人脸融合模板。BatchAddFaces ...

SQL请求行为识别

例如面对上百页的SQL模板，如果通过排序很难一个个去筛选问题SQL，此时可以使用 SQL请求行为识别，通过DAS后端算法找出相似的行为图像，帮助您将大量的SQL模板聚类，由此提高问题定位的效率。方案二：SQL请求行为识别 功能根据指标的异常...

产品功能

IVPD提供以下功能。IVPD提供以下功能图像处理 ...输入图：识别出的风格标签：风格类型：视觉风格：中国风，语义风格：典雅图像元素识别识别输入图中所包含的元素，用矩形框标注出其位置，并区分其对应的基本类型（人/物、修饰、文案）。

能力开通

QueryFaceImageTemplate 图像人脸融合模板查询 DeleteFaceImageTemplate 图像人脸融合模板删除人体识别 BodyPosture 人体姿态关键点 RecognizeAction 动作行为识别 DetectBodyCount 人体计数 DetectPedestrian 人体检测 ...

识别并处理Bots流量

通过请求行为来识别Bots 流量行为识别 核心逻辑是通过分析客户端（用户或Bots）向服务器发起的请求行为特征，判断请求是否由人类用户正常操作产生，或是由自动化脚本/程序发起的可疑请求。通过对用户访问模式的动态分析，发现异常行为特征...

应用场景

设备风险识别设备风险识别产品适用于对移动APP上的恶意设备行为进行识别，可以应用到注册、登录、下单、领券等场景，通过传入设备信息，系统进行模拟器检测、恶意工具检测，返回设备风险信息。用户可以根据返回信息甄别模拟器、批量、多开...

访问域名

访问域名允许应用程序通过HTTP/HTTPS协议向特定的、与各类目能力关联的域名发送请求，从而实现对人脸人体识别、文字识别、图像识别等多种视觉AI能力的调用。其中，Region表示服务所在的地域，Endpoint表示视觉智能开放平台对外服务的访问...

人像素描风格化

功能描述人像素描风格化能力可以对一张人物图像自动识别其头部区域，生成大头照下的素描画效果。返回结果的分辨率固定为512x512像素。关于该接口功能的示例图如下：输入原图输出效果图说明您可以进入在线咨询获取在线人工帮助。当前...

人物实例分割

人物实例分割可以识别出图像中的不同人物对象，并画出每个对象边界的像素级掩码。重要本文档仅适用于“中国大陆（北京）”地域，需使用“中国大陆（北京）”地域的 API Key。image-instance-segmentation 模型当前仅提供免费体验，免费...

设备批量行为防控应用实践

创建设备相关累计变量在变量中心-自定义累计变量通过创建设备ID相关的累计变量，实现对设备批量行为的识别。需要关注4个重点参数，配置如下：变量类型：选择个数，从账号维度去重计算，即同一账号的多次相同行为会被记为1次。时间切片：...

RecognizeEstateCertification-不动产权证识别

图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人...

分割抠图介绍

能力介绍目前阿里云视觉智能开放平台上线的分割抠图能力包括：类别能力说明人像分割人体分割识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道）。适用于单人或多人、复杂背景、各类人体姿态等场景。头像...

RecognizeInternationalIdcard-国际身份证识别

本接口图片示例本接口核心能力分类概述多国身份证对越南、韩国、印度、孟加拉居民身份证提供识别服务图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖支持模糊、光照不均、透视畸变...

什么是智能双录质检

产品优势基于达摩院 AI 能力阿里巴巴达摩院团队人工智能（Artificial Intelligence，简称 AI）实验室在语音识别、图像识别、视觉理解、语言理解等方面开展大量研究，并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

设备风险SDK iOS接入

收集设备信息：当您使用风险识别产品且接入设备风险识别SDK服务时，为了检测最终用户的设备欺诈与作弊行为，识别设备的真实性，我们会获取最终用户的：设备基础信息：设备制造商、设备品牌、设备类型及型号、设备名称、设备操作系统信息、...

RecognizeEduQuestionOcr-题目识别

图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。返回坐标可实现对题目中的配图位置进行检测并返回坐标位置。如何使用本接口 ...

iTAG概述

支持的标注任务 iTAG预置了标注模板，可支持以下类型的标注任务：图像类：图像分类、目标检测、图像OCR、表格识别、图像语义分割。文本类：文本分类、命名实体识别、实体关系识别。视频类：视频分类、视频打点、视频OCR。音频类：音频分类...

洞察

数据库可观测提供数据洞察功能，可以对数据库实体数据进行查询与分析。前提条件已接入应用数据库可观测。...审计日志中心：展示访问客户端、用户及操作分布，结合执行时长与TOP命令分析，用于追踪访问行为和识别异常操作。

API概览

在线调试 SegmentBody 人像分割，识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道）。适用于单人/多人、复杂背景、各类人体姿态等场景。在线调试 MakeSuperResolutionImage 图像清晰化/超分辨率，将小图放大四倍...

人物实例分割

功能介绍本节点是对万相人物实例分割 API 的封装，可以从用户上传图片中识别出图像中的不同人物对象，并画出每个对象边界的像素级掩码。相关接口说明请参照：人物实例分割、人物实例分割前置依赖您需要已获取API Key 节点清单人像分割...

公众人物识别

特色优势能够准确识别出图像中的公众人物信息。接入指引 1.注册阿里云账号：打开阿里云官网，在阿里云官网右上角，单击立即注册，按照操作提示完成账号注册。2.开通能力：请确保您已开通人脸人体服务，若未开通服务请立即开通。开通...

检测和处理反弹Shell攻击

异常进程启动链分析检测原理与方法：综合分析进程的父子关系、启动参数、用户上下文和历史行为，识别由异常父进程（如 Web 服务）启动的非交互式 Shell。主要检测目标：隐藏在正常业务流量中、由 Web 漏洞引发的反弹 Shell。恶意文件深度...

通用分割

功能描述通用分割能力可以识别输入图像中视觉中心的物体轮廓，将物体与背景进行分离，返回分割后的前景物体图（4通道）。关于该接口功能的示例图如下：输入原图输出结果图您可以传入ReturnForm参数指定返回结果形式：指定为 crop，对...

什么是数据安全中心

可视化：基于大数据与机器学习技术，智能识别高风险行为（如访问异常、AK泄露），并通过动态可视化界面全景展示数据资产分布与安全状态，一键检索海量数据中的配置风险并提供修复建议。功能特性分类分级 DSC为金融、能源、汽车等行业提供...

车牌识别

功能描述车牌识别能力可以准确识别出图像中车牌位置，输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度，共5个关键字段信息。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费...

SegmentBody人像分割

SegmentBody用于识别输入图像中的人体轮廓，与背景进行分离，返回分割后的前景人像图（4通道），适用于单人、多人、复杂背景、各类人体姿态等场景。介绍名称：人像分割 Action:SegmentBody 图片限制图片格式：JPEG、JPG、PNG（不支持8位...