图像检测识别技术-图像检测识别技术文档介绍内容-移动阿里云

新功能发布记录

2025年 12月类别功能名称功能描述发布时间相关文档新增主体识别支持从图像中自动检测并识别一个或多个主要目标，适用于智能监控、自动驾驶、图像检索等典型计算机视觉应用场景。2025-12-19 主体识别新增多模态排序提供图像的...

图像识别

使用图像识别节点，可调用云市场购买的API进行烟雾火焰火灾、动物、植物花卉、花草树木鉴定等识别。节点配置配置项说明节点名称设置节点名称。支持中文汉字、英文字母、数字和下划线（_），长度不超过30个字符。选择能力从下拉框中...

2021年

2021-07-31 华东2（上海）主动脉瘤肺动脉高压检测 2021年06月类目名称能力名称功能描述发布时间支持终端相关文档离线SDK 实时视频分割SDK 基于深度学习框架，结合检测识别技术，实现高精视觉分割能力，可实现实时全自动主体、场景...

颜色识别

本文介绍图像识别（imagerecog）类目下的颜色识别RecognizeImageColor的语法及示例。功能描述颜色识别能力可以对输入图片的颜色信息进行分析，输出颜色值（RGB形式和HEX格式）与对应的占比信息。说明您可以进入在线咨询获取在线人工...

商品理解介绍

商品理解技术是基于阿里云深度学习算法，结合图像或视频的商品检测、分析/比对技术，为您提供对商品类目、标签、属性的识别以及置信度信息等能力。可广泛应用于电子商务、零售、生产等行业，实现货架商品识别、商品二维码识别、商品属性...

证件照质量审核

本文介绍图像识别（imagerecog）类目下的证件照质量审核EvaluateCertificateQuality的语法及示例。功能描述证件照质量审核能力可以识别拍摄的证件照片是否存在质量问题，且有哪些质量问题。说明您可以进入在线咨询获取在线人工帮助。...

wan2.2-s2v 图像检测

图像检测接口 POST https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/face-detect 入参描述字段类型传参方式必选描述示例值 Content-Type String Header 是请求类型：application/json。application/json ...

产品简介

能力介绍能力名称支持终端描述实时视频分割实时视频分割SDK（Android）基于深度学习框架，结合检测识别技术，实现高精视觉分割能力，可实现实时全自动主体、场景像素级识别，对高度镂空主体、复杂背景等场景都有较好的效果。...

垃圾分类识别

本文介绍图像识别（imagerecog）类目下的垃圾分类识别ClassifyingRubbish的语法及示例。功能描述垃圾分类识别能力可以对图片中的物品垃圾进行分类，并给出具体的物品名称。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉...

异构服务型

处理器：2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY（Cascade Lake），睿频3.2 GHz，计算性能稳定适用场景：视频格式、码流转换图像与视频内容处理 图像识别前的帧图像提取 video-trans实例规格 video-trans包括的实例规格为ecs....

EMO 图像检测

本文档介绍了该模型提供的图像检测能力的API调用方法。重要本文档仅适用于“中国大陆（北京）”地域，且必须使用该地域的 API Key。模型概览模型名模型简介 emo-detect-v1 emo-detect-v1是一个特定的图像检测模型，用于检测输入的图片...

元素识别

本文介绍图像识别（imagerecog）类目下的元素识别DetectImageElements的语法及示例。功能描述元素识别能力用于识别输入图像中所包含的元素内容，用矩形框标注出其位置，并区分其对应的基本类型（人物、修饰、文案）。输入原图：输出结果图...

菜品识别

本文介绍图像识别（imagerecog）类目下的菜品识别RecognizeFood的语法及示例。服务说明由于产品业务调整，菜品识别服务于即日起停止新用户开通调用，历史开通过该服务的老用户可继续调用，2026年04月20日后该服务将下架，不再支持新老...

证件识别SDK

通过阿里云视觉智能开放平台提供的创新型证件识别技术，可实现证件高效识别。说明阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或问题咨询等，请通过钉钉群（23109592）加入阿里云视觉智能开放平台咨询群联系我们。能力优势 ...

广告素材分析

本文介绍图像识别（imagerecog）类目下的广告素材分析TaggingAdImage的语法及示例。功能描述广告素材分析能力可以对素材图片中的人物（明星、素人、CG人物）、场景等打上标签信息，可支持数千个内容标签，覆盖范围广。说明您可以进入 ...

接口说明

声音事件检测主要任务是检测识别音频中诸如背景音乐、哭声、笑声、爆炸声之类的声音，并标注出声音的起止时间。计费和并发限制声音事件检测提供试用版和商用版两种计费模式，详情请参见试用版和商用版。如果您需要将试用版升级为商用版，...

通用文字识别

功能描述通用文字识别能力可以识别图像中文字内容和文字区域坐标，适用于多场景图像文字识别。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该能力进行更直观...

人脸人体介绍

阿里云视觉智能开放平台基于达摩院自研的人脸人体分析技术，提供人脸检测与五官定位、人脸属性识别、人脸比对、人脸搜索、人体检测、人体属性、行为分析等多种功能，为开发者和企业用户提供高性能高可用的人脸人体识别服务。广泛应用于数字...

分割抠图介绍

分割抠图技术基于阿里云深度学习技术，结合检测识别技术，为您提供高精度视觉分割能力。分割抠图技术可以实现秒级全自动主体、场景像素级识别，制作4通道透明素材。不仅实现了发丝级精抠，对高度镂空主体、复杂背景等场景都有很好的效果，...

ALIYUN:Aligreen:OssStockTask

示例：{"Type":"suggestion","Value":"block,review"} ImageAutoFreezeOpened Boolean 否否 图像检测是否自动冻结开关。取值：true：自动冻结，false：不自动冻结。ImageScenes List 否否 OSS存量扫描任务中包含的图像处理方案。取值：...

安全风险

重要风险检测识别结果的时效性为 T+1。这意味着，风险检测并非实时进行，而是基于前一天（T）的数据进行离线分析。因此，您在今天（T+1）看到的风险事件，是反映了昨天发生的操作。请在进行风险分析和事件追溯时，注意这一时间特性。...

内容安全检测

文本违规检测社交媒体监控在社交媒体平台上，文本内容检测技术可以自动识别和过滤包含欺凌、仇恨言论、不当内容或其他违反平台规则的信息，有助于保护用户免受有害信息的侵扰，还能维护线上交流环境的健康和安全，确保内容的合规性和积极...

SDK总览

阿里云视觉智能开发平台目前支持人脸人体、文字识别、商品理解等10+类别的视觉AI技术，其中包括的上百种能力均可通过SDK方式调用。说明阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或问题咨询等，请通过钉钉群（23109592）...

API概览

DetectPedestrian 人体检测识别输入图片中的人脸数量。PedestrianDetectAttribute 人体结构化属性检测图片中人体的属性，具体功能包括人体检测以及属性预估。例如：性别，年龄，朝向，帽子，眼镜，包，衣服，颜色等。MonitorExamination ...

文档审核增强版API

ImageSummary Object 图像检测结果汇总。具体结构，请参见 ImageSummary。说明当文档文件是txt格式时，无图片检测结果。TextSummary Object 文字检测结果汇总。具体结构，请参见 TextSummary。表4.ImageSummary 名称类型示例值描述 ...

内容审核介绍

内容审核技术基于阿里云视觉分析技术和深度识别技术，并经过阿里集团内和云上客户的多领域、多场景的广泛应用和不断优化，提供风险和治理领域的图像识别、定位、检索等全方位服务能力，不仅能帮助用户降低色情、暴恐、广告、垃圾、敏感信息...

模型效果评测

语音识别检测，可以直观的看到指定语音模型语音转文字的识别准确率，通过人工校验得到正确的文本标注结果，用来训练您的自定义模型；通过型对比可以看到每次优化后的准确率提升情况，从而让您十分高效的提升语音转文字的识别准确率。提升...

通用图文OCR增强版

本文介绍调用通用图文OCR检测接口识别图片中文字的方法。一、功能介绍通用图文OCR识别用于识别图片中的文字，返回识别的文字内容、文字位置。服务（Service）检测说明服务名：通用图文OCR Service：generalOcr 支持识别语种为中文、英文...

捕捉控件

考虑到匹配的准确性与效率，我们一般推荐您使用基于自动匹配的模式，若您希望捕捉的控件或其所在的界面无法被该模式识别，您也可以通过CV图像录制的模式，来截取目标操作区域，RPA会通过图像识别的方式对其进行匹配。2.1.自动匹配模式/win...

概述

功能名称说明内容识别检测图片中的标签。更多信息，请参见内容识别。二维码检测检测图片中的二维码，并返回二维码的内容和位置。更多信息，请参见二维码识别。图片裁剪建议根据指定裁剪比例获取图片的裁剪建议。更多信息，请参见 ...

智能审核

智能审核类型说明智能审核是指对视频、音频和图片媒体文件内容进行多维度精准识别，检测媒体文件中的风险或违规内容。点播媒体处理智能审核功能当前支持以下六种审核类型：审核类型描述鉴黄检测媒体中是否包含色情或性感内容。暴恐...

图像识别计费介绍

本文主要介绍图像识别收费能力的计费方式及费用详情。其余未收费能力当前还处于公测阶段，可免费使用。咨询服务如果您有任何购买问题需要咨询阿里云视觉智能开放平台，欢迎各位企业用户、开发商、服务商或者开发者通过钉钉搜索群号 ...

人脸识别迁移到新版

使用场景人脸识别：通过人脸检测和识别技术，检测人脸信息。然后将人脸与数据库中的人脸进行比对，实现身份验证、门禁控制等应用。人脸认证：通过人脸检测和认证技术，验证用户的身份，如手机解锁、支付验证等。人脸表情分析：通过人脸...

明星识别

功能描述明星识别能力可以识别图像中的明星人物。可以识别超过2.7万个明星人物。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该能力进行更直观试用以及在线...

OCR表格识别

1.组件介绍说明必要前置组件：无建议后置组件：条件分支（可通过分支条件判断OCR能力是否调用成功并设计后续对应流程）利用本组件可以使用OCR技术识别图片中的各类表格（示例）。2.输入项说明请参照可视化编辑器内组件面板中各输入项...

OCR通用文字识别

1.组件介绍说明必要前置组件：无建议后置组件：条件分支（可通过分支条件判断OCR能力是否调用成功并设计后续对应流程）利用本组件可以使用OCR技术识别各行业场景下的非结构化文字，支持返回文字内容和位置坐标信息（示例）。2.输入项 ...

图片万物识别增强版

服务（Service）检测说明服务名：图片万物识别 Service：generalRecognition 基于大模型能力，能识别图片中的多种元素。支持返回元素标签和置信度。二、计费说明图片万物识别增强版支持按量后付费和资源包抵扣两种付费方式。按量后...

人脸检测

使用场景人脸识别：通过人脸检测和识别技术，检测人脸信息。然后将人脸与数据库中的人脸进行比对，实现身份验证、门禁控制等应用。人脸认证：通过人脸检测和认证技术，验证用户的身份，如手机解锁、支付验证等。人脸表情分析：通过人脸...

OCR电商图片文字识别

1.组件介绍说明必要前置组件：无建议后置组件：条件分支（可通过分支条件判断OCR能力是否调用成功并设计后续对应流程）利用本组件可以使用OCR技术识别电商商品宣传、社区贴吧、网络UGC等网络场景下图片（电商图片文字识别）。...

RecognizeIdcard-身份证识别

人像检测支持图像检测功能，可定位身份证中的人像图案并返回坐标。图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过 ...