图像检测识别技术-图像检测识别技术文档介绍内容-移动阿里云

如何在RPA中使用阿里云文字识别（OCR）能力

1.概述为方便用户在RPA流程中结合AI技术识别图文证照，阿里云RPA在公共云环境下内置了阿里云文字识别（OCR）的产品能力。用户完成服务开通与授权后，可以在RPA编辑器中以组件的形式直接调用相关能力。目前，RPA在公共云环境中已接入的OCR...

进阶指南

MPImageGrayListener（废弃）/*获取识别图像的平均灰度值*正常范围大约在 50-140 之间，*当灰度值低于或高于正常范围时，通常意味着环境亮度过低或过高，可以提示用户打开或关闭手电筒*注意：该方法在识别过程中会不断被调用*@param gray ...

商品分类

功能描述商品分类能力可以识别图像中的商品分类，返回商品类目、置信度等信息。目前已经支持服饰鞋包、3C数码、家居用品等超过六千种类目分类。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品...

头发分割

功能描述头发分割能力用于识别图像中的人物头像，然后对人物头像区域进行抠图解析，最后输出PNG格式的人物头发矩形透明图。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击 ...

服务端人脸识别SDK

检测模块和识别模块并行处理获取视频流之后，通过人脸检测识别出人脸，根据跟踪的ID进行人脸质量的判断。一个人脸的质量可以通过关键点定位是否准确、人脸质量模块分值是否比较高、人脸的角度是否在一定的范围内进行挑选，然后送入到活体...

什么是阿里云视觉智能开放平台

具体方向包括：人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割共13个类目，上百项AI能力供您使用。平台将持续更新迭代更多视觉AI能力，所有...

功能特性

获取任务信息查询任务列表图片数据处理图片数据处理功能支持图片的自动识别、标签检测，格式转换，图片处理以及人脸识别技术，提供一站式的图片管理和应用需求。功能集功能功能描述参考文档图片检测识别 图片标签检测图片标签检测...

RecognizeEnglish-英语作文识别

针对全英文图片文档场景下英文印刷体字符高效检测和识别，具备英文专项识别和英文分词功能，支持旋转、表格、文字坐标等多项基础功能。接口说明本接口适用场景阿里云英语专项识别，是阿里云官方自研 OCR 文字识别产品，适用于全英文图片...

换脸鉴别

准确率高：换脸鉴别结合阿里云多年人脸识别技术能力和大数据安全技术能力，能对视频图像中 AI 换脸、AI人脸生成等技术进行准确识别判断，对AI换脸攻击识别准确率高。支持单个或多个人脸判断逻辑，可直接调用的API接口，服务简单易用，易被...

新手指南

其他类目能力详细说明及使用方法，请参见：生成专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割。参考案例开发代码示例为身份证识别系统...

金融级实人认证各方案简述

金融级实人认证服务搭载真人检测和人脸比对等生物识别技术，配合权威数据源验证，可快速校验自然人的真实身份。本产品安全稳定，通过率高，支持多种产品方案和接入类型，为用户提供便捷的数字身份识别解决方案，满足多种场景下身份核验的...

RecognizeCovidTestReport-核酸检测报告识别

接口说明本接口适用场景阿里云核酸检测报告识别，是阿里云官方自研 OCR 文字识别产品，适用于识别核酸检测报告上的姓名、证件号码、采样时间、检测结果等关键信息的场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，...

表情识别

表情识别场景：通过表情识别技术，来确定被识别对象的心理情绪理解。互动娱乐场景：获取表情、情绪等人脸属性信息，实现特效相机等互动娱乐功能。特色优势支持识别多种表情：中性、高兴、惊讶、伤心、生气、厌恶、害怕、嘟嘴、鬼脸等9种...

什么是智能双录质检

产品优势基于达摩院 AI 能力阿里巴巴达摩院团队人工智能（Artificial Intelligence，简称 AI）实验室在语音识别、图像识别、视觉理解、语言理解等方面开展大量研究，并沉淀出 AI 相关的大量技术成果。智能双录质检产品基于达摩院 AI 技术...

图像内容风控解决方案

在线上业务的内容生产过程中，为了及时识别其中的高风险内容，PAI提供了图像内容风...相关文档关于算法组件更详细的内容介绍，请参见：图像分类训练（torch）图像检测训练（easycv）更多关于EAS产品的内容介绍，请参见模型在线服务（EAS）。

声纹检索

应用案例：网约车司机行为安全监控与敏感内容检测背景某出行公司希望通过语音识别技术，对网约车内录制的音频进行分析，从多人对话中准确提取司机的语音片段，识别司机语音中是否存在违规内容。通过 AnalyticDB for MySQL 提供的声纹识别...

应用场景

如今，企业使用AI图像技术，将带有产品缺陷的5万多张图片上传到云计算平台，通过深度学习与图像处理技术进行算法训练。优化的AI算法，其识别准确度可达到95%以上，碎片率（瑕疵品）下降50%。不仅如此，从图像拍摄到数据接收、处理，然后到...

RecognizeCarNumber-车牌识别

接口说明本接口适用场景阿里云车牌识别，是阿里云官方自研 OCR 文字识别产品，可有效识别车辆车牌信息，支持多车牌以及多类车型检测识别。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨，具有服务稳定、...

工业质检解决方案

在基于YOLOX模型和iTAG标注数据的图像检测示例区域，单击在DSW中打开，并按照控制台操作指引构建yolox目标检测模型。如果您使用的是iTAG标注的自定义数据集，请将以下数据集目录替换为准备数据中的自定义数据集目录。将训练后得到的_...

主体识别

支持从图像中自动检测并识别一个或多个主要目标，适用于智能监控、自动驾驶、图像检索等典型计算机视觉应用场景。服务名称服务ID 服务描述 API调用QPS限制（含主账号与RAM子账号）主体识别 ops-object-detect-001 由阿里云 OpenSearch-AI ...

RecognizeEduPaperOcr-整页试卷识别

接口支持印刷体文本及公式的OCR识别和坐标返回，此外，接口还可对题目中的配图位置进行检测并返回坐标位置。接口说明本接口适用场景阿里云整页试卷识别，是阿里云官方自研 OCR 文字识别产品，适用于对练习册、教辅、教材等内容进行整页...

2023年

融合戴口罩生成、抗遮挡关键点定位、抗遮挡特征注意力三大技术优化，实现戴口罩时的极速人脸识别。2023-02-02 华东2（上海）口罩人脸比对1:1 图像生产生成式图像卡通化输入一张图像，选择想要生成的卡通化风格，即可生成与输入图像相同...

集成概览

具体方向包括：人脸人体介绍、文字识别介绍、商品理解介绍、内容审核介绍、图像识别介绍、图像生产介绍、分割抠图介绍、视觉搜索介绍、图像分析处理介绍、目标检测介绍、视频理解介绍、视频生产介绍、视频分割介绍共13个类目，上百项AI...

红外人脸活体检测

图像检测接口响应时间依赖图像的下载时间。请保证被检测图像所在的存储服务稳定可靠，建议您使用阿里云OSS存储或者CDN缓存。最多可检测10张图像。目前平台提供的活体检测为静默活体，即基于图片进行检测，暂不支持摇头，张嘴、眨眼等动作的...

RecognizeTaxiInvoice-出租车发票识别

支持包括发票代码、发票号码、日期、发票金额等关键字段结构化识别输出。接口说明本接口适用场景阿里云出租车发票识别，是阿里云官方自研 OCR 文字识别产品，适用于识别出租车发票所包含的发票代码、发票号码、金额、里程等关键信息的...

RecognizeEduQuestionOcr-题目识别

接口说明本接口适用场景阿里云题目识别，是阿里云官方自研 OCR 文字识别产品，适用于扫描、拍照场景的单题题目识别，适用于智能批改等场景的题目内容识别。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨...

RecognizeCarVinCode-车辆vin码识别

接口说明本接口适用场景阿里云 VIN 码识别，是阿里云官方自研 OCR 文字识别产品，适用于识别车辆上的 VIN 码，用于进行车辆质检检查、车辆登记的等场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨，...

猫鼠识别

功能描述猫鼠识别能力基于视觉AI算法、物联网和大数据分析技术，可以检测出场景中是否有猫、老鼠等动物，实现实时预警。说明您可以进入在线咨询获取在线人工帮助。阿里云视觉智能开放平台视觉AI能力API接入、接口使用或问题咨询等，请...

人脸活体检测

图像检测接口响应时间依赖图像的下载时间。请保证被检测图像所在的存储服务稳定可靠，建议您使用阿里云OSS存储或者CDN缓存。最多可检测10张图像。目前平台提供的活体检测为静默活体，即基于图片进行检测，暂不支持摇头，张嘴、眨眼等动作的...

RecognizeVehicleLicense-行驶证识别

支持对行驶证正页、副页关键字段的自动定位和识别，同时也支持对正副页在同一张图片的场景进行自动分割与结构化识别。接口说明本接口适用场景阿里云行驶证识别，是阿里云官方自研 OCR 文字识别产品，精准定位和识别行驶证正、副页所包含...

着装检测

功能描述着装检测能力基于视觉AI算法、物联网、大数据分析技术，检测指定场景范围内的人员帽子、口罩、工作服等穿戴情况，对不规范穿戴行为进行实时预警。说明您可以进入在线咨询获取在线人工帮助。阿里云视觉智能开放平台视觉AI能力...

图片识别

图片识别功能基于图片AI技术，能够检测图片标签和置信度。重要智能媒体管理（IMM）后续新增功能、优化均以新版为主，旧版将逐步下线。为了您有更好的使用体验，建议您使用新版的智能媒体管理（IMM）提供的图片标签检测功能。关于智能...

iTAG概述

支持的标注任务 iTAG预置了标注模板，可支持以下类型的标注任务：图像类：图像分类、目标检测、图像OCR、表格识别、图像语义分割。文本类：文本分类、命名实体识别、实体关系识别。视频类：视频分类、视频打点、视频OCR。音频类：音频分类...

RecognizeEstateCertification-不动产权证识别

可准确识别不动产证中的各项关键信息，包括户主信息、房屋地址、面积大小、土地权利类型等，适用于全国各地的不同房产证识别。接口说明本接口适用场景阿里云不动产权证识别，是阿里云官方自研 OCR 文字识别产品，适用于识别不动产权证和...

RecognizeDrivingLicense-驾驶证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体准确率和召回率达 95%以上。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买 ...

RecognizeTaxClearanceCertificate-税收完税证明识别

支持包括税务机关、纳税人识别号、纳税人名称、合计金额、填票人、完税详单等关键字段的结构化识别输出。接口说明本接口适用场景阿里云税收完税证明识别，是阿里云官方自研 OCR 文字识别产品，适用于识别非税收入证明所包含的税务机关、...

功能概览

针对保险、银行等金融领域的双录（录音、录像）场景合规性要求，智能双录质检利用 AI 技术实现对销售过程中各类关键动作、语音、证件的检测，以及关键角色的面部追踪，实现对销售过程的智能化监控。其中，智能双录质检提供的终端检测能力，...

通用文字识别

为了能够更好的还原文字信息和文档结构，读光文档识别在通用全文识别能力（文字定位、行分析、文字识别）的基础上，增加了文档结构的版面分析和文档图像处理能力，使得文档类图像也能按照结构化的方式进行文档元素提取，进一步提升文档识别...

API概览

DetectImageCodes 图片二维码检测识别指定图像中的条码和二维码。DetectImageFaces 通过AI模型能力检测图片中的人脸以及人脸信息检测指定图像中的人脸边界信息、属性信息、质量信息。边界信息（Boundary）包括：顶点Y坐标距离顶端距离...

RecognizePassport-国际护照识别

可对美国、法国、英国、日本、韩国等世界多个主要国家和地区护照提供识别服务，支持字段包括国籍、护照号码、出生日期、姓名等。接口说明本接口适用场景阿里云国际护照识别，是阿里云官方自研 OCR 文字识别产品，适用于出入境审查、国内...