图像文本识别-图像文本识别文档介绍内容-移动阿里云

多主体识别最佳实践

通过识别图像中的多个主体，搜索引擎可以更好地理解用户的搜索意图，并提供更精确的结果。向量检索版的主体识别：向量检索版的主体识别通过两个参数进行控制：crop：在图片搜索过程中是否需要对上传图片进行主体识别主体识别方式（range）...

菜品识别

本文介绍图像识别（imagerecog）类目下的菜品识别RecognizeFood的语法及示例。服务说明由于产品业务调整，菜品识别服务于即日起停止新用户开通调用，历史开通过该服务的老用户可继续调用，2026年04月20日后该服务将下架，不再支持新老...

元素识别

本文介绍图像识别（imagerecog）类目下的元素识别DetectImageElements的语法及示例。功能描述元素识别能力用于识别输入图像中所包含的元素内容，用矩形框标注出其位置，并区分其对应的基本类型（人物、修饰、文案）。输入原图：输出结果图...

异构服务型

处理器：2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY（Cascade Lake），睿频3.2 GHz，计算性能稳定适用场景：视频格式、码流转换图像与视频内容处理 图像识别前的帧图像提取 video-trans实例规格 video-trans包括的实例规格为ecs....

广告素材分析

本文介绍图像识别（imagerecog）类目下的广告素材分析TaggingAdImage的语法及示例。功能描述广告素材分析能力可以对素材图片中的人物（明星、素人、CG人物）、场景等打上标签信息，可支持数千个内容标签，覆盖范围广。说明您可以进入 ...

2D互动数字人接入指南（不支持接入）

2.4 服务端返回语音文本识别结果服务端在语音转文本服务识别到一句完整的句子时会将识别到的文本返回给客户端。5{"content":{"type":"asrContent",/表示是下发语音识别文本消息"sentenceId":"b60e43b53333437a9d312a62518a5b3c",/本次识别...

3D互动数字人接入指南-不支持语音交互

2.4 服务端返回语音文本识别结果服务端在语音转文本服务识别到一句完整的句子时会将识别到的文本返回给客户端。5{"content":{"type":"asrContent",/表示是下发语音识别文本消息"sentenceId":"b60e43b53333437a9d312a62518a5b3c",/本次识别...

云市场API参考

通用混贴票证识别通用混贴票证识别，基于对客户实际业务流应用场景中对OCR智能化、语义化、泛在化识别能力的需求，有效整合读光通用高精度文本识别、结构化理解、检测分类及自然语义理解等关键技术，有效实现自动分类、关键有效信息精准...

流程编辑器组件说明

识别文本中的实体从文本中识别语种尝试识别消息的语言，并将其转化为变量。以便后续可以重复使用。可自动识别用户上行消息的语种并将语种转化为变量。从文本中识别语种调用函数函数计算组件帮助您在流程中调用您在阿里云函数计算产品中...

识别文本中的实体

本文介绍 识别文本中的实体组件的配置详情。此组件可以自动识别出某些信息和数据（实体），以便后续可以重复使用提取的数据。组件信息组件图标组件名称 识别文本中的实体。前提条件您可以通过已存在的流程或者创建新的流程进入流程...

RecognizeWaybill-电子面单识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别识别准确率可达 93%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买电子面单...

RecognizeEduFormula-印刷体数学公式识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买教育...

集成概览

具体方向包括：人脸人体介绍、文字识别介绍、商品理解介绍、内容审核介绍、图像识别介绍、图像生产介绍、分割抠图介绍、视觉搜索介绍、图像分析处理介绍、目标检测介绍、视频理解介绍、视频生产介绍、视频分割介绍共13个类目，上百项AI...

RecognizeTaxiInvoice-出租车发票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买票据...

RecognizeEduOralCalculation-口算判题

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买教育...

RecognizeCarVinCode-车辆vin码识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买车辆 ...

使用AI内置模型实现推理

模型名称描述语言最大token数模型大小 Alibaba-NLP/gte-multilingual-reranker-base 文本识别。多语言 8192 306 MB lxyuan/distilbert-base-multilingual-cased-sentiments-student 情感分析（正负面二分类）。多语言 512 541 MB 语法 ...

计费方式和计费项

ops-document-analyze-002 元/千tokens 0.17 0.017 元/张图片 0.06 元/个表格 0.14 图片文本识别 ops-image-analyze-ocr-001 元/次 0.08 0.02 图片内容理解 ops-image-analyze-vlm-001 元/千tokens 0.02 文档切片 ops-document-split-001 ...

OCR

此方法会在指定控件上，识别指定的关键词文本，以识别结果为原点，根据设定的偏移量移动鼠标，然后模拟输入指定文本。代码调用样例如下，本例中从页面元素上识别关键词"百度"，随后将鼠标左移350个像素，然后模拟输入指定内容：page=rpa....

RecognizeGeneral-通用文字识别

本接口图片示例本接口核心能力分类概述多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。全字段识别结构化识别图片上所包含的全字段，并返回 JSON。图像增强默认支持图像增强，包括图像畸变自动矫正、模糊图片...

集成视觉智能服务

goodstech 开通商品理解服务 ClassifyCommodity 识别图像中的商品分类，返回商品类目、置信度等信息，目前已经支持服饰鞋包、3C数码、家居用品等超过1万种类目分类。RecognizeFurnitureAttribute 识别输入的家居模型图的风格，目前支持16种...

RecognizeBasic-电商图片文字识别

本接口图片示例本接口核心能力分类概述多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。多网络场景电商商品宣传图片、社区贴吧图片、网络 UGC 图片等网络场景识别文字。适用场合适用于违规广告识别、信息审核...

新手指南

其他类目能力详细说明及使用方法，请参见：生成专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割。参考案例开发代码示例为身份证识别系统...

RecognizeMultiLanguage-通用多语言识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通通用文字识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买小语种...

图像识别常见错误码

本文为您介绍图像识别API返回的错误码信息。说明阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等，请通过钉钉群（23109592）加入阿里云视觉智能开放平台咨询群联系我们。问题诊断中心使用问题诊断中心可帮助...

创建文本库

BLACK 文本库类型，取值：BLACK：风险名单 WHITE：可信名单 REVIEW：疑似名单 LibType String 是 textKeyword 各应用场景中的文本库类型，取值：文本反垃圾 textKeyword：关键词文本库 similarText：相似文本库图文违规识别 textKeyword：...

RecognizeHandwriting-通用手写体识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通通用文字识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买通用...

API文档

精准识别文本内容，并保留原始文档的版面样式信息。PDF转图片支持将 PDF 逐页转换为图片，最大可处理 100 页以内的PDF文档。PDF转Excel 将PDF转换为可编辑的Excel文档。精准识别文本内容，并保留原始文档的版面样式信息。图片转Excel 将...

多模态数据解析及向量化

图片文本识别服务（ops-image-analyze-ocr-001）：使用OCR能力进行图片文字识别，解析后的文本可用于图片检索问答场景。文档切片文档切片服务（ops-document-split-001）：提供通用文本切片服务，支持基于文档段落、文本语义、指定规则，...

RecognizeBankCard-银行卡识别

可精准识别各类银行卡中的银行卡卡号和有效期，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持中国内地大多数银行，以及各种位数、凸字卡面、平面卡面等的识别。接口说明本接口适用场景阿里云银行卡识别，是阿里云官方自研...

规则限制

2.地址纠错/地址结构化/行政区划识别/邮政编码查询/地址POI类型识别文本输入有什么要求？一条地址的描述文本，可以是POI或者一条较为明确的地址，建议不要混入过多非地址文本，否则影响效果。3.地址相似层级判断如何输入，输入两段地址如何...

RecognizePaymentRecord-支付详情页识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买票据...

RecognizeBankAccountLicense-银行开户许可证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买银行...

RecognizeCovidTestReport-核酸检测报告识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通医疗场景识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买核酸...

RecognizeEnglish-英语作文识别

针对全英文图片文档场景下英文印刷体字符高效检测和识别，具备英文专项识别和英文分词功能，支持旋转、表格、文字坐标等多项基础功能。接口说明本接口适用场景阿里云英语专项识别，是阿里云官方自研 OCR 文字识别产品，适用于全英文图片...

RecognizeSocialSecurityCardVersionII-社保卡识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买个人...

RecognizeHousehold-户口本识别

可结构化识别户口常住人口登记卡页面及户主页的内容，有效识别户口本上的相关户籍证明信息。接口说明本接口适用场景阿里云户口本识别，是阿里云官方自研 OCR 文字识别产品，可用于识别户口本户主页的户主姓名、住址、户号等字段。也适用...

RecognizeIdcard-身份证识别

本接口图片示例本接口核心能力分类概述多类型覆盖支持自动区分正反面、支持少数民族版式识别、临时身份证识别、生僻字识别、反光实拍、劣质图像识别。风险检测支持证件风险检测预警能力，包括智能判断图片完整度、复印件检测、翻拍...

什么是智能语音交互

针对付费客户，系统可在3小时之内完成识别并返回识别文本，一次性上传大规模数据（半小时内上传超过500小时时长的录音）的除外。有大规模数据转写需求的客户，可与售前专家另行沟通。语音合成通过先进的深度学习技术，将文本转换成自然...

内容安全文本审核服务在决策引擎中的应用

决策引擎集成了阿里云使用文本审核增强版识别文本违规风险，您可通过决策引擎直接使用内容安全服务，降低对接成本，并实现内容安全服务的灵活使用及攻防对抗。背景信息决策引擎集成了2项常用的内容安全文本审核服务，每项文本审核服务...