图像文本识别-图像文本识别文档介绍内容-移动阿里云

RecognizeTaxClearanceCertificate-税收完税证明识别

支持包括税务机关、纳税人识别号、纳税人名称、合计金额、填票人、完税详单等关键字段的结构化识别输出。接口说明本接口适用场景阿里云税收完税证明识别，是阿里云官方自研 OCR 文字识别产品，适用于识别非税收入证明所包含的税务机关、...

RecognizeEduPaperCut-试卷切题识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。适用范围广支持 K12 全学科、多版式扫描版印刷体的整页切题场景。如何使用本接口步骤概述 1 开通教育场景识别服务。开通服务前后，您可以通过体验馆免费体验本...

来往大陆（内地）通行证识别

本接口图片示例（仅支持正面识别）本接口核心能力分类概述图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体...

内容审核计费介绍

文字广告内容识别文本广告内容识别能力支持按量付费和预付费资源包方式进行计费。按量付费应用场景调用量按量付费 QPS限制 ad 无限制 0.0015元/次 2QPS 重要如果您未购买资源包，系统将会按照按量付费的价格计费，请留意并及时...

iTAG概述

iTAG是PAI的数据标注平台，提供多种标注模板，支持图像、文本、视频、音频等数据类型的标注以及多模态标注。支持的标注任务 iTAG预置了标注模板，可支持以下类型的标注任务：图像类：图像分类、目标检测、图像OCR、表格识别、图像语义分割...

Java SDK

本文介绍Gummy一句话识别和翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流...

Java SDK

本文介绍Gummy一句话识别和翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流...

人脸人体介绍

能力介绍类别能力说明人脸检测人脸检测与五官定位 识别图像中是否有人脸，进行人脸检测后返回检测到的人脸矩形框坐标。人脸属性人脸属性识别在人脸检测基础上，识别各个检测人脸的性别（男或女）、年龄、表情（笑或不笑）、眼镜（戴...

RecognizeDrivingLicense-驾驶证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体准确率和召回率达 95%以上。如何使用本接口步骤概述 1 开通车辆物流识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买 ...

RecognizeTrainInvoice-火车票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买火车票...

RecognizeVehicleLicense-行驶证识别

图像增强默认支持图像增强，包括图像自动旋转、畸变自动矫正、模糊图片自动增强等能力。行驶证混贴支持对正副页在同一张图片的场景进行自动分割与结构化识别。高精度识别总体准确率达 93%以上。如何使用本接口步骤概述 1 开通车辆...

第二类医疗器械经营备案凭证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通企业资质识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买企业...

调用三方语音模型

本文主要介绍如何调用三方语音模型实现语音识别和语音合成，并通过文本调用多模态交互开发套件的交互能力实现完整交互链路。百炼多模态交互开发套件集成了大模型语音识别和语音合成，并提供 VAD、AEC 等音频算法提升交互效果。如果我们提供...

RecognizeFoodProduceLicense-食品生产许可证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通企业资质识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买企业...

评估

抽象信息抽取用户意图识别：识别用户意图，如查询检索、文本润色、决策判定、操作指导等。文本摘要：用几句话描述文本内容，每句话描述一个话题。情绪分类：判断文本情绪为正面、负面或中性。主题分类：对文本涉及的主题进行分类，如体育...

RecognizeNonTaxInvoice-非税收入发票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 97%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买车辆...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。建议您...

Java SDK

本文介绍Gummy实时语音识别/翻译Java SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取API Key。...

医学实体识别

ServiceCode String 是 alinlp 固定值，只支持alinlp Text String 是在当地医院行胸部CT检查,回报为“左肺下叶高密度阴影有一空洞”待识别文本，文本长度小于256 返回数据名称类型示例值描述 Data String FA53D08F-37D1-4D81-BEE7-41F...

商品理解介绍

能力介绍目前阿里云视觉智能开放平台上线的商品理解能力包括：类别能力说明商品理解商品分类 识别图像中的商品分类，返回商品类目、置信度等信息。应用场景商品理解应用场景如下：电子商务可以为电子商务提供通过图像搜索商品等能力...

LLM-文本质量打分和语种识别-FastText（DLC）

LLM-文本质量打分和语种识别-FastText（DLC）组件主要用于识别文本的语种并计算得分，并根据语种和得分过滤样本。输入的OSS数据文件（JSONL格式，示例）需符合：每一行是一个合法的JSON对象，文件由多行JSON对象组成，整个文件本身不是合法...

RecognizeBankAcceptance-银行承兑汇票识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买银行...

RecognizeAirItinerary-航空行程单识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通票据凭证识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买票据...

RecognizePassport-国际护照识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通个人证照识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买国际...

智能视觉生产的审计事件

智能视觉生产已与操作审计服务集成，您可以在...SegmentBody 识别图像中人体轮廓。SegmentCloth 服饰图像像素级抠图。SegmentCommodity 商品分割。SegmentHair 识别图片中人物头像。SegmentHead 头像分割。SegmentImage 图像分割（抠图）。

RecognizeFoodManageLicense-食品经营许可证识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别总体识别准确率可达 98%。如何使用本接口步骤概述 1 开通企业资质识别服务。开通服务前后，您可以通过体验馆免费体验本功能识别效果。2 购买食品...

文本内容安全

Labels.N.Label String 是 ad 指定文本检测的应用场景，可选值包括：spam：文字垃圾内容识别 politics：文字敏感内容识别 abuse：文字辱骂内容识别 terrorism：文字暴恐内容识别 porn：文字鉴黄内容识别 flood：文字灌水内容识别 ...

文本审核增强版检测URL风险

文本审核增强版升级检测能力，帮助用户识别第三方URL链接是否存在欺诈、色情、赌博等风险，守护平台内容生态。本文介绍文本审核用于检测URL风险的服务以及使用方法。功能特性文本审核增强版提供以下审核服务能够支持URL链接风险检测，...

RecognizeBusinessLicense-营业执照识别

多类型覆盖支持模糊、光照不均、透视畸变、任意背景等低质量图像识别。高精度识别企事业名称、法人代表等文字信息准确率超过 95%，营业执照注册号等数字信息准确率超过 98%。如何使用本接口步骤概述 1 开通企业资质识别服务。开通...

RecognizeInvoice-增值税发票识别

支持增值税专用发票、增值税普通发票、增值税电子发票识别，支持包括发票代码、发票号码、开票日期、发票金额、发票税额、检验码、购买方税号、销售方税号、发票详情等关键字段结构化识别输出。接口说明本接口适用场景阿里云增值税发票...

文本反垃圾检测

本文介绍了如何使用Python SDK文本反垃圾接口，识别文本中涉及色情、暴恐、涉政等内容。功能描述文本反垃圾接口目前仅支持同步检测。关于参数的详细说明，请参见文本同步检测。一次请求可以检测多条文本，也可以检测单条文本。按实际检测...

图像识别计费介绍

本文主要介绍图像识别收费能力的计费方式及费用详情。其余未收费能力当前还处于公测阶段，可免费使用。咨询服务如果您有任何购买问题需要咨询阿里云视觉智能开放平台，欢迎各位企业用户、开发商、服务商或者开发者通过钉钉搜索群号 ...

接口说明

识别结果在服务端可保存72小时。重要一次性上传大规模数据（半小时内上传超过500小时时长的录音）的除外。有大规模数据识别需求的用户，请联系售前专家。智能分轨功能只支持8k单通道和16k单通道的语音。支持调用方式：轮询方式和回调方式...

LLM-文本质量打分和语种识别（MaxCompute）

LLM-语种识别和过滤组件主要用于大语言模型（LLM）的文本数据预处理工作，识别文本的语种并计算得分，并可以根据语种和得分过滤样本。使用限制仅支持MaxCompute计算引擎。算法简介使用fasttext算法识别文本语种并计算置信度，目前支持...

产品简介

智能文本分类将用户输入的一段文本自动映射到具体的类目上，以帮助用户快速完成文本的分类，并针对文本中的关键标签进行识别和提取。支持平层类目体系或者以树状形式组织的层次类目体系，当前系统内置两种默认分类体系可直接使用：新闻...

明星识别

功能描述明星识别能力可以识别图像中的明星人物。可以识别超过2.7万个明星人物。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该能力进行更直观试用以及在线...

接口说明

识别结果在服务端可保存72小时。重要一次性上传大规模数据（半小时内上传超过500小时时长的录音）的除外。有大规模数据识别需求的用户，请联系售前专家。支持调用方式：轮询方式和回调方式。支持语言模型定制。更多信息请参见语言模型...

Python SDK

本文介绍Gummy一句话识别和翻译Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流（无论...

Python SDK

本文介绍Gummy一句话识别和翻译Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Paraformer/Fun-ASR/Gummy 和实时语音翻译-Gummy。在线体验：模型体验说明一句话识别/翻译能够直接对一分钟内的音频流...

Python SDK

本文介绍Gummy实时语音识别和翻译Python SDK的参数和接口细节。用户指南：关于模型介绍和选型建议请参见实时语音识别-Fun-ASR/Gummy/Paraformer 和实时语音翻译-Gummy。在线体验：模型体验前提条件已开通服务并获得API-KEY：获取与配置...