音频识别文字的软件-音频识别文字的软件文档介绍内容-移动阿里云

2022年

2022-04-30 华东2（上海）视频拆条 2022年3月类目名称能力名称功能描述发布时间发布地域相关文档 文字识别 视频文字识别 视频文字识别能力可以实现对输入视频的结构化处理，返回对应的文字内容、文字区域坐标及时间等信息。...

快速使用文字识别

使用流程重要通过体验馆和SDK调用文字识别OCR服务时，文字识别OCR仅做图片识别并返回结果，不会存储图片和识别结果。免登录体验服务如果您是新用户（未注册过阿里云账号、未开通文字识别OCR服务），建议先通过阿里云文字识别体验馆 ...

RecognizeThai-泰语识别

针对泰语图片文档场景下泰文印刷体高效检测和识别，支持旋转、表格、文字坐标等多项基础功能。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权...

RecognizeRussian-俄语识别

针对图片文档场景下俄文印刷体高效检测和识别，支持旋转、表格、文字坐标等多项基础功能。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下...

RecognizeBankCard-银行卡识别

可精准识别各类银行卡中的银行卡卡号和有效期，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持中国内地大多数银行，以及各种位数、凸字卡面、平面卡面等的识别。接口说明本接口适用场景阿里云银行卡识别，是阿里云官方自研...

RecognizeKorean-韩语识别

针对韩语图片文档场景下韩文印刷体高效检测和识别，支持旋转、表格、文字坐标等多项基础功能。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权...

RecognizeLatin-拉丁语识别

针对拉丁语系的图片文档场景下印刷体高效检测和识别，支持旋转、表格、文字坐标等多项基础功能。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权...

RecognizeBankAccountLicense-银行开户许可证识别

接口说明本接口适用场景阿里云银行开户许可证识别，是阿里云官方自研 OCR 文字识别产品，适用于识别银行开户许可证所包含的账号、核准号、企业名称、法人姓名以及开户行等关键信息的场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI ...

VIN码识别

本文介绍文字识别（ocr）类目下的VIN码识别RecognizeVINCode的语法及示例。功能描述 VIN码识别能力可以识别车辆VIN码，输出车辆VIN码数值。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验...

Windows

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

PDF识别

本文介绍文字识别（ocr）类目下的PDF识别RecognizePdf的语法及示例。功能描述 PDF识别能力可以对PDF上的文字进行结构化识别。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击 ...

二维码识别

本文介绍文字识别（ocr）类目下的二维码识别RecognizeQrCode的语法及示例。功能描述二维码识别能力可以识别图像中是否含有二维码信息，输出图像中二维码包含的文本信息（每个二维码对应的URL或文本），可支持图像中含有多个二维码识别。...

PredictModel-模型服务预测API

orgWidth 原图的宽度 prism_wnum 识别的文字块的数量，prism_wordsInfo 数组的大小 prism-wordsInfo 文字块数组内的字段说明 angle 文字块的角度，这个角度只影响 width 和 height，当角度为-90、90、-270、270，width 和 height 的值需要...

银行卡识别

本文介绍文字识别（ocr）类目下的银行卡识别RecognizeBankCard的语法及示例。功能描述银行卡识别能力可以检测输入的主流银行卡图像，输出3个信息，包括：发卡行、银行卡号、有效日期。说明您可以进入在线咨询获取在线人工帮助。当前...

产品简介

阿里云视觉智能开放平台提供通用文字识别、证件识别、图片分割等离线SDK，可在无网络环境下离线使用，不同能力支持Android、iOS、Windows和macOS不同的使用终端。本文为您介绍阿里云视觉智能开放平台当前支持的离线SDK能力。说明阿里云...

火车票识别

本文介绍文字识别（ocr）类目下的火车票识别RecognizeTrainTicket的语法及示例。功能描述火车票识别能力可以对火车票进行结构化识别，输出乘车时间、始发站、目的站、座位席别、乘车人姓名、车次号、票价、车厢及座次号，共8个关键字段...

车牌识别

本文介绍文字识别（ocr）类目下的车牌识别RecognizeLicensePlate的语法及示例。功能描述车牌识别能力可以准确识别出图像中车牌位置，输出车牌位置坐标、车牌类型、车牌号码、车牌号码置信度、车牌置信度，共5个关键字段信息。说明您可以...

RecognizeGeneralStructure-通用票证抽取

通用票证抽取结合读光OCR和通义千问大模型的能力，针对OCR不支持的长尾票据，提供关键KV信息抽取，例如名称、地址、开票日期等关键字段结构化识别输出。接口说明如何使用本接口步骤概述 1 开通 OCR 统一识别服务。本接口在公测阶段，是...

增值税发票卷票识别

本文介绍文字识别（ocr）类目下的增值税发票卷票识别RecognizeTicketInvoice的语法及示例。功能描述增值税发票卷票识别能力支持对卷票上包括价税合计、发票代码、发票号码、合计税额、合计金额、密码区、开票日期、税率、购买方识别号、...

新手指南

其他类目能力详细说明及使用方法，请参见：生成专区、人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、图像分析处理、目标检测、视频理解、视频生产、视频分割。参考案例开发代码示例为身份证识别系统...

驾驶证识别

本文介绍文字识别（ocr）类目下的驾驶证识别RecognizeDriverLicense的语法及示例。功能描述驾驶证识别能力可以识别驾驶证首页和副页关键字段内容，包括：档案编号、姓名、有效期时长、性别、发证日期、驾驶证号、驾驶证准驾车型、有效期...

身份证识别

本文介绍文字识别（ocr）类目下的身份证识别RecognizeIdentityCard的语法及示例。功能描述身份证识别可以识别二代身份证关键字段内容，关键字段包括：姓名、性别、民族、身份证号、出生日期、地址信息、有效起始时间、签发机关，同时可...

行驶证识别

本文介绍文字识别（ocr）类目下的行驶证识别RecognizeDrivingLicense的语法及示例。功能描述行驶证识别能力可以识别行驶证首页和副页关键字段内容，输出品牌型号、车辆类型、车牌号码、检验记录、核定载质量、核定载人数等21个关键字段...

第二类医疗器械经营备案凭证识别

接口说明本接口适用场景阿里云第二类医疗器械经营备案凭证识别，是阿里云官方自研 OCR 文字识别产品。适用于识别第二类医疗器械经营备案凭证备案编号、企业名称、经营方式、法定代表人、经营范围等信息的场景。阿里云 OCR 产品基于阿里...

集成视觉智能服务

ocr 开通文字识别服务 RecognizeIdentityCard 自动定位身份证图片区域，识别身份证上的相关信息。RecognizeBankCard 自动定位银行卡图片区域，识别银行卡号等相关信息。RecognizeBusinessCard 自动从图片中定位名片图片，识别名片上的相关...

RecognizeFoodProduceLicense-食品生产许可证识别

接口说明本接口适用场景阿里云食品生产许可证识别，是阿里云官方自研 OCR 文字识别产品。适用于识别食品生产许可证社会信用代码、发证机关、生产地址、签发日期等信息的场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据...

定额发票识别

本文介绍文字识别（ocr）类目下的定额发票识别RecognizeQuotaInvoice的语法及示例。功能描述定额发票识别能力可以对定额发票上的发票号码、发票代码、发票金额进行结构化识别。说明定额发票识别接口仅识别发票中的文本内容，不支持辨别...

智能标签模板

视频文字识别标签：开启 ocr。视频语音识别标签：开启 asr。说明配置智能标签功能开启的分析类型，将会产生费用，收费标准请参见智能标签。ocr FaceCategoryIds string 否参与识别的⼈脸库 ID 列表，可多选，⽤半角逗号（,）分隔。可填...

RecognizeAllText-OCR统一识别

OCR统一识别接口支持识别多种图片类型，包括通用文字、个人卡证、发票等。您只需要通过Type参数指定图片类型，无须更换接口。接口说明如何使用本接口步骤概述 1 开通 OCR 统一识别服务。开通此 API 后会赠送免费额度，可使用免费额度...

Android

使用场景您可以将本地发布端或订阅端的音频数据通过阿里云语音识别服务转换成文字，实现流程如下所示：阿里云RTC会将音频数据发送至音频识别SDK中。音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK...

图片内容安全

normal（正常图片）、politics（文字含敏感内容）、porn（文字含涉黄内容）、abuse（文字含辱骂内容）、terrorism（文字含涉恐内容）、contraband（文字含违禁内容）、spam（文字含其他垃圾内容）、npx（牛皮癣广告）、qrcode（包含二维码...

营业执照识别

本文介绍文字识别（ocr）类目下的营业执照识别RecognizeBusinessLicense的语法及示例。功能描述营业执照识别能力可以识别营业执照关键字段内容，包括：公司地址、营业范围、注册资本、注册日期、公司法人、公司名称、统一社会信用代码、...

RecognizeFoodManageLicense-食品经营许可证识别

接口说明本接口适用场景阿里云食品经营许可证识别，是阿里云官方自研 OCR 文字识别产品，适用于识别食品经营许可证上的经营者名称、法定代表人名称、社会信用代码等关键信息的场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及...

AliyunOCR

path str 待识别图像路径，支持本地路径或url路径 output_char_info bool 是否输出单字识别结果 need_rotate bool 是否需要自动旋转功能 output_table bool 是否输出表格识别结果，包含单元格信息 need_sort_page bool 是否按顺序输出文字块 ...

RecognizeInvoice-增值税发票识别

接口说明本接口适用场景阿里云增值税发票识别，是阿里云官方自研 OCR 文字识别产品，适用于识别增值税发票上所包含的价税合计、发票代码、发票号码等关键信息的场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经...

进阶指南

若需使用支持多码识别的全屏扫码功能，请将 mPaaS 基线版本升级至 10.1.68.33 及以上。下图是扫一扫支持的三种 UI 扫码样式。标准 UI 下使用扫一扫全屏扫码如需连续扫码，即扫码识别成功后不退出继续识别，可根据如下代码来实现。...

增值税发票识别

本文为您介绍文字识别（ocr）类目下的增值税发票识别RecognizeVATInvoice的语法及示例。功能描述增值税发票识别能力可以识别增值税发票（电子发票和纸质发票）关键字段内容，包括：校验码、复核人、开票人、发票代码、收款人等。说明增值...

RecognizeBusinessLicense-营业执照识别

接口说明本接口适用场景阿里云营业执照识别，是阿里云官方自研 OCR 文字识别产品，适用于识别营业执照上的公司名称、地址、主体类型、法定代表人、注册资金、组成形式、成立日期等关键信息的场景。泛营业执照包含民办非企业登记证书、...

配置外发文件分类分级检测规则

为了防止员工通过多种渠道外发敏感文件导致业务损失，建议使用办公安全平台SASE（Secure Access Service Edge）的外发文件检测功能进行实时检测和管控，并配置分类分级检测规则以识别和管理数据泄露风险。本文档介绍了如何配置外发文件的...

AddSmarttagTemplate-添加模板

视频文字识别标签：开启 ocr。视频语音识别标签：开启 asr。ocr FaceCategoryIds string 否参与识别的⼈脸库 ID 列表，可多选，⽤半角逗号（,）分隔。可填⼊系统⼈脸库 ID 和⾃定义⼈脸库 ID。其中系统⼈脸库 ID 如下：celebrity：明星⼈...