计算机视觉与模式识别-计算机视觉与模式识别文档介绍内容-移动阿里云

目标检测介绍

目标检测技术基于阿里云计算机视觉与深度学习技术，对通用或指定的目标进行检测、识别、打标。目标检测技术广泛应用于安防、交通等行业内图像场景的目标检测与跟踪。服务开通请单击立即开通在对应产品页面开通该服务，具体开通方式请...

什么是城市视觉智能引擎

数据计算自研世界领先的计算机视觉检测、识别及分割等算法，支持数十万路级别的实时视频分析和千倍加速的离线视频分析，并支持序列计算、图谱计算及图形计算。行业引擎赋能交通、市政综治、商业、园区、电力能源、医疗教育等各个行业场景...

域名访问控制策略原理

域名识别模式介绍如果您在互联网边界出向策略、NAT边界出向策略、VPC边界访问控制策略中设置了域名或者域名地址簿作为目的地址，云防火墙针对域名的识别，包含三种模式：基于FQDN（报文提取Host/SNI)、基于DNS动态解析、同时基于FQDN与DNS...

模型上架与更新

实时语音识别-通义千问视觉理解 2025-10-21 qwen3-vl-32b-thinking、qwen3-vl-32b-instruct Qwen3-VL系列 32B 的Dense模型，文档识别与理解、空间感知与万物识别能力、视觉2D检测与空间推理能力均表现出色，适合通用场景下的复杂感知任务...

主体识别

适用于智能监控、自动驾驶、图像检索等典型计算机视觉应用场景。准备工作为确保 SDK 能正常调用服务，请在使用前完成必要的准备工作，包括配置运行环境及获取服务访问所需的认证与接入信息。参数说明请求体body最大不能超过8MB。更多...

云市场API参考

银行卡识别银行卡识别支持各类银行卡中的银行卡卡号和有效期识别，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持国内大多数银行，以及各种位数、凸字卡面、平面卡面等的识别，为用户提供最方便快捷的身份证信息录入体验。...

票据凭证识别

包括增值税发票、增值税发票卷票、火车票、定额发票、航空行程单、出租车发票、通用机打发票、过路过桥发票、客运车船票、银行承兑汇票等近二十种常见发票，及混贴发票的自动分割与识别能力。说明功能体验地址：...

Web使用指南

开始讲话 finishPushToTalk 对讲机模式下，结束讲话 cancelPushToTalk 对讲机模式下，取消这次讲话 enablePushToTalk 开启/关闭对讲机模式，对讲机模式下，只有在finishPushToTalk被调用后，智能体才会播报结果 getRTCInstance 获取RTC引擎...

API接口详情

muteAgentAudioPlaying 停止/恢复智能体音频流的播放 startPushToTalk 对讲机模式下，开始讲话 finishPushToTalk 对讲机模式下，结束讲话 cancelPushToTalk 对讲机模式下，取消这次讲话 enablePushToTalk 开启/关闭对讲机模式，对讲机模式...

API接口详情

muteAgentAudioPlaying 停止/恢复智能体音频流的播放 startPushToTalk 对讲机模式下，开始讲话 finishPushToTalk 对讲机模式下，结束讲话 cancelPushToTalk 对讲机模式下，取消这次讲话 enablePushToTalk 开启/关闭对讲机模式，对讲机模式...

API概览

RecognizeBankCard 银行卡识别可精准识别各类银行卡中的银行卡卡号和有效期，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持中国内地大多数银行，以及各种位数、凸字卡面、平面卡面等的识别。RecognizeBirthCertification ...

小语种识别

产品介绍读光OCR小语种识别类产品支持通用多语言识别，英语、日语、俄语、韩语、泰语、拉丁语等语言专项识别，适用于国际化所需的各类图文识别与信息翻译场景。说明功能体验地址：https://duguang.aliyun.com/experience?type=i18n 开通...

单据票证信息抽取

在产品功能范围的任务，数据质量越高，识别与抽取效果越好，字迹清晰端正的数据能有更高的准确率。单字大小保持在10-50像素内，以获得较好的识别效果。数据来源于真实业务场景，且类型与版式完整覆盖。步骤二：数据标注数据标注划分为标注...

表格信息抽取

在产品功能范围的任务，数据质量越高，识别与抽取效果越好，字迹清晰端正的数据能有更高的准确率。单字大小保持在10-50像素内，以获得较好的识别效果。数据来源于真实业务场景，且类型与版式完整覆盖。步骤二：数据标注数据标注划分为标注...

个人证照识别

银行卡识别读光OCR银行卡识别可精准识别各类银行卡中的银行卡卡号和有效期，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持中国内地大多数银行，以及各种位数、凸字卡面、平面卡面等的识别，为用户提供最方便快捷的卡面信息...

教育场景识别

适用于对练习册、教辅、教材等内容进行整页识别与题目检索。精细版结构化识别读光OCR精细版结构化识别支持多学科教辅试卷的结构化识别，将整页练习册、试卷或教辅中的题目进行自动切题，并识别出其中的文字内容和坐标位置。适用于精细化...

风险识别与处置最佳实践

本文介绍风险识别与处置的最佳实践。前提条件您已开通风险识别服务。您已开通并集成验证码或实人认证服务。方案简介风险识别将评估结果以评分（score）、标签（tags）形式返回，您可以根据评分的高低进行处置。常见的处置方式包括...

开通OSS服务

选择区域时，需要选择与视觉智能开放平台对应服务能力相同的区域，当前视觉智能开放平台各服务支持的区域为华东2（上海）。关于配置Bucket参数的详细说明请参见控制台创建存储空间。单击完成创建。上传文件创建了存储空间（Bucket）...

RecognizeMultiLanguage-通用多语言识别

接口说明本接口适用场景阿里云通用多语言证识别，是阿里云官方自研 OCR 文字识别产品，适用于国际化所需的各类图文识别与信息翻译场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨，具有服务稳定、...

RecognizeBankCard-银行卡识别

可精准识别各类银行卡中的银行卡卡号和有效期，且支持横卡、竖卡及银行卡任意角度偏斜情况的识别与提取，支持中国内地大多数银行，以及各种位数、凸字卡面、平面卡面等的识别。接口说明本接口适用场景阿里云银行卡识别，是阿里云官方自研...

长文档信息抽取

在产品功能范围的任务，数据质量越高，识别与抽取效果越好，字迹清晰端正的数据能有更高的准确率。单字大小保持在10-50像素内，以获得较好的识别效果。数据来源于真实业务场景，且类型与版式完整覆盖。步骤二：数据标注数据标注划分为标注...

通用文字识别SDK

支持复杂场景：支持视频流识别模式，多帧识别避免了云端识别强依赖单张图片采集质量的问题，使用多帧融合策略进一步提升多字段场景的识别精度和识别速度，有效减少不可预测的外界因素（拍摄角度、光照等）带来的误识别。精度与性能融合：离...

RecognizeEduPaperOcr-整页试卷识别

接口说明本接口适用场景阿里云整页试卷识别，是阿里云官方自研 OCR 文字识别产品，适用于对练习册、教辅、教材等内容进行整页识别与题目检索场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨，具有...

数据安全概述

资产安全为Dataphin提供了数据生命周期中统一的敏感数据识别与保护能力。通过数据分类分级、敏感数据识别、敏感数据脱敏等措施，帮助客户建立完善的数据安全体系，确保数据使用的安全合规性。5分钟快速了解前提条件已购买资产安全增值...

数据安全概述

资产安全为Dataphin提供了数据生命周期中统一的敏感数据识别与保护能力。通过数据分类分级、敏感数据识别、敏感数据脱敏等措施，帮助客户建立完善的数据安全体系，确保数据使用的安全合规性。5分钟快速了解前提条件已购买资产安全增值...

数据分类分级

它为各行业提供对敏感数据类型及其级别的识别与划分能力，能够有效检测组织数据资产中是否存在敏感信息，并根据其敏感程度进行等级划分。分类分级不仅有助于准确掌握数据资产中的敏感内容，还为后续的数据管理和保护措施奠定坚实的基础。...

风险识别规则

背景信息安全中心基于扩展程序为您提供风险识别与响应能力。您可以直接使用DataWorks官方提供的扩展程序来对高危行为进行管控，也可以基于DataWorks开放平台自行开发、部署能够应对更加复杂场景的扩展程序作为风险识别规则，从而将自身...

常见问题

支持后付费与License模式。每个账号可获取一次10元免费试用额度用于后付费模式。购买节省计划可抵扣多模态交互所有按量付费项目。详细计费说明、购买链接参见：产品计费。特殊 Agent 交互次数如何统计？语音翻译：启动一次语音翻译到退出，...

普通集成

图像搜索地址标准化文档自学习产品智能视觉生产虚拟数字人开放平台视觉智能开放平台-人脸人体视觉智能开放平台-分割抠图视觉智能开放平台-商品理解视觉智能开放平台-图像生产视觉智能开放平台-图像识别视觉智能开放平台-文字识别...

按量付费

本章节介绍阿里云文字识别（OCR）按量付费模式与产品价格。开通OCR相应的商品服务后将默认采用后付费计费方式。如果您未购买预付费资源包，则在免费额度耗尽后会自动转入后付费。（注意：云市场资源包不参与官网后付费的资源抵扣计划！后...

数据结构

描述 VoiceAgent 0 仅支持语音交互，无视觉形象 AvatarAgent 1 具备虚拟形象，支持语音和视觉交互 VisionAgent 2 主要负责视觉信息的理解与分析 VideoAgent 3 视频通话，用户与智能体双向视频通话 ARTCAICallAgentState 智能体状态枚举值 ...

数据结构

描述 VoiceAgent 0 仅支持语音交互，无视觉形象 AvatarAgent 1 具备虚拟形象，支持语音和视觉交互 VisionAgent 2 主要负责视觉信息的理解与分析 VideoAgent 3 视频通话，用户与智能体双向视频通话 ARTCAICallAgentState 智能体状态枚举值 ...

API概览

内容审核（imageaudit）内容审核类目能力开通链接：立即开通分类能力接口名能力中文名说明内容审核 ScanText 文本内容安全支持检测的场景包括：文字垃圾内容识别、文字广告内容识别、文字敏感内容识别、文字暴恐内容识别、文字辱骂...

词云图

若例句太长，不易于快速识别关键字时，您可以通过分词模式快速呈现关键词。请参见分词模式。分词模式分词模式主要是将一些例句智能拆解：若您添加的字段仅为维度字段，则分词模式下，根据例句智能拆解的词频次呈现词大小。若您添加的字段...

机器学习函数

在机器学习和人工智能（AI）中，函数是指用于实现...多变量模式识别函数日志服务通过异常检测功能，自动识别服务系统中的异常状态及其根源。该功能可自动识别指标的变化是否偏离正常模式，并结合指标当前模式与机器学习技术来进行异常检测。

Android使用指南

avatarLayoutParams ViewGroup.LayoutParams 布局参数 canvas ARTCAICallVideoCanvas 渲染视图配置，包括渲染视图、渲染模式、镜像模式、旋转模式等 setVisionPreviewView 设置视觉理解本地视图载体并指定渲染模式 public abstract void ...

iOS使用指南

enablePushToTalk 开启/关闭对讲机模式 startPushToTalk 对讲机模式下，开始讲话 finishPushToTalk 对讲机模式下，结束讲话 cancelPushToTalk 对讲机模式下，取消这次讲话 muteMicrophone 静音/取消禁音麦克风 visionConfig 视觉理解通话...

计费定价类

咨询服务如果您有任何购买问题需要咨询阿里云视觉智能开放平台，欢迎各位企业用户、开发商、服务商或者开发者通过钉钉搜索群号 23109592，加入阿里云视觉智能开放平台咨询群，与平台取得联系。API是如何收费的？阿里云视觉智能开放平台...

产品计费

基础功能默认包含意图识别与闲聊（含插件调用、指令控制、联网搜索）。是否包含语音识别和语音合成，取决于控制台中的实际功能配置。若启用额外功能（如知识库检索、语音翻译、新闻电台、视觉理解），系统将按上表所列标准，叠加对应的使用...

服务端人脸识别SDK

服务端人脸识别离线SDK，包括人脸检测、人脸跟踪、人脸关键点定位、人脸质量、角度模型、活体检测和人脸识别等能力，可以直接部署服务器上。人脸识别SDK具有授权功能，一旦授权成功，可以在无网的条件下使用，用户可根据自己的业务需求进行...