图像与视频识别-图像与视频识别文档介绍内容-移动阿里云

模型列表

更多模型：通义千问图像翻译、通义万相涂鸦作画、通义万相图像局部重绘、人像风格重绘、图像背景生成、图像画面扩展、图像画面扩展、人物实例分割、图像擦除补全、虚拟模特、鞋靴模特、人物写真生成-FaceChain、AI试衣语音合成与识别 语音...

异构服务型

处理器：2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY（Cascade Lake），睿频3.2 GHz，计算性能稳定适用场景：视频格式、码流转换 图像与视频内容处理图像识别前的帧图像提取 video-trans实例规格 video-trans包括的实例规格为ecs....

异构服务型（video-trans系列）

适用场景：视频格式、码流转换 图像与视频内容处理图像识别前的帧图像提取计算：2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY（Cascade Lake），睿频3.2 GHz，计算性能稳定存储：支持的云盘类型：ESSD云盘、ESSD AutoPL云盘、ESSD...

Postman

API异步调用机制由于图像与视频生成任务耗时较长（十几秒到数分钟不等），为避免长时间的HTTP连接等待和超时，API采用异步调用机制。整个调用过程分为两步：创建任务：调用 API 创建任务，服务会同步返回一个任务 ID（task_id）。查询结果...

AnimateAnyone 视频生成

输入图像与视频生成类型的适用关系：输入图片按图片背景生成（即use_ref_img_bg设为true）按视频背景生成（即use_ref_img_bg设为false）全身人像支持支持半身人像支持不推荐说明按视频背景生成时，需将图片中人像匹配到视频中人像...

视觉理解

通义千问VL模型可以根据您传入的图片或视频进行回答，支持单图或多图的输入，适用于图像描述、视觉问答、物体定位等多种任务。在线体验：视觉模型（北京或新加坡）快速开始前提条件已获取 API Key 并配置API Key到环境变量。如果通过...

工业大脑

工业大脑是基于阿里云大数据的一体化计算平台，通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集，借助语音交互、图像/视频识别、机器学习和人工智能算法，激活海量数据价值，为解决工业...

图像搜索

图像搜索服务（Image Search）是以深度学习和大规模机器学习技术为核心，通过图像识别和搜索功能，实现以图搜图的和以文搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上，结合不同行业应用和业务场景，帮助用户实现相同或...

图像识别的审计事件

图像识别已与操作审计服务集成，您可以在操作审计中查询用户操作图像识别产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中，满足实时审计、问题回溯分析等需求。操作审计记录了用户通过Open...

图搜使用问题

一般来说有以下几类原因：选择的OSS Bucket与图像搜索实例不在一个地域，目前支持的地域有华东2（上海）、华东1（杭州）、华北2（北京）、华南1（深圳）、亚太东南1（新加坡）、中国香港、亚太东北 1（东京）、欧洲中部 1（法兰克福）、...

AIGC设计（ArtLab）

平台集成云端Stable Diffusion、ComfyUI、Kohya等主流图像/视频生成及模型训练工具，覆盖AIGC设计全生命周期：从数据集打标、模型训练、工作流设计、应用部署与系统集成与图像/视频生成。支持账号统一管理和授权、AI绘画教育支持，以及全...

通用视频人脸融合

通用视频人脸融合只需要输入一张带融合人脸图像与一段视频，就可以将图像人脸融合进视频中。适用场景：每次合成独立完成，无通用模板场景。仅支持视频中只有一张人脸的场景。如需使用多人场景或有固定数量的视频模板，请参见模板视频人脸...

2020年

2020-08-31 华东2（上海）已下线 2020年07月类目名称接口名称功能描述发布时间发布地域相关文档人脸人体明星识别可以识别图像中的明星人物。2020-07-31 华东2（上海）明星识别分割抠图 Logo分割可以将图片中的Logo进行分离，...

API概览

RefineMask Mask精细化分割对输入的图像与粗糙mask进行精细化处理，输出精细化mask。SegmentHDSky 天空高清分割可以对输入图片中的天空进行像素级抠图，实现分割功能。SegmentHDCommonImage 通用高清分割可以对图片中的主体进行分割，并...

什么是阿里云视觉智能开放平台

能力建设方向阿里云视觉智能开放平台将围绕多个视觉领域，例如：通用、图像、视频以及目标识别等类目，持续为您提供多种视觉AI能力。具体方向包括：人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、...

基本概念

例如OSS Bucket在杭州区域，同时图像搜索的实例也在杭州区域才能使用离线新增功能，如果OSS Bucket与图像搜索实例不在同一个区域则无法使用离线新增功能。离线新增是图像搜索产品提供的免费服务，且QPS远高于实时新增，所以如果您的图片...

请求结构

图像识别服务支持基于URL发送HTTP/HTTPS请求。请求参数需要包含在URL中，请求及返回结果都...公共请求参数：API接口中使用了公共请求头（Common Request Headers），该内容可以被所有的图像识别服务请求使用。详细说明请参见公共请求参数。

OCR

使用图像识别节点，可调用云市场购买的API进行驾驶证、车牌、身份证等图像文字识别。节点配置配置项说明节点名称设置节点名称。支持中文汉字、英文字母、数字和下划线（_），长度不超过30个字符。选择能力从下拉框中选择您需要使用的...

通用图像打标

功能描述通用图像打标能力用于识别图像中的主体内容并打上类型标签，支持数千个内容标签，覆盖常见物体品类。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验，您可以单击立即试用对该...

分割抠图介绍

Mask精细化分割对输入的图像与粗糙mask进行精细化处理，输出精细化mask。天空高清分割可以对输入图片中的天空进行像素级抠图，实现分割功能。通用高清分割可以对图片中的主体进行分割，并输出对应的PNG格式透明图。高清人体分割可以...

SDK总览

图像识别 通用图像达标、元素识别、场景识别等能力。图像生产图片上色、字幕擦除、文生图等能力。分割抠图人体分割、头像分割、商品分割等能力。目标检测主体检测、物体检测、猫鼠识别等能力。视频理解镜头解析、视频OCR、视频内容理解...

图像识别

使用图像识别节点，可调用云市场购买的API进行烟雾火焰火灾、动物、植物花卉、花草树木鉴定等识别。节点配置配置项说明节点名称设置节点名称。支持中文汉字、英文字母、数字和下划线（_），长度不超过30个字符。选择能力从下拉框中...

集成视觉智能服务

RefineMask 对输入图像与粗糙mask进行精细化处理，输出精细化mask。imageenhan 开通图像增强服务 ChangeImageSize 改变图片大小。IntelligentComposition 输入一张的图像，通过美学评估，智能输出几个bounding box，根据这些bounding box...

场景识别

功能描述场景识别能力可以识别图像中的场景环境，支持数十种常见场景，包括：人物、动物、狗、猫、鱼、鸟、花、草地、蔬菜、植物、水果、餐厅、美食、聚餐、烧烤物品、手机、显示器室外、广场、建筑、游乐场、户外、公路、小河、山峰、...

图片引用

多个图像提示[图片url]+[图片url]+文本提示词将多张图像与描述性文本结合，获得更详细的指导。使用文本提示来指定参考图像中不可见的重要细节。图像权重如果您想更好地控制图像提示对最终图像的影响程度，可以尝试使用图像权重参数-iw。...

AI生成合成内容鉴别和标识最佳实践

内容安全方案流程图概览：所需集成和配置的API：步骤 API接口 API service配置步骤2 ImageModeration aigcDetectorFull 视频发布场景在平台的视频上传或者视频发布等场景，通过AIGC视频鉴别服务检测视频是否疑似为AI生成合成内容，对于...

RecognizeWaybill-电子面单识别

支持识别面单上所有关键字段。接口说明本接口适用场景阿里云电子面单识别，是阿里云官方自研 OCR 文字识别产品，适用于自动提取面单上的手机号进行拨打收件人号码或发短信，减少快递员拨号时间；可快速定位面单上的所需信息，提升快递...

证件照质量审核

本文介绍图像识别（imagerecog）类目下的证件照质量审核EvaluateCertificateQuality的语法及示例。功能描述证件照质量审核能力可以识别拍摄的证件照片是否存在质量问题，且有哪些质量问题。说明您可以进入在线咨询获取在线人工帮助。...

RecognizeTaxiInvoice-出租车发票识别

支持包括发票代码、发票号码、日期、发票金额等关键字段结构化识别输出。接口说明本接口适用场景阿里云出租车发票识别，是阿里云官方自研 OCR 文字识别产品，适用于识别出租车发票所包含的发票代码、发票号码、金额、里程等关键信息的...

RecognizeEduFormula-印刷体数学公式识别

支持印刷体的数学公式识别。接口说明本接口适用场景阿里云公式识别，是阿里云官方自研 OCR 文字识别产品，适用于题目录入、智能批改、作业批改等应用场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨...

RecognizeCarVinCode-车辆vin码识别

接口说明本接口适用场景阿里云 VIN 码识别，是阿里云官方自研 OCR 文字识别产品，适用于识别车辆上的 VIN 码，用于进行车辆质检检查、车辆登记的等场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据，历经多年沉淀打磨，...

城市视觉智能引擎

城市视觉智能引擎依托于阿里云分布式计算和存储平台，利用先进的视频图像、图形学处理技术和深度学习算法，建立城市级人工智能模型，实现对整个城市视觉数据(枪机、球机等摄像头数据以及遥感、卫星、无人机采集的图像数据)的接入、计算、...

垃圾分类识别

本文介绍图像识别（imagerecog）类目下的垃圾分类识别ClassifyingRubbish的语法及示例。功能描述垃圾分类识别能力可以对图片中的物品垃圾进行分类，并给出具体的物品名称。说明您可以进入在线咨询获取在线人工帮助。当前能力可在视觉...

音视频智能生产

音视频智能生产服务基于阿里云智能媒体AI技术，提供多种形式媒体内容处理及内容生成能力，支持智能封面、智能横转竖、绿幕抠图、人像抠图、智能图标模糊、智能去字幕、字幕提取、副歌检测、音乐节奏检测等多种媒体处理生成功能，提升媒体...

RecognizeEduOralCalculation-口算判题

可以识别小学数学口算题目并给出题目判断结果。可支持整数的加减乘除四则运算、整数的混合运算、大小比较、最大数最小数等。接口说明本接口适用场景阿里云口算判题识别，是阿里云官方自研 OCR 文字识别产品，适用于整数的加减乘除四则...

菜品识别

本文介绍图像识别（imagerecog）类目下的菜品识别RecognizeFood的语法及示例。服务说明由于产品业务调整，菜品识别服务于即日起停止新用户开通调用，历史开通过该服务的老用户可继续调用，2026年04月20日后该服务将下架，不再支持新老...

什么是智能媒体管理

其功能包括文档格式转换及编辑，图片与视频的格式转换、裁剪、拼接和压缩，以及图片与视频的内容识别、人脸检测、二维码检测和人脸搜索等。该系统适用于媒资管理、智能网盘、社交应用和图库图床等开发者使用。智能媒体管理可以结合对象存储...

元素识别

本文介绍图像识别（imagerecog）类目下的元素识别DetectImageElements的语法及示例。功能描述元素识别能力用于识别输入图像中所包含的元素内容，用矩形框标注出其位置，并区分其对应的基本类型（人物、修饰、文案）。输入原图：输出结果图...

产品简介

离线视频分割SDK（iOS）文字离线识别证件识别SDK（Android）支持身份证、驾驶证、行驶证正反面离线识别，可识别常用多个关键字段内容，识别精准度超过95%。证件识别SDK（iOS）车辆类识别SDK（Android）支持扫描识别中国内地所有单行车牌及...

人脸检索使用概述

检索不会返回对应的图像，您需要自行存储底库的图像与个体之间的对应关系。修改个体所属分组如果您需要修改某个个体所属的分组，请参照以下步骤进行操作：将个体从分组中移除。关于接口的说明，请参见移除个体组中个体。说明从分组中...