图像与视频识别

_相关内容

模型列表

更多模型:通义千问图像翻译、通义万相涂鸦作画、通义万相图像局部重绘、人像风格重绘、图像背景生成、图像画面扩展、图像画面扩展、人物实例分割、图像擦除补全、虚拟模特、鞋靴模特、人物写真生成-FaceChain、AI试衣 语音合成与识别 语音...

异构服务型

处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY(Cascade Lake),睿频3.2 GHz,计算性能稳定 适用场景:视频格式、码流转换 图像与视频内容处理 图像识别前的帧图像提取 video-trans实例规格 video-trans包括的实例规格为ecs....

异构服务型(video-trans系列)

适用场景:视频格式、码流转换 图像与视频内容处理 图像识别前的帧图像提取 计算:2.5 GHz主频的Intel ® Xeon ® Platinum 8269CY(Cascade Lake),睿频3.2 GHz,计算性能稳定 存储:支持的云盘类型:ESSD云盘、ESSD AutoPL云盘、ESSD...

Postman

API异步调用机制 由于图像与视频生成任务耗时较长(十几秒到数分钟不等),为避免长时间的HTTP连接等待和超时,API采用异步调用机制。整个调用过程分为两步:创建任务:调用 API 创建任务,服务会同步返回一个任务 ID(task_id)。查询结果...

AnimateAnyone 视频生成

输入图像与视频生成类型的适用关系:输入图片 按图片背景生成(即use_ref_img_bg设为true)按视频背景生成(即use_ref_img_bg设为false)全身人像 支持 支持 半身人像 支持 不推荐 说明 按视频背景生成时,需将图片中人像匹配到视频中人像...

视觉理解

通义千问VL模型可以根据您传入的图片或视频进行回答,支持单图或多图的输入,适用于图像描述、视觉问答、物体定位等多种任务。在线体验:视觉模型(北京 或 新加坡)快速开始 前提条件 已 获取 API Key 并 配置API Key到环境变量。如果通过...

工业大脑

工业大脑是基于阿里云大数据的一体化计算平台,通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集,借助语音交互、图像/视频识别、机器学习和人工智能算法,激活海量数据价值,为解决工业...

图像搜索

图像搜索服务(Image Search)是以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以图搜图的和以文搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或...

图像识别的审计事件

图像识别操作审计服务集成,您可以在操作审计中查询用户操作图像识别产生的管控事件。操作审计支持将管控事件投递到日志服务SLS的LogStore或对象存储OSS的存储空间中,满足实时审计、问题回溯分析等需求。操作审计记录了用户通过Open...

图搜使用问题

一般来说有以下几类原因:选择的OSS Bucket与图像搜索实例不在一个地域,目前支持的地域有华东2(上海)、华东1(杭州)、华北2(北京)、华南1(深圳)、亚太东南1(新加坡)、中国香港、亚太东北 1(东京)、欧洲中部 1(法兰克福)、...

AIGC设计(ArtLab)

平台集成云端Stable Diffusion、ComfyUI、Kohya等主流图像/视频生成及模型训练工具,覆盖AIGC设计全生命周期:从数据集打标、模型训练、工作流设计、应用部署与系统集成与图像/视频生成。支持账号统一管理和授权、AI绘画教育支持,以及全...

通用视频人脸融合

通用视频人脸融合只需要输入一张带融合人脸图像与一段视频,就可以将图像人脸融合进视频中。适用场景:每次合成独立完成,无通用模板场景。仅支持视频中只有一张人脸的场景。如需使用多人场景或有固定数量的视频模板,请参见 模板视频人脸...

2020年

2020-08-31 华东2(上海)已下线 2020年07月 类目名称 接口名称 功能描述 发布时间 发布地域 相关文档 人脸人体 明星识别 可以识别图像中的明星人物。2020-07-31 华东2(上海)明星识别 分割抠图 Logo分割 可以将图片中的Logo进行分离,...

API概览

RefineMask Mask精细化分割 对输入的图像与粗糙mask进行精细化处理,输出精细化mask。SegmentHDSky 天空高清分割 可以对输入图片中的天空进行像素级抠图,实现分割功能。SegmentHDCommonImage 通用高清分割 可以对图片中的主体进行分割,并...

什么是阿里云视觉智能开放平台

能力建设方向 阿里云视觉智能开放平台将围绕多个视觉领域,例如:通用、图像视频以及目标识别等类目,持续为您提供多种视觉AI能力。具体方向包括:人脸人体、文字识别、商品理解、内容审核、图像识别图像生产、分割抠图、视觉搜索、...

基本概念

例如OSS Bucket在杭州区域,同时图像搜索的实例也在杭州区域才能使用离线新增功能,如果OSS Bucket与图像搜索实例不在同一个区域则无法使用离线新增功能。离线新增是图像搜索产品提供的免费服务,且QPS远高于实时新增,所以如果您的图片...

请求结构

图像识别服务支持基于URL发送HTTP/HTTPS请求。请求参数需要包含在URL中,请求及返回结果都...公共请求参数:API接口中使用了公共请求头(Common Request Headers),该内容可以被所有的图像识别服务请求使用。详细说明请参见 公共请求参数。

OCR

使用图像识别节点,可调用云市场购买的API进行驾驶证、车牌、身份证等图像文字识别。节点配置 配置项 说明 节点名称 设置节点名称。支持中文汉字、英文字母、数字和下划线(_),长度不超过30个字符。选择能力 从下拉框中选择您需要使用的...

通用图像打标

功能描述 通用图像打标能力用于识别图像中的主体内容并打上类型标签,支持数千个内容标签,覆盖常见物体品类。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉智能开放平台有完整的免费产品体验,您可以单击 立即试用 对该...

分割抠图介绍

Mask精细化分割 对输入的图像与粗糙mask进行精细化处理,输出精细化mask。天空高清分割 可以对输入图片中的天空进行像素级抠图,实现分割功能。通用高清分割 可以对图片中的主体进行分割,并输出对应的PNG格式透明图。高清人体分割 可以...

SDK总览

图像识别 通用图像达标、元素识别、场景识别等能力。图像生产 图片上色、字幕擦除、文生图等能力。分割抠图 人体分割、头像分割、商品分割等能力。目标检测 主体检测、物体检测、猫鼠识别等能力。视频理解 镜头解析、视频OCR、视频内容理解...

图像识别

使用图像识别节点,可调用云市场购买的API进行烟雾火焰火灾、动物、植物花卉、花草树木鉴定等识别。节点配置 配置项 说明 节点名称 设置节点名称。支持中文汉字、英文字母、数字和下划线(_),长度不超过30个字符。选择能力 从下拉框中...

集成视觉智能服务

RefineMask 对输入图像与粗糙mask进行精细化处理,输出精细化mask。imageenhan 开通图像增强服务 ChangeImageSize 改变图片大小。IntelligentComposition 输入一张的图像,通过美学评估,智能输出几个bounding box,根据这些bounding box...

场景识别

功能描述 场景识别能力可以识别图像中的场景环境,支持数十种常见场景,包括:人物、动物、狗、猫、鱼、鸟、花、草地、蔬菜、植物、水果、餐厅、美食、聚餐、烧烤 物品、手机、显示器 室外、广场、建筑、游乐场、户外、公路、小河、山峰、...

图片引用

多个图像提示[图片url]+[图片url]+文本提示词 将多张图像与描述性文本结合,获得更详细的指导。使用文本提示来指定参考图像中不可见的重要细节。图像权重 如果您想更好地控制图像提示对最终图像的影响程度,可以尝试使用图像权重参数-iw。...

AI生成合成内容鉴别和标识最佳实践

内容安全方案流程图概览:所需集成和配置的API:步骤 API接口 API service配置 步骤2 ImageModeration aigcDetectorFull 视频发布场景 在平台的视频上传或者视频发布等场景,通过AIGC视频鉴别服务检测视频是否疑似为AI生成合成内容,对于...

RecognizeWaybill-电子面单识别

支持识别面单上所有关键字段。接口说明 本接口适用场景 阿里云电子面单识别,是阿里云官方自研 OCR 文字识别产品,适用于自动提取面单上的手机号进行拨打收件人号码或发短信,减少快递员拨号时间;可快速定位面单上的所需信息,提升快递...

证件照质量审核

本文介绍图像识别(imagerecog)类目下的证件照质量审核EvaluateCertificateQuality的语法及示例。功能描述 证件照质量审核能力可以识别拍摄的证件照片是否存在质量问题,且有哪些质量问题。说明 您可以进入 在线咨询 获取在线人工帮助。...

RecognizeTaxiInvoice-出租车发票识别

支持包括发票代码、发票号码、日期、发票金额等关键字段结构化识别输出。接口说明 本接口适用场景 阿里云出租车发票识别,是阿里云官方自研 OCR 文字识别产品,适用于识别出租车发票所包含的发票代码、发票号码、金额、里程等关键信息的...

RecognizeEduFormula-印刷体数学公式识别

支持印刷体的数学公式识别。接口说明 本接口适用场景 阿里云公式识别,是阿里云官方自研 OCR 文字识别产品,适用于题目录入、智能批改、作业批改等应用场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据,历经多年沉淀打磨...

RecognizeCarVinCode-车辆vin码识别

接口说明 本接口适用场景 阿里云 VIN 码识别,是阿里云官方自研 OCR 文字识别产品,适用于识别车辆上的 VIN 码,用于进行车辆质检检查、车辆登记的等场景。阿里云 OCR 产品基于阿里巴巴达摩院强大的 AI 技术及海量数据,历经多年沉淀打磨,...

城市视觉智能引擎

城市视觉智能引擎依托于阿里云分布式计算和存储平台,利用先进的视频图像、图形学处理技术和深度学习算法,建立城市级人工智能模型,实现对整个城市视觉数据(枪机、球机等摄像头数据以及遥感、卫星、无人机采集的图像数据)的接入、计算、...

垃圾分类识别

本文介绍图像识别(imagerecog)类目下的垃圾分类识别ClassifyingRubbish的语法及示例。功能描述 垃圾分类识别能力可以对图片中的物品垃圾进行分类,并给出具体的物品名称。说明 您可以进入 在线咨询 获取在线人工帮助。当前能力可在视觉...

视频智能生产

视频智能生产服务基于阿里云智能媒体AI技术,提供多种形式媒体内容处理及内容生成能力,支持智能封面、智能横转竖、绿幕抠图、人像抠图、智能图标模糊、智能去字幕、字幕提取、副歌检测、音乐节奏检测等多种媒体处理生成功能,提升媒体...

RecognizeEduOralCalculation-口算判题

可以识别小学数学口算题目并给出题目判断结果。可支持整数的加减乘除四则运算、整数的混合运算、大小比较、最大数最小数等。接口说明 本接口适用场景 阿里云口算判题识别,是阿里云官方自研 OCR 文字识别产品,适用于整数的加减乘除四则...

菜品识别

本文介绍图像识别(imagerecog)类目下的菜品识别RecognizeFood的语法及示例。服务说明 由于产品业务调整,菜品识别服务于 即日起停止新用户开通调用,历史开通过该服务的老用户可继续调用,2026年04月20日后该服务将下架,不再支持新老...

什么是智能媒体管理

其功能包括文档格式转换及编辑,图片与视频的格式转换、裁剪、拼接和压缩,以及图片与视频的内容识别、人脸检测、二维码检测和人脸搜索等。该系统适用于媒资管理、智能网盘、社交应用和图库图床等开发者使用。智能媒体管理可以结合对象存储...

元素识别

本文介绍图像识别(imagerecog)类目下的元素识别DetectImageElements的语法及示例。功能描述 元素识别能力用于识别输入图像中所包含的元素内容,用矩形框标注出其位置,并区分其对应的基本类型(人物、修饰、文案)。输入原图:输出结果图...

产品简介

离线视频分割SDK(iOS)文字离线识别 证件识别SDK(Android)支持身份证、驾驶证、行驶证正反面离线识别,可识别常用多个关键字段内容,识别精准度超过95%。证件识别SDK(iOS)车辆类识别SDK(Android)支持扫描识别中国内地所有单行车牌及...

人脸检索使用概述

检索不会返回对应的图像,您需要自行存储底库的图像与个体之间的对应关系。修改个体所属分组 如果您需要修改某个个体所属的分组,请参照以下步骤进行操作:将个体从分组中移除。关于接口的说明,请参见 移除个体组中个体。说明 从分组中...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用