视频识别-视频识别文档介绍内容-移动阿里云

2021年

2021-08-31华东2（上海）IPC视频目标检测2021年07月类目名称接口名称功能描述发布时间发布地域相关文档文字识别增值税发票卷票识别支持对卷票上包括价税合计、发票...

概述

视频检测防欺诈：识别视频中的欺诈行为。图片信息识别：识别身份证号码、姓名、有效期等信息。用户回答检测：离线识别用户的回答内容。离线AI能力：支持在离线无网状态下...

功能概览

视频检测防欺诈：识别视频中的欺诈行为。图片信息识别：识别身份证号码、姓名、有效期等信息。用户回答检测：离线识别用户的回答内容。离线AI能力：支持在离线无网状态下...

概述

视频检测防欺诈：识别视频中的欺诈行为。端云协同检测：支持云端对视频进行事后检测，扩展检测场景。检测能力本地上传视频检测能力人脸采集检测和采集视频中的所有...

智能生产接口参数补充说明

如果不填该参数，默认识别视频底部1/4区域。格式：[[top,bottom],[left,right]]。默认：无。sep Boolean否是否中英文分离输出两个srt文件，可选，默认False。formatter String否srt...

2020年

2020-12-31华东2（上海）证件照质量审核视频生产视频SDR调色基于内容语义识别与内容颜色，自动优化SDR视频的颜色，提升视频色彩质量。2020-12-31华东2（上海）视频SDR调色...

人脸人体介绍

动作行为识别识别视频和图像中的人体动作行为，并返回识别后的行为类别。当前可以识别的行为类别包括：举手、吃喝、吸烟、打电话、玩手机、趴桌睡觉、跌倒。人体计数识别...

创建工作流

视频DNA用来唯一标记一个视频，实现对视频中的图像、音频等指纹特征的提取和比对，解决重复视频查找、视频片段查源、原创识别等问题。智能封面通过对视频内容的理解，...

工作流活动介绍

视频DNA FpShot用来唯一标记一个视频，实现对视频中的图像、音频等指纹特征的提取和比对，解决重复视频查找、视频片段查源、原创识别等问题。智能封面Cover通过对视频...

SubmitIProductionJob-提交智能生产任务

不传此值，默认识别视频底部1/4区域。lang：识别语言，ch（中文）、en（英文），ch_ml（中英混合）。默认ch。track：如果传"main"，表示只提取主字幕轨道。不传时，默认提取区域内...

【收费通知】智能生产服务收费通知

公测结束时间2024年1月19日正式收费时间2024年1月20日功能介绍功能服务名称说明图片图标模糊ImageDelogo识别视频中的Logo图标位置，并对图标进行模糊处理，恢复视频未...

智能擦除

图标擦除通过系统内置图标库智能识别视频中的图标，例如：电视台台标、互联网平台Logo标志等，对图标进行擦除处理并对画面进行智能填充，恢复视频未添加图标的原始状态...

文字识别介绍

视频文字识别可以实现对输入视频的结构化处理，返回对应的文字内容、文字区域坐标及时间等信息。车辆交通类识别驾驶证识别识别驾驶证首页和副页关键字段内容，包括：...

静态手势识别

应用场景互动娱乐：异地通过远程视频，识别双方各自的手势，完成类似点赞等远程互动游戏。电视遥控：当看电视找不到遥控器时，通过简单手势即可控制电视播放，简单又方便...

车辆类识别SDK

支持以视频流形式扫描识别中国内地所有单行车牌及VIN码。说明阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或问题咨询等，请通过钉钉群（23109592）加入...

通用文字识别SDK

在离线环境下，支持在Android或iOS设备端实现通用文字的离线识别，包体小，可达到秒级识别速度。说明阿里云视觉智能开放平台各类目视觉AI能力SDK接入、接口使用或...

语音识别

语音识别（Automatic Speech Recognition，ASR）可以将音视频中包含的人类声音转换为文本。适用于会议记录、客户服务、媒体制作、市场研究及多样化的实时交互场景，能显著提升...

录音文件识别API详情

paraformer-v 1 Paraformer中英文语音识别模型，支持16 kHz及以上采样率的音频或视频语音识别。paraformer-8 k-v 1 Paraformer中文语音识别模型，支持8 kHz电话语音识别。...

录音文件识别API详情

paraformer-mtl-v 1 Paraformer多语言语音识别模型，支持16 kHz及以上采样率的音频或视频语音识别。支持的语种/方言包括：中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃...

视频AI费用

说明需要开启的识别功能可以在智能标签任务模板中的分析类型中进行配置：分析类型中开启人脸识别、文字识别、语音识别分别对应视频人脸识别、视频文字识别标签、视频...

支持识别的OSS文件类型

本文介绍数据安全中心（DSC）支持识别的OSS文件类型。序号文件类型序号文件类型1 C、C++源代码85 Tokyo Cabinet数据库文件2 Lua源代码86 X 3D(Extensible 3D)Model XML文件3...

Paraformer语音识别热词定制与管理

paraformer-mtl-v 1 Paraformer多语言语音识别模型，支持16 kHz及以上采样率的音频或视频语音识别。支持的语种/方言包括：中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃...

Paraformer语音识别热词定制与管理

paraformer-mtl-v 1 Paraformer多语言语音识别模型，支持16 kHz及以上采样率的音频或视频语音识别。支持的语种/方言包括：中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃...

离线人脸识别SDK

阿里云实人认证提供离线人脸识别SDK，帮助您实现在弱网或离网环境下的人脸识别。说明离线人脸识别SDK的实际应用效果与硬件配置和设备所处环境密切相关，目前只...

GetMediaDNAResult-获取视频DNA结果

VideoDNA array object视频DNA识别结果。object PrimaryKey string相似视频ID。6 ad 8987 da 46 f 4 b*490 ce 2873745 Similarity string视频相似度。相似度1是指相似度100%。0.98 Detail...

视频AI参数说明

视频DNA结果AIMediaDNAResult名称类型必填项取值VideoDNA VideoDNA[]否视频DNA识别结果。VideoDNA名称类型必填项取值PrimaryKey String是相似视频ID。Similarity String是视频...

GetVideo-获取一个视频的信息

AdminGroup/AdminUserA/VideoFacesFailReason string视频人脸识别的失败原因。Timeout RemarksB string标记信息。nas:/path/to/file VideoFacesStatus string视频人脸识别的状态。Success...

公众人物识别

视频图片检索：对公众人物有关的视频图片内容进行识别并设置标签，用户可以通过公众人物姓名等检索查找出与其有关的视频和图片。特色优势能够准确识别出图像中的...

支持识别的行业模板

信息S 4通话记录S 4视频记录交通安全管控类数据S 2道路交通前方拥堵提醒S 2交通事故实时提醒数据S 3碰撞预警数据S 4道路交通车辆远程监控数据车辆后市场服务类...

功能简介

云导播依托阿里云的视频直播、媒体处理服务，对传统视频生产工具进行云端再造，融合视频AI识别、双语翻译、多种互动能力，进行视频导播效果创新，支持动态标签，ET双语字幕，...

实时视频分割SDK

基于深度学习框架，结合检测识别技术，实现高精视觉分割能力，可实现实时全自动主体、场景像素级识别，对高度镂空主体、复杂背景等场景都有较好的效果。说明阿里云...

同步敏感识别任务扫描结果的敏感等级标签至OSS文件_... | 同步敏感等级标签至OSS文件

OSS支持通过Bucket文件标签授予不同RAM用户不同访问权限，实现OSS文件访问控制。数据安全中心DSC（Data Security Center）提供OSS同步配置功能，可以将敏感识别...}操作示例视频

Windows

音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK为用户提供识别结果。更多信息，请参见智能语音交互。方案架构图调用时序图接口...

API说明

setCustomDetect设置用户自定义视频人脸识别回调。setCustomFilter设置用户自定义视频美颜回调。setCustomAudioFilter设置用户自定义音频处理回调。getCurrentStatus获取当前状态。...

直播推流接口说明

setCustomDetect设置用户自定义视频人脸识别回调。setCustomFilter设置用户自定义视频美颜回调。setCustomAudioFilter设置用户自定义音频处理回调。getCurrentStatus获取当前状态。...

SubmitVideoTranslationJob-提交视频翻译任务

字幕翻译配置TextSource：字幕来源，取值范围：OCR：翻译字幕来源视频中OCR识别，不填默认为此值SubtitleFile：翻译字幕来源于传入的字幕文件OcrArea：OCR识别区域，如不填，...

Android

音频识别SDK将音频数据发送至音频识别服务进行实时语音处理并返回识别结果。音频识别SDK为用户提供识别结果。更多信息，请参见智能语音交互。方案架构图调用时序图接口...

视频分割介绍

应用场景视频分割的应用场景如下：人体特效视频直播过程中，识别用户的人体轮廓，为人像实时增加各种设定的背景特效、贴纸道具，提供更加丰富的娱乐体验。影视后期处理...

录音文件识别API详情

SenseVoice语音识别说明支持的领域/任务：audio（音频）/asr（语音识别）模型介绍SenseVoice语音识别提供的文件转写API，能够对常见的音频或音视频文件进行语音识别，并将...

视频DNA

您可以使用视频DNA服务提取并比对视频中的图像、音频等指纹特征，解决重复视频查找、视频片段查源等问题，适用于原创识别、视频查重、快速审核、广告分成、视频溯源等...