阿里巴巴iDST+阿里视频云:计算机视觉和机器学习在消费级视频中的应用

简介: 本文邀请iDST高级算法专家刘扬,将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分,来介绍iDST在视频领域的技术和在视频云上的工作成果。

在刚刚圆满落幕的杭州云栖大会上,阿里巴巴董事局主席马云宣布成立达摩院,并将在3年内投资1000亿人民币用于新技术研发。而iDST就是达摩院中的一员,她致力于打造涵盖图像视频、语音交互、自然语言理解、智能决策等人工智能核心技术,肩负着在人工智能领域树立阿里巴巴集团世界领先的技术品牌使命。

那iDST的人工智能技术与阿里视频云强强联合,将碰撞出怎样的科技火花呢?

本文邀请iDST高级算法专家刘扬,将从视频云和人工智能技术结合的由来、消费级视频的特点、iDST视频AI技术进展、iDST的VENUS视频分析平台、视频云+人工智能未来展望五个部分,来介绍iDST在视频领域的技术和在视频云上的工作成果。

6_1

视频云和人工智能结合的由来

视频AI是由几方面因素组成。最底层是云计算平台,它包括存储、海量视频的分布式计算和流媒体处理能力,这是基础。中间层是人工智能技术,包含了不同的人工智能处理模块,有机器学习、模式识别、计算机视觉等,来为云端存储的视频提供多种分析和理解服务。上层就是数据,数据来源于两个方面,一方面是媒体数据,也就是实际要处理的媒资(介质),比如广播电视、视频网站、短视频、视频直播等,另一方面是海量用户数据,比如直播主播、视频网站用户、短视频达人、新闻从业者等。

这上中下三层整个支撑了视频AI的整个系统,每一层都不可或缺。这里面数据是最为重要的一层,因为所有云计算和视频AI处理的能力,阿里云都可以提供,而在垂直细分市场中,真正能构建行业壁垒和竞争优势的,就是数据。

在视频领域,数据就是视频本身,那消费级视频拥有什么特点呢?

消费级视频的生命周期及演变

消费级视频区别于监控视频、医疗视频、航天视频、测绘视频等专业领域视频,它是用来娱乐大众和被观众消费的视频,我们日常生活中常见的娱乐综艺、影视剧、直播、短视频都属于消费级视频。它的整个生命周期分为四个阶段,第一阶段是生成,视频拍摄和录制,第二阶段是编辑,用户或者平台方进行视频处理和制作,第三阶段是视频通过不同的方式和渠道分发到用户手中,第四阶段是用户对视频进行消费。

随着网络的发展和短视频的兴起,视频的再次编辑->再次分发->再次消费已经成为了流行趋势。比如经常在短视频平台上,看到了热门影视剧中的片段,它经过编辑处理可以在短视频平台上再次分发。

6_2

随着时代的发展,消费级视频的生命周期也发生了很大变化。

生产阶段,视频从以往的专业设备拍摄,变成了如今的手机终端随时随地的采集;
编辑阶段,以往视频编辑是由专业人员进行剪辑,而如今视频编辑的概念演变成了美颜、滤镜等特效,降低了门槛,用户可以自由编辑;
分发阶段,从最初的电视节目逐渐演变成了视频网站的定向搜索观看,到如今十分普遍的APP feed流模式和个性化推荐;
体验阶段,从以往的纯粹看,到现在的与视频交互(包括电商、互动游戏、广告等等)。

由此可见,在视频的不同生命周期内,人工智能技术的应用也有所不同。接下来我们一起看看阿里巴巴iDST在视频领域研究的一些进展。

视频人工智能技术三大领域:视频理解、视频搜索、视频编辑

这三点是人工智能在视频云方面应用最广泛的三个领域,我们将从这三个方面详细阐述。

第一,视频内容理解技术

我们先了解下视频的内容怎么定义。
通常情况下我们认为,视频是图像序列。但是视频不仅仅只有视觉画面,视频还包含声音。声音又分为语音和音频两种,语音我们可以通过技术转换成文本,而音频是能表达出特定场景的寓意。另外视频还有运动,物体的运动信息,它能够对于视频中的行为类的内容有强有力的表现形式。所以我们认为,视频内容分析实际上就是对视频中多模态信息分析的过程,理解视频,其实就是理解这些多模态信息。

我们可以把视频内容简单地分为两类:一类是具有具象意义的内容,例如人、物体、场景、事件;另一类是抽象意义的内容:主题、情感等。

对于视频内容的理解,我们会将视频表现成有物理意义的标签。这个标签可以是不同粒度的,比如video-level的,整个视频的类目是新闻、体育,还是财经。再或者clip-level比如视频中的一个片段,是武打、亲吻还是赛车。甚至可以把标签定位到视频的某一帧上,即frame-level的。

6_3

图中绿色文字就是为视频打标签的技术手段,包括视频分类、语音识别、人物识别、OCR、物体识别、场景识别。

那在视频内容理解这一领域,人工智能+视频都做了什么?

  • 视频分类

在ACM MM‘17大规模视频分类竞赛中,阿里巴巴iDST团队平均准确率(mAP)达到87.41%,获得冠军。而在竞赛中,借助于阿里云ODPS,提取视频关键特征,我们可以实现大规模的视频分析处理能力,日处理规模为百万视频。

6_4

  • 视频多模态分析

下图包括OCR,它可以对视频中出现的文字进行识别;ASR,能够对视频的语音转文本,可以为视频实时加字幕。

  • 视频物体识别与定位

左边那幅图是物体识别,对应到技术上就是图像分类,识别出视频帧中包括什么物体,场景等;中间是云上的物体检测,右图是端上的物体检测,不只能识别视频中的物体是什么,还能定位到物体在哪里。目前,已经支持1000+物体的检测和5000+物体的识别,已经被广泛应用在云相册和优酷土豆的视频打标上。

6_5

  • 目标跟踪

在物体检测后,就是目标跟踪的过程。视频本身是有时域信息的,通过目标跟踪,我们可以准确地知道物体的生命周期,可以精确分割出物体的时域片段。比如在淘宝商家上传视频的过程中,会自动检测视频中的商品并跟踪,在前段展示的时候,用户感兴趣的话,可以点击锚点,直接进入商品页。

  • 事件、行为、动作、场景识别

其实在iDST的视频分析系统中,这四块技术的整体框架是相同的。对于任意一段长视频,我们都可以精确到视频中的每一分每一秒,给其中的事件或动作打上标签,并且对舆情进行分析。

  • 视频同款商品检索

iDST从15年开始做视频电商研究。之前如果在视频中搜同款,我们需要在视频中进行采帧,采帧之后对每一帧图像中检测到的物体进行检索。在连续的镜头中,同一件物体,由于演员动作、遮挡、形变等客观因素干扰,相同物体的搜索结果相差很大。为了提高搜索准确度,我们对同一件物体进行跟踪,通过LSTM在时域对物体序列进行encoding,来进行检索。

6_6

  • 个性化商品投放

这个能力已经落地在天猫魔盒第一版边看边淘项目中,它可以打通观看视频的用户、视频本身内容、淘宝上的商品之间的关系,它就会在最合适的视频片段里投放用户最感兴趣的商品。

第二,视频搜索技术

我们把视频搜索技术分成三块,一块是音视频指纹,主要用于相同视频检索;另一块是视频相似性,找的是相似的视频;还有一块是跨媒体检索,主要用于多类型query视频检索。

6_7

视频指纹技术的应用场景其实比较多,本身就是找同源视频。什么是同源视频?我们在视频网站上看到的,有的视频加了片头、片尾、边框、翻转、码率和格式的转换等,这些都是同源视频。目前,同源视频在检索速度可以达到40:1。视频相似性,通过视频向量的特征来度量不同视频之间的相似性,这个功能主要被应用在视频搜索和视频推荐中。跨媒体视频搜索,通过检索文本、语音、图像和视频片段等标签,在统一特征空间里找到对应的视频。

第三,视频编辑技术

从技术角度来说,视频编辑就是结构化分析。通过视频帧和帧之间的相似性和其他方法对视频进行不同粒度的分解。最细粒度就是帧,再往上一层是镜头,进一步就是场景。

在这个视频结构化分析的基础上,我们会对视频进行编辑,一些编辑应用可以体现在几个方面:封面图,打破传统的视频网站和APP用海报做封面图的模式,利用人工智能去选取最好的一张封面图,吸引用户的点击,这点已经在视频云客户、淘系、阿里大文娱产品中应用;GIF动图,对视频中的帧做成GIF动图,便于编辑快速浏览视频内容,对视频进行打标管理,提高运营效率;Highlight和摘要,对视频中的关键信息、吸引人的片段进行自动提取,比如三分钟看大片或者动态镜头展示;拆条,它的应用包括新闻拆条,新闻联播的视频拆成独立事件,另外一种是UGC或者娱乐视频,拆成片段,为短视频APP提供一些资源,进行再分发;特效就是对人物进行美颜、滤镜,包括专场处理等等。

6_8

VENUS视频服务平台

VENUS是由阿里巴巴iDST和阿里视频云一同打造的视频服务平台,这是一个智能分析与计算平台,通过国际权威的冠军技术,打造以视频为入口的平台服务。

视频内容理解服务

产品功能分为:视频分类、语音转字幕、人物识别、文本识别,泛标签提取,应用场景包括媒资管理,视频分发,广告投放,视频电商等。依托于iDST强大的科研实力,视频内容理解服务具备很多核心优势,其中包括刚刚前文讲到的多模态分析,还有完善的标签体系和稳定成熟的应用。因为阿里大文娱和淘系的强大的视频生态环境,资源非常丰富,类目体系完备,所以服务的场景可以涵盖电商、娱乐、短视频、长视频版权剧等等。同时,我们目前视频内容理解服务以及广泛应用在优酷、土豆、UC、闲鱼和手淘视频内容上,所以在集团内部经过了大量的、长期的验证之后,对外推出的服务一定是非常稳定成熟的。

6_9

视频指纹服务

这个服务目前是相对来说比较成熟的服务,业务场景非常明确,包括用于视频去重业务场景,版权保护和原创认证(防止侵权,鼓励PGC原创性,分成系统),安全审核(通过黑名单库来做视频安全审核)。目前视频指纹技术的优势在于能够多场景适配(格式、分辨率),对不同分辨率的同源视频具备很好的识别能力,并可以根据业务方需求进行秒级的实时扩展,另外,因为在特征选取上做了很多的深入研究,视频指纹的精确度也非常高。

视频智能编辑服务

涵盖了智能封面图、视频摘要、视频Highlight、GIF、视频切换化等多项产品功能,等你上传了一个视频后,你的所有编辑需求都可以一次性搞定。这里智能封面图也支持根据用户信息的实时反馈和行为日志,实现个性化的首图投放,也可以根据类目,进行首图自适应选取,加强用户体验。另外,智能首图技术不仅仅是基于视觉的处理,本身的模型是通过海量的用户行为日志来做的,我们会分析和提取用户点击率高的视频首图的共性,用这些信息指导模型的学习,所以,模型基于大数据生成的,可以提高用户的观看时长,减少搜索复杂度。

视频AI技术展望

阿里巴巴iDST高级算法技术专家刘扬认为:视频中的电商和广告是一个方向,用户最终是想实现流量变现。所以,未来我们需要在不打扰用户体验的情况下,进行视频电商和广告的尝试。另外,在未来,视频的流量分发也十分重要,平台方需要通过多种维度分析把最合适的视频推给最需要的人,视频AI技术在里面可以起到很大的作用,这是我们的研究方向。最后,视频编辑中版权素材库认证、版权追诉、版权交易的业务,以及视频交互编辑的体验,都是有非常大的前景的。人工智能技术在视频AI领域能够发挥的最大作用就是极大提高工作效率,节省人工成本和计算成本。

我们都知道视频是极耗资源的,视频平台是否能做到海量的视频分析,在最短的实际内高效进行视频处理,并且低成本的稳定运维,这三点极其重要。利用阿里巴巴iDST和阿里云视频云能力强大的技术实力,VENUS视频服务平台可以轻松做到以上几点,帮助客户更好的进行视频内容理解和分析,在消费级视频中更全面的应用计算机视觉和机器学习技术,达到高效工作的目的。

目录
相关文章
|
1天前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习在图像识别中的应用
【5月更文挑战第1天】 随着人工智能技术的飞速发展,机器学习已成为其最活跃的分支之一。特别是在图像识别领域,机器学习技术已展现出强大的能力与广泛的应用前景。本文将深入探讨机器学习在图像识别中的关键作用,从基础原理到实际应用案例,剖析其背后的算法和模型。同时,我们将讨论当前面临的挑战和未来的发展趋势,为读者提供一个全景式的技术分享。
8 3
|
1天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在金融欺诈检测中的应用
【4月更文挑战第30天】 随着金融科技的迅猛发展,机器学习技术在金融行业中的应用变得日益广泛。特别是在金融欺诈检测领域,机器学习以其强大的数据处理能力和智能识别功能,正逐渐成为防范和打击金融欺诈的重要工具。本文将深入探讨机器学习在金融欺诈检测中的关键作用,分析其优势及面临的挑战,并提出未来发展趋势。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战探索机器学习中的自然语言处理技术
【4月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已经成为计算机视觉领域的核心动力。本文将探讨深度学习在图像识别任务中的关键技术、应用实例以及面临的主要挑战。我们将重点讨论卷积神经网络(CNN)的架构优化、数据增强技术以及迁移学习的策略,并通过具体案例分析其在医疗影像、自动驾驶和面部识别等领域的应用成效。同时,我们也将指出当前模型泛化能力不足、对抗性攻击以及算力资源需求等挑战,并提出潜在的解决方向。 【4月更文挑战第30天】 在人工智能领域,自然语言处理(NLP)是赋予机器理解和响应人类语言能力的关键技术。本文将深入探讨NLP的发展历程、核心技术及其在不同领域的应用案例。我们将从
|
1天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
1天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
1天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。
|
1天前
|
机器学习/深度学习 自然语言处理 PyTorch
【Python 机器学习专栏】自然语言处理中的深度学习应用
【4月更文挑战第30天】本文探讨了深度学习在自然语言处理(NLP)中的应用,包括文本分类、情感分析和机器翻译等任务。深度学习的优势在于自动特征学习、强大的表达能力和处理大规模数据的能力。常见模型如RNN、LSTM、GRU、CNN和注意力机制在NLP中发挥作用。Python的TensorFlow、PyTorch、NLTK和SpaCy等工具支持NLP研究。然而,数据稀缺、模型解释性和计算资源需求高等挑战仍待解决。随着技术进步,未来深度学习将进一步推动NLP发展,实现更智能的语言交互。
|
1天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
1天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】文本分类的机器学习应用
【4月更文挑战第30天】文本分类是机器学习中的关键应用,涉及文本预处理、特征提取和模型训练等步骤。常见方法包括基于规则、关键词和机器学习(如朴素贝叶斯、SVM、深度学习)。Python中可使用scikit-learn进行文本分类,例如通过TF-IDF和朴素贝叶斯对新闻数据集进行处理。随着技术发展,未来将深入研究深度学习在文本分类中的应用及多模态数据的利用。
|
1天前
|
机器学习/深度学习 算法 UED
【Python 机器学习专栏】A/B 测试在机器学习项目中的应用
【4月更文挑战第30天】A/B测试在数据驱动的机器学习项目中扮演关键角色,用于评估模型性能、算法改进和特征选择。通过定义目标、划分群组、实施处理、收集数据和分析结果,A/B测试能帮助优化模型和用户体验。Python提供工具如pandas和scipy.stats支持实验实施与分析。注意样本量、随机性、时间因素和多变量分析,确保测试有效性。A/B测试助力于持续改进机器学习项目,实现更好的成果。

热门文章

最新文章