【云栖干货】张磊：多维度智能内容生产初探-阿里云开发者社区

对于整个视频消费来说

内容生产一定是视频消费的源头

那么如何智能化和自动化生产内容

在今年的云栖大会上

阿里巴巴优酷高级技术专家张磊就针对这个业界普遍关注的问题进行了技术分享

以下是演讲实录：

在整个流媒体的领域，最重要的是解决两方面的内容：一是“播什么”，二是“怎么播”，这两个部分涵盖了整个流媒体领域两个关键的路径。“怎么播”涉及到相关的播放，涉及到整个链路的技术，而“播什么”是说我们的内容从何而来。在整个的行业中，特别是在流媒体的行业中，每年S级的大剧是可遇而不可求的，S级或者S级以上的大剧，每年基本上就只有一部，这个是整个行业相互争抢非常激烈的部分。同时除大剧之外很多的平台上播放的都是非独播性的内容，这样会造成两个问题：一是内容的同质化非常严重，二是用户没有相关的黏度。还有一部分，相对OGC的长视频和长内容，现在更多是短视频的爆发，短视频因为内容碎片化，能够满足用户各种各样的需求，是符合用户整个的观看和消费情况的。

那么，我们能不能通过技术、智能化、自动化的手段来把我们已经有的内容重新打散、重新分类、重新生产？这里就会涵盖很多相关的技术或者相关业务的推进。比如拆条。我们怎么能够从已有的OGC或者PGC里拿到我们关心或者精彩的片断呢？另外还有在一些精彩片断里，我们怎么自动化能够产生精彩封面？

为了解决这个问题，我们做了米兰智云这样一个智能化内容生产和服务的平台，它的目标就是要基于视频的理解来进行智能内容的编辑和生产。这样不但解决了内容的同质化，可以从更多的维度生产内容，同时满足了用户在碎片化时间消费的体验。举个非常简单的例子，有一个非常火爆的电影《速度与激情》，在座的男同学们一定特别关注动作片，但是在座的女同学并不一定会非常喜欢相关的内容，因为它太暴力、太动作化了，但是这样的内容里同样还包含着温情、爱情，如果把相关的内容通过理解的方式来拆出来，是不是也可以触达不同的用户群体呢？同样，这段时间特别火的宫廷剧等等，我们也可以推送可以触达他们心里的内容，通过多维度就可以把它打散，然后自组织，这样就可以满足不同用户的需求。

这是米兰的整个自动化处理流程，它的实现过程比较简单，就是获取内容、视频、音频、图片、文字以及相关联系，比如弹幕及用户的播放行为等数据，然后做整体的梳理和分析。基于这样的分析和处理，就可以得到我们要裁剪的时间点、时间节奏等信息，然后就可以通过后台进行自动化处理，最后进入到分发平台以及推送给用户可以去消费的平台。

一年来我们不断演进这样的系统，从一开始的很简单的模型，到后面真正能把它做到产业化，真正能把它做到大规模使用的程度。

这个是米兰的架构能量圈，从这里可以看到大家看似比较简单的一个能力，比如刚才提到的如何去做相关短视频的拆解，如何拆条，如何得到一个封面，如何得到一个精彩的片断，但是在能力背后整个涵盖的技术架构是非常丰富的。它的底层涵盖了图象处理、视频处理、音频处理等等各种基础的技术和相关的基础框架。

为什么要涵盖这些东西呢？因为整个在视频里有非常多的场景，有非常多的对象，有非常多我们能够引申出来的东西，甚至我们做场景的时候，以前叫眼见为实，现在因为有很多方面的东西，我们并不一定是可以达到这样的目的，所以我们要综合起来，各种各样相应的技术维度才能够达到。基于以上的东西，我们就来做人物、情节、物体等的分析，然后形成整个视频的生产链路。下面相当于是一个基础的技术组件，而上面是承接了整个基础件的服务链路，最上面是能够面向于用户需求的，面向于产品落地方面的东西。

因为涉及到内容的生产，涉及到相关内容的分析，我们也希望在整个过程中，不光是生产出来内容，同时要把内容的评价做到位，所以这是一套相关的体系化的结构。

接下来，我要讲几个相关的关键技术：

第一个是场景检测。什么是场景检测？如果大家看一个视频的时候有一个镜头，一个镜头一般讲述的是一个比较完整的叙事环节，在这样一个叙事的环节当中才是完整的，换句话说，我们今天拆出来的任何精彩片断，都需要给用户一个完整故事的分享，哪怕是一个稍微完整故事的分享。所以场景的检测就是判断哪些部分是同一场景，哪些部分是不同场景，这部分是在做整个内容生产过程中非常关键的部分。如果我们这个关键点没有检测到或者没有精确地发现并且裁切地很好的话，就会导致一个问题，这个场景过了或者说这个场景不够，那么用户在理解整个片断的时候会产生非常大的歧义，然后会影响用户观看的体验。做这件事情的目的不是为了炫技，是为了做到内容的千人千面，是为了提升每个用户对于内容的理解和对于内容的喜好。所以在这部分，也是用到了一些非常基础的技术，比如说场景有转场的情况，我们如何检测到，又如何把它承接起来，这部分就要通过一些传统的视觉检测的方法，包括分场景的差异性。同样我们也引入了很多现有的包括机器学习、人工智能的一些聚类和分类的方法，唯一的目的就是通过这样的一套技术方案，使得场景检测做到更加精细。

第二，视频图象处理。这部分相对而言是比较传统的，就是整个要做视频和图像的进一步增强或者相关的图象处理。为什么要做这部分？是因为我们今天要达到不同的目的。大家都知道在消费的过程中，今天最火的是什么？美颜、美肤、美图等等，这些效果给每个用户所呈现出来的就是唯一性，他自己的独特感，他所体现出来的是用户自己个性的呈现。那么，我们通过这样的后处理方式，同样也会把我们裁剪出来的片断处理成可以体现你自己个性MV的效果。因为这些片断不光是为用户消费的，我们也希望它能够进行传播、分享，它能够让更多人感受出来你对于美、你对于内容的自己的独特认识。所以说包括相关的特效，包括风格化，通过风格化的处理就更有这样的感知。另外，大家知道风格化计算量是非常大的，经过我们不断的努力，这部分的效率目前已经提升了将近10倍。

第三，弹幕分析。我不知道在座有多少同学看电影的时候是一定要开弹幕的，弹幕这件事情已经成为了新生代、二次元、B站的选择，弹幕起到了解读、关注重点的作用，也是人们情绪的展现，我们把弹幕作为了一个非常重要的节点信息，通过这样我们才知道整个比较长的视频里，哪些是用户所关注的，哪些是用户希望有共鸣的。我们经常在长视频里可能会看到，比如说前一段时间非常火的《延禧攻略》，为什么谁还不去死？这在弹幕里一定有这样的反馈，这就是重点的片断或者说心声的体现，通过这样自动化的分析，我们就把弹幕和自动化的生产绑在了一起，因为它一定是一类人的共鸣。首先我们是做到文本的分析，这是基础，基于文本分析和关键词数量的匹配，我们来找到相关的重点部分以及相关重点的词汇，作为一个关键词来进行后续的处理。通过验证，基于弹幕的拆条，用户的直接反馈是非常强的。

第四，内容评价。所谓的内容评价，我们也在探讨中。做视频或者图像的应该都知道，现在传统的评价有PSNR或者SSM，这是对视频包括图像是一个非常客观的评估标准。但是这个评估标准并不能评估这项内容是不是能够符合真正用户的习惯。在这项内容里，其实它还有很多相关的其他因素，这就是和人眼视觉、和你的情绪以及用户的喜好有联系。现在更多是主观的评分，但是是不是能够打造出来一个客观的评价标准，我觉得不管是在内容生产还是从用户的角度上来讲，来跟内容建立一套非常紧密的关系是非常重要的。所以我们现在也在这方面做相关的尝试，希望后面我们能够成为一套比较客观的评估标准，来指导后续整个内容生产的结果。

经过努力，我们相关的业务和相关的产品也已经覆盖到了包括集团，包括站外的一些业务方，大家都会把这件事情作为我们增强多维度内容的一个非常必要的业务手段。

内容供给成本是非常重要的，比如说精彩的瞬间或者说精彩的片断，之前更多是运营同学人工进行筛选。从智能化内容生产的这部分来讲，我们一定要达到两个重要的目的，第一个是使用刚才的那些技术，要达到它的精确性、多样化和多维度，而另外一方面更重要的是成本。现在人力的成本越来越贵了，饭馆招聘切菜工都是要月薪5000元，还包吃包住，稍有一些技术含量的人，人工成本一定会再增加。但是人的情绪、喜好还是不一样的，所以说你生产出来的不一定符合所有用户的需求，在这里面我们经过评估，机器7×24小时不睡觉为我们服务，没有经过特别优化的时候，我们智能供给比人工供给的效率都提升了几倍。

我从优酷的角度出发，来举例说明一下。我希望在场的各位如果没有安装优酷，就下载一个优酷的最新版，今天我们这场云栖大会分论坛的直播，在优酷上我们也有智能的外挂字幕，只有在优酷最新版上才能看到，大家可以等会去下载。回过头来讲，优酷有智能拆条、封面打标内容的透出，对于整个用户的拉动也是做了非常多的业务贡献。特别是封面的部分，因为通过封面，就像刚才首先提到的一样，它才能吸引人，它才能知道你有点击的欲望，所以封面在真实的业务场景里是非常重要的一个部分。这部分已经成为了一个开放平台，给更多的业务方提供相关的服务。

这里是我们不同维度的拆条，从人的角度、从场景的角度、从各个文本、从用户行为分析的角度，各个部分都涵盖，我们也会在这个基础之上不断增加更多的维度。

现有的封面，很多都是直接选取其中的一帧来当封面，这是最传统的做法。但是经过我们这套机器化的处理，不光我们能够截取关键的一帧来当封面，而且更重要的是能够把我们刚才所有重点的因素融合在一起，今天可以自动拼接出主角、死对头以及相关重要的场景，给人更加直观和直接的感受，从而提升用户的点击率。

【云栖干货】张磊：多维度智能内容生产初探

阿里文娱技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景