如何选择和使用视频质量客观评价指标

简介: “视频质量评定是个大坑”,正如北京大学信息工程学院教授王荣刚所说。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


“视频质量评定是个大坑”,正如北京大学信息工程学院教授王荣刚所说。尽管可以通过火眼金睛的“专家”来主观评价(一种观点认为主观评价要由于客观评价,毕竟视频给人看的),但对于Netflix、爱奇艺这样每日新增海量视频的平台而言,主观评价是行不通了。那么,如何选择视频质量客观评价指标就很关键了。本文来自streaming media首席分析师Jan Ozer,详细介绍了市面上主流的视频质量客观评价指标(工具),并给出了自己的建议,点击『阅读原文』访问原文。


LiveVideoStack对本文进行了摘译,感谢朱政和金山视频云团队对本文进行了技术审校。关于视频质量评价,本文抛了“砖”,如果你有相关实践或洞察,欢迎联系 contribute@livevideostack.com。


文 / Jan Ozer

译 / 王鸿蒙

技术审校 / 金山视频云团队


无论您是否知道,您观看的许多视频其实都是使用视频质量评价指标来优化的。哦,您不同意?那您最近看过Netflix吗?在过去两年多的时间里,Netflix的编码阶梯已经由公司的视频多方法评估融合(VMAF)的体系来驱动,然而在此之前使用的是峰值信噪比(PSNR)。您不是Netflix的客户?那么,YouTube呢? YouTube使用基于恒定码率因子(CRF)编码的神经网络,该编码本身也是由其内部的视频质量评价指标来驱动的。

 

简而言之,视频质量评价指标试图从观众的主观视角出发来预测特定视频的评分,并基于预测的准确性来衡量评价指标本身的好坏。当然,还有很多纯粹主义者坚持认为主观比较是衡量视频质量的唯一有效方法,确实,正确执行主观测试才是黄金标准。


但是,如果您考虑到每分钟都会有400小时的视频上传到YouTube,则可以理解该服务非常需要尽可能高效地对这些视频流进行编码,并且完全无法通过部署人员来实现这一点。即使是Netflix,2017年的新内容中的很小一部分——1000小时,也无法用人眼来为每个视频创建定制的编码阶梯。对于上述两家公司和其他大多数公司而言,使用客观的质量评价指标才是最主要的方式。


最重要的是,如果您负责本公司的编码工作,而没有使用视频质量客观评价指标来开展工作,那么您就落伍了。幸运的是,您开始阅读这篇文章了。在本文中,我将概述有哪些视频质量度量标准及其工作原理,向您介绍应用这些度量标准的最常用工具,并告诉您如何根据需要选择最佳度量标准和工具。

 

指标测量什么(如何测量)


您可能已经听说过PSNR、结构相似性指数(SSIM)等评价指标,甚至可能还听说过Netflix的VMAF。 要理解这些指标的不同之处,就要理解每种指标是如何产生的,以及各自的作用。

 

基于误差的评价指标


第一类评价指标是基于误差的。 他们将压缩图像与原始图像进行比较,并创建一个数学上代表两个图像之间差异的评分,也称为噪声或误差。PSNR比率就是一个很好的例子。 基于这种方法的评价指标很简单,而且容易计算,但是该评分通常与主观评分不相关,因为人眼和机器对误差的认识毕竟不同。

 

举例来说,我曾经测试过一个编码工具,其输出文件的PSNR得分令人沮丧。 我多次播放了压缩后的视频,但找不出原因。 然后,我将编码的图像与原始图像进行比较后发现,其实是一个轻微的颜色变化导致了较低的分数。在实时回放时,由于没有与原始视频的比较,没有观众会注意到这种转变,所以在这种情况下,与主观检验相比,PSNR其实是一个不够好的预测。

 

那么为什么包括Netflix和Mozilla(与AV1编解码器有关)在内的公司还要继续发布PSNR结果呢? 首先,因为它是最著名的评价指标,所以其得分很容易被大家所理解。 其次,尽管PSNR是个旧的评价指标,它仍然会在很多情况下提供非常有用的数据参考,我将在下面讨论其中的部分细节。

 

基于感知的模型

 

在更高的层次上,像SSIM这样的基于感知的模型,试图引入人类如何视觉感知错误或者说“人类视觉系统模型”,以更准确地预测人类如何评价视频。例如,根据维基百科,PSNR估计绝对误差,而“SSIM是一种基于感知的模型,将图像质量的下降考虑为感知结构信息的变化,同时也纳入了重要的感知现象,包括亮度掩蔽和对比度掩蔽术语。” 换句话说,基于感知的评价指标会衡量误差,并尝试对人类如何感知这些误差进行数学建模。

 

基于感知的模型从简单的SSIM到复杂的SSIMWave公司的SSIMPLUS评价指标、Tektronix公司的图像质量评级(PQR)和注意力加权差异平均意见评分(ADMOS)。所有这三种评级都可以将显示类型并入评分中,包括尺寸大小、亮度和观看距离等因素,这些因素都会明显影响对误差的感知。


ADMOS还提供注意力加权,将观众在观看视频时关注的区域作为优先考虑质量的区域。 所以,屏幕中心一张模糊的脸会比边缘区域的模糊在得分上降低地更明显,而纯粹基于误差的模型可能会使得它们得分相同。

 

虽然这些评价指标经过多年的研究、尝试和大量的测试,但它们只是能够比较两个视频、处理数字并输出结果的数学公式。他们不会像下一类中的评价指标一样进行“学习”。此外,依赖这些指标,时间相关的质量可能会,也可能不会被纳入评估。

 

类似的,大部分评价指标体系都是基于比较全分辨率压缩帧和全分辨率原始帧而开发的。编码阶梯的发明以及与之相关的决策,产生了一种新型的分析。例如,为1080p源视频创建编码阶梯时,可以比较两个1.5Mbps码率的质量,一个是540p,另一个是720p。所有评价指标体系都可以计算两个备选方案的评分;您只需将每个视频上采样到1080p,并将其与源视频相比较即可。但是旧的评价指标体系很少考虑到这种分析(稍后会细说这一点)。

 

机器学习和评价指标融合

 

最后一类评价指标涉及机器学习的概念,图1中展示了Tektronix公司新的质量评价指标TekMOS。 简而言之,MOS代表平均意见评分,或一个回合中的主观测试结果,通常使用从1(不可接受)到5(优秀)的评分。

 

0?wx_fmt=jpeg

Figure 1. TekMOS 评价指标体系和机器学习

 

在图中所示的训练模式中,每帧被转换成一组量化的数据点,表示诸如亮度、对比度等多个值。然后将超过2000帧画面转换的这些值与实际主观评价的MOS分数进行比较,以便“学习”哪些值产生了正确的主观MOS分数值,而哪些没有。在测量模式下,TekMOS得到了从这2000多次试验中学到的东西、从分析的帧中输入数据点,并输出一个MOS分数。


像上面讨论的评价指标体系一样,机器学习算法从一个数学模型开始。 然而,它将结果与主观MOS分数列进行比较,并对模型进行微调以使其随时间推移而改善。 此外,机器学习本身可以进行调整,因此一个模型可以表示动画,另一个模型表示体育等等,从而使不同的使用者能够对与他们领域最相关的视频进行度量。

 

Netflix的VMAF是另一个可以训练的评价指标体系,使用所谓的支持向量机。由于VMAF的主要用途是帮助Netflix为其按标题编码功能生成编码阶梯,因此Netflix训练数据集包括码率从375Kbps到20Mbps、分辨率从384x288到1080p的视频片段。同样,通过将数学结果与主观MOS分数相关联,VMAF在做出如上述例子中选择540p还是720p的决策时会变得更明智。

 

顾名思义,VMAF是三个评价指标体系的融合,两个用来量度图像质量,一个用来量度时间质量,使其成为一个真正的“视频”评价指标体系。类似的,Tektronix的TekMOS评价指标包含一个时间衰减过滤器,有助于使视频的评分更准确。 TekMOS也有一个兴趣区域过滤器,是VMAF目前没有的。 VMAF的一个巨大好处是Netflix选择了将评价指标体系开源,使其可以在多个平台上使用,您将会在后面介绍中了解更多信息。

 

哪种评价指标体系最好?

 

如果没有像图2所示的散布图,那么关于介绍评价指标体系的文章就是不完整的。这些图在Netflix关于VMAF的博客文章中有少量采用。左侧的散点图比较了VMAF得分(纵横)和实际MOS得分(横轴)。 右边的图表是关于PSNRHVS评价指标体系的,与左图结构类似。


0?wx_fmt=jpeg

Figure 2. 评价指标体系比较散点图

 

如果分数恰好相符,那么它们都将直接与红色的对角线重合,当然,这并不会发生。 不过,越接近红线,并且红线周围的模式越紧密,就表示评价指标体系就越准确地预测了人的主观分数。图2 以这种方式告诉我们,VMAF是一个优越的评价指标。

 

有趣的是,每次发布一个评价指标体系时,都会附带一个类似于左图所示的散点图。 SSIMPLUS有一个,TekMOS有一个,Tektronix的旧评价指标PQR和ADMOS也有。 这不是要对他们的结果产生怀疑,而是要观察到所有这些评价指标都是高度起作用,并且通常与PSNR相比更准确地与主观评价相吻合。

 

但是,精度并不是选择评价指标体系时唯一要需要考虑的因素。 我们再来探讨下其他几个方面。


全参考与无参考模型

 

评价指标体系之间的一个重要区别是有参考与无参照。全参靠评价体系将编码文件与原始文件进行比较以测度质量,而无参考评价体系仅仅分析编码文件。 一般来说,全参考测度被认为是更准确的,但由于要求源文件必须可用,所以显然使用场景相对有限。

 

无参靠评价体系可以应用于存有压缩文件的任何地方。 例如,Tektronix 公司的Aurora平台中包含了TekMOS,这是一个自动质量控制软件包,可以评估视觉质量、合规性、包完整性和其他误差。 Telestream的子公司IneoQuest开发了iQ MOS,这是一个无参考评价体系,可以为公司Inspector系列产品提供多重流的实时质量评估。

 

所以当选择一个评价指标体系时,请记住,它可能无法应用于您想使用的地方。全参考评价体系通常用于进行编码的地方,而无参考评价体系可以应用于视频点播(VOD)文件存在的任何地方,也可以访问实时视频流。

 

评价指标的隐含意义

 

在选择一个评价指标体系时,重要的是要准确理解评分代表什么和不代表什么。 例如,SSIMPLUS体系中的分数范围是1-100分,其中,80-100的分数预示主观观众将视频评为优秀。 这些主观评级每下降20点,分别表示良、合格、一般、差。包括TekMOS在内的大多数基于MOS的评价指标体系都是按照1-5的等级进行评分,其中5是最好的,1是不可接受的。 这种类型的评分使结果非常容易理解和交流。

 

相比之下,PSNR的分数范围从1到100。尽管这些数字并不被普遍接受,但Netflix认为超过45dB的数值没有任何可察觉的好处,而低于30的数值几乎总是伴随着视觉失真。这些观察对我的工作非常有用,但只有在将全分辨率输出与全分辨率源进行比较时才是如此。当应用于编码阶梯中较低梯级时,较高的数字更好,但是失去了预测主观评价的能力。例如,对于360p的视频,与原始1080p视频源相比,即使没有可见的压缩失真,您也很少会看到PSNR得分高于39dB。

 

虽然SSIM,特别是多尺度SSIM(MS SSIM)比PSRN更准确,但评分系统预期的范围很小,只从-1到+1,也是分数越高越好。大多数高质量的视频大约在.98及以上,这使得比较起来变得复杂。虽然你可以用数学的方法计算出.985比.982要好得多,最后还是觉得难于直观理解。

 

VMAF的得分也在1-100之间。虽然较高的分数总是较好,但对于一个540p文件,个别分数(如55分的评分)对于主观质量没有预测价值。你不能说这是否意味着视频是完美的或糟糕的。也就是说,在分析编码阶梯时,VMAF分数通常从180p流的十几或更低,到1080p流的98+,这就有效地区分了分数。另外,VMAF的6分以上意味着明显的差异(JND),这对于分析许多与编码相关的场景(包括编解码器比较)非常有用。

 

VMAF在编码阶梯的不同梯级的评分范围,使得它在梯级中选择最佳分辨率/数据速率流时很有吸引力。相比之下,PSNR可能在30-50dB之间,而低4个梯级会在30-37之间被压缩。这降低了它作为这些梯级之间可察觉差异的预测值的价值。

 

在选择一个评价指标体系之前,你应该明白分数意味着什么,并确保它告诉你的是你想要知道的。

 

探访标准体系

 

选择一个评价指标体系,要了解如何获取并访问它和要花费多少钱。 在本节中,我将简要讨论可以计算上述评价指标体系的工具,从FFmpeg(FFmpeg是一个可以计算PSRN和SSIM的免费工具)开始。

 

莫斯科州立大学(MSU)的视频质量评价指标体系工具(VQMT,直接售价999美元)支持PSNR,SSIM,MS SSIM等许多评价指标,其中包括版本10(目前该版本正处于测试阶段)的VMAF。 图3中的顶部窗口显示了两个1080p对话头文件的VMAF得分,其中一个以4500Kbps编码,另一个以8500Kbps编码,顶部的图显示整个文件,下面的图显示上方左侧的高亮区域。由于分数非常接近,表明额外花费在最高质量码流上的4Mbps浪费了。


0?wx_fmt=jpeg

Figure 3. 使用莫斯科州立大学VQMT工具比较VMAF 

 

您可以拖动播放头,并将视频中的任何帧并排显示,如图3底部所示,或者一个显示在另一个上面。这后一种视角使得在两个编码文件和原始文件之间切换变得简单,这更好地显现了像上面提到的色移那样的微小差异。 VQMT可能提供了在两个编码文件之间进行A / B比较的最佳界面(图3),并且其批量操作非常灵活。


不利的一面是,VQMT只能比较相同分辨率的文件,因此如果您在编码阶梯上分析较低分辨率的梯级时,则必须先手动将它们缩放到全分辨率,这需要花费时间和大量的硬盘空间。在测试版中,VMAF的执行速度非常慢,实际上只使用了我的40核HP Z840工作站的一个核,我们还是希望这会在最终的产品中得到改善。 MSU提供的免费试用版仅适用于小于720p的文件,但这是通过它熟悉工具程序的好方法。我们也回顾了旧版本的VQMT。

 

Hybrik媒体分析仪


对于大批量的分析,Hybrik媒体分析仪可以计算PSNR,SSIM和VMAF(图4),其地位很难撼动。 举个例子,我最近在Streaming Media West的演讲中,评估了四个per-title编码分析功能,包含15个测试文件和一个七级编码阶梯。 我必须将每个系统运行两次,一次找到基准线,另一次部署per-title编码程序。 这意味着我必须计算大约840次的PSNR和VMAF,并将结果复制到电子表格中。

 

0?wx_fmt=jpeg

Figure 4. Hybrik媒体分析仪

 

您也可以通过JSON API驱动操作,当然,用UI更简单。您一次加载七个编码文件,选择源文件和要运行的测试,云编码器便将从此处开始,自动执行所有必要的缩放。这变成一个输入、七个输出的任务。分析完成后,您可以将结果导出到CSV文件中,并将其导入到电子表格中,从而将复制和粘贴操作(分辨率、数据速率、PSNR、每个梯级的VMAF分数)从30次左右减少到3到4次,既节省了时间,同时也减少了发生错误的可能性。在运行VMAF时,Hybrik比MSU VQMT的CPU效率也高得多,因此可以更有效地利用所有的云实例。

 

唯一的问题是,Hybrik不提供仅分析的定价,对于多达10个同时运行基于AWS系统的云实例,访问系统的最低收费为$ 1,000 /月。如果这个成本不是很高的话,或者Hybrik决定提供只分析服务定价的话,那么这项服务很可能会成为那些要在规定日期前完成压缩或者要进行大批量测试的人的大救星。

  

专有工具

 

大多数其他评价指标体系仅在专有工具中可用,例如上述的Aurora,它提供的视频质量评价指标远不止于此,并且有多个版本,售价从4,850美元到33,000美元不等。 对于所有这些版本,TekMOS的定价都是4000美元。 该软件运行于Windows Server 2012 R2或更高版本。

 

您可以通过API或UI运行Aurora。 无论使用哪种方式,要分析一个文件,你需要选择文件和一个模板(模板中有选定的检查和验证选项)。TekMOS的结果以数字和图形格式给出,如图5所示,平铺、噪声和模糊可单独显示,以帮助解释分数。

 

0?wx_fmt=jpeg

Figure 5. TekMOS的结果显示平均得分为2.894,模糊和平铺是最显著的问题。

 

Tektronix 还销售一系列具有上述PQR和ADMOS评价指标体系的全参照图像质量分析仪以及其他产品。这些系统的价格从18,400美元左右起,不过你还需要花费9,180美元才能获得批量操作等基本功能。

 

SSIMPLUS算法用于SSIMWave整个产品线,而SSIMPLUS分析仪提供最广泛的分析功能。分析仪是一个非常灵活的产品,可以测量具有不同分辨率和帧率的文件,而且可以同时计算多个设备上的评分。除了基于文本的输出文件之外,软件还可以输出质量图,您可以使用质量图来比较不同的文件。除了用于批处理文件操作和单文件操作的Windows GUI之外,分析器还可用作Linux,Mac和Windows SDK以及命令行接口。该公司没有回应我们对价格信息的询问。我们回顾了一个旧版本的分析仪。

 

最后,尽管我从未亲自测试过Video Clarity的产品,但其销售一系列硬件、软件和基于云的分析工具,包含全参考视频质量评价和无参考视频质量评价。如果您正在考虑投资视频质量控制领域,请务必也关注下Video Clarity公司。

 

总结

 

根据我的经验,这个工具越昂贵,它的操作就越怪异。仅仅靠阅读规格表是不可能理解如何使用一个工具或评价指标的;您必须花费数小时的时间来使用,并反反复复主观验证其结果,直到您确信数值分数代表真实结果。这还有可能根据任务的性质而不断改变。一般如果没有试用版,我是绝不会在任何视频质量分析工具上投入大笔资金的。

 

您也可能会发现使用不同的评价指标会对您的测试结果产生影响,并且您的偏好会随着时间的推移或项目的改变而变化。在我的客观评价指标的使用过程中,我开始对Video Quality Metric(VQM)很感兴趣。这是一个基本的度量标准,在用于识别我为一个咨询项目分析的编解码器之间的差异时,表现优于PSNR和SSIM。然而,原始分数并没有表明主观用户如何评价视频。另外,由于它对于大部分人相对比较陌生,所以一个VQM得分对客户或读者来说没有什么意义。

 

对于更一般的工作,我使用PSNR,它的分数易于解释,并且众所周知。让我们面对现实,PSNR在某些应用中仍然很有用。Netflix在其per-title编码引擎中直到2016年年中前,还一直在使用PSNR,即使被VMAF替代以后还继续在大多数编解码器比较中引用PSNR结果(当然也有 VMAF的结果),就可以证明这一点了。

 

后来的项目涉及选择移动设备的配置,使得SSIMPLUS成为一种自然选择,因为它具有非常易于使用的设备指定选项。最后,一旦我开始为客户分析编码阶梯,我开始越来越多地使用和喜欢VMAF;它可以获取和访问,并且是专门为编码阶梯而设计的。当然,由Netflix开发的这一事实也使VMAF获得了巨大的技术信誉。

 

谈到质量评估,一方面还可以做得更好,另一方面也算聊胜于无。因此,如果您开始关注VMAF或某些更高质量,基于感知的评价指标,请使用这些评价指标。如果不行,那么PSNR、SSIM或MS SSIM对于评估编码参数(如编码预设、关键帧间隔、比特率控制技术等),或如在图3中用VMAF比较编码阶梯上类似分辨率梯级的质量,也有很好的表现。在比较编码工具时,我会对这些评价指标不那么信任。并且,在比较编解码器时,如果不能从另一个评价指标中验证分数,我也不会使用它们。


短视频开发分享预告


《短视频开发进阶》分享将于今晚20:00跟大家见面,全民快乐高级研发总监展晓凯将分享酷炫短视频开发的设计架构、实现思路以及研发过程中的经验。


扫描下图中的二维码,就能参与进来。我们还将抽取10小伙伴赠送多媒体移动端开发书籍。


扫描下方图中二维码,加入直播群。

640?wx_fmt=jpeg

相关文章
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
|
机器学习/深度学习 监控 算法
信用风险评估评分卡建模方法及原理| 学习笔记
快速学习信用风险评估评分卡建模方法及原理。
952 0
信用风险评估评分卡建模方法及原理| 学习笔记
|
1月前
|
机器学习/深度学习 算法 数据可视化
突破传统生存分析:利用随机森林进行个体化风险预测
突破传统生存分析:利用随机森林进行个体化风险预测
106 0
突破传统生存分析:利用随机森林进行个体化风险预测
|
1月前
|
机器学习/深度学习 搜索推荐 算法
癌症预测新利器:弹性逻辑回归让健康更可控!
癌症预测新利器:弹性逻辑回归让健康更可控!
29 1
|
8月前
|
机器学习/深度学习 数据采集 运维
基于无监督学习-关联规则的风险评估模型:更精准的预测!
乳腺癌被认为是全球最常见的女性恶性肿瘤之一,对患者和公共健康造成了巨大的负担。准确评估乳腺癌风险是预防、诊断和治疗该疾病的关键。然而,乳腺癌风险估计面临着一些挑战,如数据的限制性、模型的复杂性和准确性等。因此,发展一种准确且高效的乳腺癌风险评估方法具有重要意义。
138 0
|
11月前
|
机器学习/深度学习 传感器 人工智能
一种轻松且客观介绍大模型方式,避免过度解读:一
这篇文章旨在为没有计算机科学背景的读者提供一些关于ChatGPT及其类似的人工智能系统(如GPT-3、GPT-4、Bing Chat、Bard等)如何工作的原理。ChatGPT是一种聊天机器人,建立在一个大型语言模型之上,用于对话交互。这些术语可能比较晦涩难懂,我将对其进行解释。同时,我们将讨论它们背后的核心概念,而且本文并不需要读者具备任何技术或数学方面的背景知识。我们将大量使用比喻来解释相关概念,以便更好地理解它们。我们还将讨论这些技术的意义,以及我们应该期待或不应该期待大型语言模型如ChatGPT所能做的事情。
86 0
|
机器学习/深度学习 Python
在机器学习回归问题中,你应该使用哪种评估指标?
在机器学习回归问题中,你应该使用哪种评估指标?
204 0
在机器学习回归问题中,你应该使用哪种评估指标?
|
机器学习/深度学习 数据管理
浅谈《模型评估》选择及重要性
浅谈《模型评估》选择及重要性
浅谈《模型评估》选择及重要性