独家 | 如何利用大规模无监督数据建立高水平特征?

简介:

46695fe26570a42a3df4d69e24581969f31d67d5

GIF来自:https://giphy.com/gifs/features-7BldZFcv2pof6

如何构建更厉害的特征检测器?我们可以通过无监督学习来做到这一点吗?

请注意,本文是一篇我自己留档用的回顾总结材料。

042f892fbcde8c898b40576f2cd25a3ebd16b893

Paper来自此网站:

https://arxiv.org/pdf/1112.6209.pdf

摘要

622b79be574009b3cefdffa04253302e67796349

这篇文章的作者们喜欢利用未标记数据制作特定的分类特征识别器。(例如,使用未标记的人脸图像制作人脸识别器。)为实现这一目标,作者在大型数据集上制作了一个9层的自动稀疏编码器。与普遍的认知相反,这可以在没有任何标签数据的情况下构建面部检测器,而且优于ImageNet数据的最新性能。 (在2012年)。

介绍

9a41de7e7f94811f82a5b521f4c3669b2c794d66

这篇文章的目的是只依靠未标记图像构建一个特定的分类特征识别器,同时这也是神经科学的构想:“人类大脑中存在高度特定类的神经元”,通常被非正式地称为“母神经元”。在传统的计算机视觉中,大多数研究人员使用标记数据来获得这些识别器,然而大量数据时就比较困难。这个实验的成功说明,可以从未标记数据中学习高级特征和母神经元。大多数这些方法(如自动稀疏编码器)仅仅可以用于低级特征,如边缘或斑点(edges or blobs)。

作者假设深度学习花费如此多时间的原因是由于缺少高级特征,例如,图像被重新调整得更小,这样的降级会破坏高级特征的学习。作者没有缩小图像,也没有使用大量计算能力。经证明,有可能从未标记的数据中学习更高级别的特性。最后,使用学习过滤器,他们能够超越ImageNet数据集的最新技术性能。(2012年)。

数据集结构/算法

e140ccddb695b31ae0f825ab549d95829aa85341

如上所述,来自1000万个Youtube视频随机选择的片段,他们通过使用OpenCV脸部识别得出结论,在1000万个采样片段中,面部出现的概率不到3%。

这里使用的算法的灵感来自不同类型的无监督学习算法的成功。(RBM,稀疏自动编码器等......)。作者的目的是学习更高水平的特征,而不仅仅是低水平。

d2728975559d2f283dcde85e84f991b29711c1fa

如上所述,作者使用的架构可以被认为是深度自动的稀疏编码器,带有一些转动(twist)同时它们也是局部感受器,池和局部响应归一化(使用了L2池)。堆叠(stacking)一系列统一模块,大脑所采用的架构是在选择性和允差层(tolerance layers)之间转换。有一件需要注意的重要的事是,虽然网络使用局部感受器,但是它们并不是卷积的(参数在图像中的不同位置不可共享),这在生物学上更合理。

学习和优化

7ffcc6d4a4d2e5c6999d0cfaa9f75e66d4776a89

在学习期间第二子层会被固定为均匀的权重,所有编码器和解码器中的其他权重通过上面的成本函数来处理。优化问题也称为重建地形独立成分分析(Topographic ICA),基本上第一项确保编码中关于数据的重要信息,第二项鼓励将有相似特征的特性组合在一起以实现方差。

这篇文章的作者使用了异步随机梯度下降(ASGD),并使用1000簇机器对网络进行了为期三天的处理。

面部实验

870e94eb398ea95d96bb8ba3f4decb342dc1d5f6

这个测试数据由37,000个来自Labeled FacesIn the Wild数据集和ImageNet数据集的图像组成。经过训练之后,作者使用测试集来测量每个神经元检测面部的表现。令人惊讶的是,最好的神经元能够以81.7%的准确度检测到面部。对于没有局对比度归一化的层,精度会降低至78.5%。

67647f2b4a98d0b44b4145f59b4844745651c83c

他们将激活值转化为直方图得到上面的图表,可以明显看出,即使没有标记数据,也是有可能训练人脸检测器的。

fe2d4784821c1eeaec7199efa9af3baa4031ebdb

作者通过使用两种技术使神经元的刺激最大化。(使测试集里响应最积极的刺激物可视化,最大化数值以找到最佳刺激物)。这样可以验证神经元是否确实在寻找一张脸。并且通过额外的实验,结果显示已知的权重会对应不同的方差,例如,垂直方向或左右方向旋转和缩放。

猫和人体探测器

0bf283f47d03587826c9faf37e4f3ee541560f03

作者还想知道网络是否能够学习更高级别的特性例如猫和人体等。如上所述,网络中的一些神经元能够检测到更高级别特征的形状例如猫或人体。在他们自己的数据集上测试的结果显示在猫和人体上分别达到74.8%和76.7%。

通过ImageNet进行图像识别

f78084105cd0437880e1953a78eb7a88fcacf473

在经过训练后的权重上添加一对所有逻辑分类器后,他们在ImageNet数据集上重新训练网络(此方法也称为无监督预训练),能够比当时的基线(2012年)表现得更好。在具有22,000类别的ImageNet上,它超越了其他最高结果70%。同时所有的表现都可以在上面的表格看到。

结论

88ea056776f3ed41edaed6363687f2e4a9cab838

总结来看,使用大量数据和计算机力量,有可能实现仅使用未标签数据识别脸部和身体高级性能。另外,这种方法会比2012年ImageNet数据集的基准线表现要优越。

尾声

这是一个非常酷的实验,但是所需的数据量特别大(以及计算能力),也许这就是它没有实现的原因。


原文发布时间为:2018-10-23

本文作者:Jae Duk Seo

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”。

相关文章
|
3月前
|
机器学习/深度学习 资源调度
【机器学习】归一化目的分析
【1月更文挑战第27天】【机器学习】归一化目的分析
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
【机器学习】样本、特征、标签:构建智能模型的三大基石
【机器学习】样本、特征、标签:构建智能模型的三大基石
209 0
|
2月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
35 0
|
3月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
41 2
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
215 0
|
8月前
|
机器学习/深度学习 算法 数据可视化
使用大规模无监督学习建立高层特征
翻译:《Building High-level Features Using Large Scale Unsupervised Learning》
|
机器学习/深度学习 存储 算法
如何利用Transformer建立时间序列预测模型
如何利用Transformer建立时间序列预测模型
1205 0
如何利用Transformer建立时间序列预测模型
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
吉林大学团队基于迁移学习开发 RNA 二级结构端到端预测方法
吉林大学团队基于迁移学习开发 RNA 二级结构端到端预测方法
|
11月前
|
机器学习/深度学习 Web App开发 自动驾驶
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
|
12月前
|
数据可视化 算法 数据挖掘
网络结构数据分析:揭示复杂系统背后的规律
随着网络技术的不断发展,人们在互联网上留下了海量的数据,这些数据反映了人类社会、经济、生态等各个领域的复杂系统。而这些复杂系统背后的规律往往难以被直接观察到,需要借助网络结构数据分析的方法来揭示。本文将介绍网络结构数据分析的概念、方法和应用,以及未来发展方向
181 0

热门文章

最新文章