【图像识别】白天鹅黑天鹅灰天鹅？卷积神经网络帮你识别-阿里云开发者社区

【图像识别】白天鹅黑天鹅灰天鹅？卷积神经网络帮你识别

2019-03-29 1715

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文将通过一系列的天鹅图片来解释卷积神经网络（CNN）的概念，并使用CNN在常规多层感知器神经网络上处理图像。

原标题：白天鹅黑天鹅灰天鹅？卷积神经网络帮你搞定识别

本文将通过一系列的天鹅图片来解释卷积神经网络（CNN）的概念，并使用CNN在常规多层感知器神经网络上处理图像。

图像分析

假设我们要创建一个能够识别图像中的天鹅的神经网络模型。

天鹅具有某些特征，可用于帮助确定天鹅是否在图片中存在，例如长颈、白色等。

天鹅具有某些可用于识别目的的特征

对于某些图像，可能难以确定是否存在天鹅，请看以下图像。

很难区分的天鹅形象

这些特征仍然存在于上图中，但我们却难以找出上文提出的特征。除此之外，还会有一些更极端的情况。

天鹅分类的极端情况

至少颜色是一致的，对吧？还是......

不要忘记这些黑天鹅。

情况可以更糟吗？绝对可以。

最坏的情况

好的，现在已经有了足够多的天鹅照片。

我们来谈谈神经网络。

现如今，我们基本上一直在以非常天真的方式谈论检测图像中的特征。研究人员构建了多种计算机视觉技术来处理这些问题：SIFT，FAST，SURF，Brief等。然而，出现了类似的问题：探测器要么过于笼统，要么过于设计化，这使得它们太简单或难以概括。

· 如果我们学习了要检测的功能，该怎么办？

· 我们需要一个可以进行表征学习（或特征学习）的系统。

表征学习是一种允许系统自动查找给定任务的相关特征的技术。替换手动功能工程。有以下几种技巧：

· 无监督（K-means，PCA，......）

· 监督（Sup. 字典学习，神经网络！）

传统神经网络的问题

假设你已经熟悉了被称为多层感知器（MLP）的传统神经网络。如果你不熟悉这些内容，那么网络上有数百篇有关MLP工作方式的教程。这些是在人脑上建模的，其中神经元由连接的节点刺激，并且仅在达到特定阈值时才被激活。

标准多层感知器（传统神经网络）

MLP有几个缺点，特别是在图像处理方面。MLP对每个输入使用一个感知器（例如，图像中的像素，在RGB情况下乘以3）。对于大图像，权重量迅速变得难以操纵。对于具有3个颜色通道的224 x 224像素图像，必须训练大约150,000个重量！结果，困难发生在训练和过度拟合的时候。

另一个常见问题是MLP对输入（图像）及其移位版本的反应不同——它们不是平移不变的。例如，如果猫的图片出现在一张图片的左上角和另一张图片的右下角，则MLP会尝试自我纠正并认为猫将始终出现在图像的这一部分中。

很明显，MLP不是用于图像处理的最佳思路。其中一个主要问题是当图像变平为MLP时，空间信息会丢失。靠近的节点很重要，因为它们有助于定义图像的特征。

因此，我们需要一种方法来利用图像特征（像素）的空间相关性，这样我们就可以看到图片中的猫，无论它出现在何处。在下图中，我们正在学习冗余功能。这种方法并不健全，因为猫可能出现在另一个位置。

使用MLP的猫探测器，随着猫的位置改变而改变。

开始CNN之旅

现在让我们继续讨论CNN如何用于解决大多数问题。

CNN利用了附近像素与远距离像素相关性更强的事实

通过使用称为过滤器的东西，我们分析了附近像素的影响。采用指定尺寸的过滤器（经验法则为3x3或5x5），然后将过滤器从图像左上角移到右下角。对于图像上的每个点，使用卷积运算基于滤波器计算值。

过滤器可能与任何东西有关，对于人类的照片，一个过滤器可能与看到鼻子有关，而我们的鼻子过滤器会让我们看到鼻子在图像中出现的强度，以及多少次和在它们发生的位置。与MLP相比，这减少了神经网络必须学习的权重数量，并且还意味着当这些特征的位置发生变化时，它不会抛弃神经网络。

卷积运算

如果你想知道如何通过网络学习不同的功能，以及网络是否可能学习相同的功能（10个头部过滤器会有点多余），这种情况基本不会发生。在构建网络时，我们随机指定过滤器的值，然后在网络训练时不断更新。除非所选滤波器的数量极其大，否则产生两个相同的滤波器的可能性是非常非常小的。

下面给出了称之为过滤器或内核的示例。

CNN的内核过滤器示例

在过滤器经过图像之后，为每个过滤器生成特征映射。然后通过激活函数获取这些函数，激活函数决定图像中给定位置是否存在某个特征。然后我们可以做很多事情，例如添加更多过滤层和创建更多特征映射。随着我们创建更深入的CNN，这些映射变得越来越抽象。我们还可以使用池化图层来选择要素图上的最大值，并将它们用作后续图层的输入。理论上，任何类型的操作都可以在池化层中完成，但实际上，只使用最大池，因为我们想要找到极端值——这就是我们的网络看到该功能的时候！