深度学习Trick——用权重约束减轻深层网络过拟合|附(Keras)实现代码

简介: 深度学习小技巧,约束权重以降低模型过拟合的可能,附keras实现代码。

       在深度学习中,批量归一化(batch normalization)以及对损失函数加一些正则项这两类方法,一般可以提升模型的性能。这两类方法基本上都属于权重约束,用于减少深度学习神经网络模型对训练数据的过拟合,并改善模型对新数据的性能。
       目前,存在多种类型的权重约束方法,例如最大化或单位向量归一化,有些方法也必须需要配置超参数。
       在本教程中,使用Keras API,用于向深度学习神经网络模型添加权重约束以减少过拟合。
       完成本教程后,您将了解:

  • 如何使用Keras API创建向量范数约束;
  • 如何使用Keras API为MLP、CNN和RNN层添加权重约束;
  • 如何通过向现有模型添加权重约束来减少过度拟合;

下面,让我们开始吧。

1


本教程分为三个部分:
  • Keras中的权重约束;
  • 图层上的权重约束;
  • 权重约束案例研究;

Keras中权重约束

       Keras API支持权重约束,且约束可以按每层指定。
       使用约束通常涉及在图层上为输入权重设置kernel_constraint参数,偏差权重设置为bias_constraint。通常,权重约束方法不涉及偏差权重。
       一组不同的向量规范在keras.constraints模块可以用作约束:

  • 最大范数(max_norm):强制权重等于或低于给定限制;
  • 非负规范(non_neg):强制权重为正数;
  • 单位范数(unit_norm):强制权重为1.0;
  • Min-Max范数(min_max_norm):强制权重在一个范围之间;

例如,可以导入和实例化约束:

# import norm
from keras.constraints import max_norm
# instantiate norm
norm = max_norm(3.0)

图层上的权重约束

       权重规范可用于Keras的大多数层,下面介绍一些常见的例子:

MLP权重约束

       下面的示例是在全连接层上设置最大范数权重约束:

# example of max norm on a dense layer
from keras.layers import Dense
from keras.constraints import max_norm
...
model.add(Dense(32, kernel_constraint=max_norm(3), bias_constraint==max_norm(3)))
...

CNN权重约束

下面的示例是在卷积层上设置最大范数权重约束:

# example of max norm on a cnn layer
from keras.layers import Conv2D
from keras.constraints import max_norm
...
model.add(Conv2D(32, (3,3), kernel_constraint=max_norm(3), bias_constraint==max_norm(3)))
...

RNN权重约束

       与其他图层类型不同,递归神经网络允许我们对输入权重和偏差以及循环输入权重设置权重约束。通过图层的recurrent_constraint参数设置递归权重的约束。
       下面的示例是在LSTM图层上设置最大范数权重约束:

# example of max norm on an lstm layer
from keras.layers import LSTM
from keras.constraints import max_norm
...
model.add(LSTM(32, kernel_constraint=max_norm(3), recurrent_constraint=max_norm(3), bias_constraint==max_norm(3)))
...

       基于以上的基本知识,下面进行实例实践。

权重约束案例研究

       在本节中,将演示如何使用权重约束来减少MLP对简单二元分类问题的过拟合问题。
       此示例只是提供了一个模板,读者可以举一反三,将权重约束应用于自己的神经网络以进行分类和回归问题。

二分类问题

       使用标准二进制分类问题来定义两个半圆观察,每个类一个半圆。其中,每个观测值都有两个输入变量,它们具有相同的比例,输出值分别为0或1,该数据集也被称为“ 月亮”数据集,这是由于绘制时,每个类中出现组成的形状类似于月亮。
       可以使用make_moons()函数生成观察结果,设置参数为添加噪声、随机关闭,以便每次运行代码时生成相同的样本。

# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)

       可以在图表上绘制两个变量x和y坐标,并将数据点所属的类别的颜色作为观察的颜色。
       下面列出生成数据集并绘制数据集的完整示例:

# generate two moons dataset
from sklearn.datasets import make_moons
from matplotlib import pyplot
from pandas import DataFrame
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# scatter plot, dots colored by class value
df = DataFrame(dict(x=X[:,0], y=X[:,1], label=y))
colors = {0:'red', 1:'blue'}
fig, ax = pyplot.subplots()
grouped = df.groupby('label')
for key, group in grouped:
    group.plot(ax=ax, kind='scatter', x='x', y='y', label=key, color=colors[key])
pyplot.show()

       运行该示例会创建一个散点图,可以从图中看到,对应类别显示的图像类似于半圆形或月亮形状。

2


       上图的数据集表明它是一个很好的测试问题,因为不能用直线划分,需要非线性方法,比如神经网络来解决。
       只生成了100个样本,这对于神经网络而言较小,也提供了过拟合训练数据集的概率,并且在测试数据集上具有更高的误差。因此,也是应用正则化的一个好例子。此外,样本具有噪声,使模型有机会学习不一致的样本的各个方面。

多层感知器过拟合

       在机器学习力,MLP模型可以解决这类二进制分类问题。
       MLP模型只具有一个隐藏层,但具有比解决该问题所需的节点更多的节点,从而提供过拟合的可能。
       在定义模型之前,需要将数据集拆分为训练集和测试集,按照3:7的比例将数据集划分为训练集和测试集。

# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]

       接下来,定义模型。隐藏层的节点数设置为500、激活函数为RELU,但在输出层中使用Sigmoid激活函数以预测输出类别为0或1。
       该模型使用二元交叉熵损失函数进行优化,这类激活函数适用于二元分类问题和Adam版本梯度下降方法。

# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

       然后,设置迭代次数为4,000次,默认批量训练样本数量为32。

# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)

       这里将测试数据集作为验证数据集验证算法的性能:

# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))

       最后,绘制出模型每个时期在训练和测试集上性能。如果模型确实对训练数据集过拟合了,对应绘制的曲线将会看到,模型在训练集上的准确度继续增加,而测试集上的性能是先上升,之后下降。

# plot history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

       将以上过程组合在一起,列出完整示例:

# mlp overfit on the moons dataset
from sklearn.datasets import make_moons
from keras.layers import Dense
from keras.models import Sequential
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

       运行该示例,给出模型在训练数据集和测试数据集上的性能。
       可以看到模型在训练数据集上的性能优于测试数据集,这是发生过拟合的标志。鉴于神经网络和训练算法的随机性,每次仿真的具体结果可能会有所不同。因为模型是过拟合的,所以通常不会期望在相同数据集上能够重复运行得到相同的精度。

Train: 1.000, Test: 0.914

       创建一个图,显示训练和测试集上模型精度的线图。从图中可以看到模型过拟合时的预期形状,其中测试精度达到一个临界点后再次开始减小。

3

具有权重约束的多层感知器过拟合

       为了和上面做对比,现在对MLP使用权重约束。目前,有一些不同的权重约束方法可供选择。本文选用一个简单且好用的约束——简单地标准化权重,使得其范数等于1.0,此约束具有强制所有传入权重变小的效果。
       在Keras中可以通过使用unit_norm来实现,并且将此约束添加到第一个隐藏层,如下所示:

model.add(Dense(500, input_dim=2, activation='relu', kernel_constraint=unit_norm()))

       此外,也可以通过使用min_max_norm并将minmaximum设置为1.0 来实现相同的结果,例如:

model.add(Dense(500, input_dim=2, activation='relu', kernel_constraint=min_max_norm(min_value=1.0, max_value=1.0)))

       但是无法通过最大范数约束获得相同的结果,因为它允许规范等于或低于指定的限制; 例如:

model.add(Dense(500, input_dim=2, activation='relu', kernel_constraint=max_norm(1.0)))

       下面列出具有单位规范约束的完整代码:

# mlp overfit on the moons dataset with a unit norm constraint
from sklearn.datasets import make_moons
from keras.layers import Dense
from keras.models import Sequential
from keras.constraints import unit_norm
from matplotlib import pyplot
# generate 2d classification dataset
X, y = make_moons(n_samples=100, noise=0.2, random_state=1)
# split into train and test
n_train = 30
trainX, testX = X[:n_train, :], X[n_train:, :]
trainy, testy = y[:n_train], y[n_train:]
# define model
model = Sequential()
model.add(Dense(500, input_dim=2, activation='relu', kernel_constraint=unit_norm()))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# fit model
history = model.fit(trainX, trainy, validation_data=(testX, testy), epochs=4000, verbose=0)
# evaluate the model
_, train_acc = model.evaluate(trainX, trainy, verbose=0)
_, test_acc = model.evaluate(testX, testy, verbose=0)
print('Train: %.3f, Test: %.3f' % (train_acc, test_acc))
# plot history
pyplot.plot(history.history['acc'], label='train')
pyplot.plot(history.history['val_acc'], label='test')
pyplot.legend()
pyplot.show()

       运行该示例,给出模型在训练数据集和测试数据集上的性能。
       从下图可以看到,对权重进行严格约束确实提高了模型在验证集上的性能,并且不会影响训练集的性能。

Train: 1.000, Test: 0.943

       从训练和测试精度曲线图来看,模型已经在训练数据集上不再过拟合了,且模型在训练和测试数据集的精度保持在一个稳定的水平。

4

扩展

本节列出了一些读者可能希望探索扩展的教程:

  • 报告权重标准:更新示例以计算网络权重的大小,并证明使用约束后,确实使得幅度更小;
  • 约束输出层:更新示例以将约束添加到模型的输出层并比较结果;
  • 约束偏置:更新示例以向偏差权重添加约束并比较结果;
  • 反复评估:更新示例以多次拟合和评估模型,并报告模型性能的均值和标准差;

进一步阅读

       如果想进一步深入了解,下面提供一些有关该主题的其它资源:

博客

API

作者信息

Jason Brownlee,机器学习专家
个人主页:https://machinelearningmastery.com
本文由阿里云云栖社区组织翻译。
文章原标题《Machine Learning: how to go from Zero to HeroHow to Reduce Overfitting in Deep Neural Networks Using Weight Constraints in Keras》,译者:海棠,审校:Uncle_LLD。
文章为简译,更为详细的内容,请查看原文

相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
食物识别系统Python+深度学习人工智能+TensorFlow+卷积神经网络算法模型
食物识别系统采用TensorFlow的ResNet50模型,训练了包含11类食物的数据集,生成高精度H5模型。系统整合Django框架,提供网页平台,用户可上传图片进行食物识别。效果图片展示成功识别各类食物。[查看演示视频、代码及安装指南](https://www.yuque.com/ziwu/yygu3z/yhd6a7vai4o9iuys?singleDoc#)。项目利用深度学习的卷积神经网络(CNN),其局部感受野和权重共享机制适于图像识别,广泛应用于医疗图像分析等领域。示例代码展示了一个使用TensorFlow训练的简单CNN模型,用于MNIST手写数字识别。
14 3
|
2天前
|
机器学习/深度学习 编解码 算法
YOLOv5改进 | 主干网络 | 将backbone替换为MobileNetV3【小白必备教程+附完整代码】
本文介绍了将YOLOv5的backbone替换为MobileNetV3以提升目标检测性能的教程。MobileNetV3采用倒残差结构、Squeeze-and-Excitation模块和Hard-Swish激活函数,实现更高性能和更低计算成本。文中提供了详细的代码实现,包括MobileNetV3的关键组件和YOLOv5的配置修改,便于读者实践。此外,还分享了完整代码链接和进一步的进阶策略,适合深度学习初学者和进阶者学习YOLO系列。
|
3天前
|
机器学习/深度学习 算法
揭秘深度学习中的对抗性网络:理论与实践
【5月更文挑战第18天】 在深度学习领域的众多突破中,对抗性网络(GANs)以其独特的机制和强大的生成能力受到广泛关注。不同于传统的监督学习方法,GANs通过同时训练生成器与判别器两个模型,实现了无监督学习下的高效数据生成。本文将深入探讨对抗性网络的核心原理,解析其数学模型,并通过案例分析展示GANs在图像合成、风格迁移及增强学习等领域的应用。此外,我们还将讨论当前GANs面临的挑战以及未来的发展方向,为读者提供一个全面而深入的视角以理解这一颠覆性技术。
|
5天前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:生成对抗网络(GAN)
使用Python实现深度学习模型:生成对抗网络(GAN)
20 3
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
一文搞懂深度学习:神经网络基础部分
一文搞懂深度学习:神经网络基础部分
12 0
|
6天前
|
机器学习/深度学习
深度学习网络训练,Loss出现Nan的解决办法
深度学习网络训练,Loss出现Nan的解决办法
9 0
|
6天前
|
机器学习/深度学习 编解码 自然语言处理
深度学习500问——Chapter07:生成对抗网络(GAN)(3)
深度学习500问——Chapter07:生成对抗网络(GAN)(3)
18 0
|
18小时前
|
机器学习/深度学习 算法 计算机视觉
深度学习在图像识别中的创新应用
【5月更文挑战第21天】 随着人工智能技术的飞速发展,深度学习已经成为推动计算机视觉领域进步的核心动力。特别是在图像识别任务中,深度神经网络通过模拟人类大脑处理信息的方式,显著提升了机器的识别精度和效率。本文将探讨深度学习技术在图像识别领域的最新进展,包括卷积神经网络(CNN)的优化、数据增强技术的应用、迁移学习的实践以及对抗性网络的创新使用。我们将重点分析这些技术创新如何克服传统方法的局限,提高模型的泛化能力,并最终实现对复杂、动态场景下图像的高效准确识别。
|
20小时前
|
机器学习/深度学习 自然语言处理 算法
深度学习在图像识别中的应用进展
【5月更文挑战第21天】 随着人工智能技术的飞速发展,深度学习已经成为了图像识别领域的核心技术之一。本文旨在综述当前深度学习技术在图像识别任务中的最新进展,包括卷积神经网络(CNN)的变体、生成对抗网络(GAN)、以及自注意力机制等先进技术的实际应用案例。同时探讨了深度学习面临的挑战,如数据集偏差、计算资源需求和模型泛化能力,并对未来发展趋势进行了展望。
|
20小时前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第21天】 随着人工智能技术的迅猛发展,特别是深度学习在图像处理和识别领域的突破性进展,自动驾驶汽车逐渐成为现实。本文旨在探讨深度学习算法在自动车辆图像识别系统中的应用及其对提高驾驶安全性和效率的影响。首先,介绍了卷积神经网络(CNN)在车辆环境感知中的关键作用;其次,分析了不同深度学习模型在处理复杂交通场景下的性能表现;最后,讨论了目前面临的挑战以及未来发展趋势。通过实验数据和案例分析,验证了深度学习技术在提升自动驾驶系统准确性和可靠性方面的潜力。