Mixup vs. SamplePairing:ICLR2018投稿论文的两种数据增广方式

简介:

论文动机

神经网络训练需要海量的人工标注数据集,一般的数据增广方式是裁剪、翻转以及旋转、尺度变化。之前在 arXiv 上看到过 IBM的一篇文章 SamplePairing:针对图像处理领域的高效数据增强方式,该论文主要是关于数据增强方式,没有公式没有网络架构,只通过简单的相加求平均值方式

而在最近公布的 ICLR 2018 入围名单中,另一篇数据增广相关论文脱颖而出,而 SamplePairing 出局。仔细阅读 Mixup 的论文,发现它其实是对 SamplePairing 的更进一步延伸。

名词解释

Empirical Risk Minimization (ERM):机器学习的经验风险最小化,ERM 策略认为,经验风险最小化的模型是最优化的模型。可参照李航的《统计学习方法》[1] 进行理解。 

Βeta分布:既然概率论中的贝塔分布,是指一组定义在是指一组定义在(0,1)区间的连续概率分布,有两个参数 α 和 β。论文中 α 和 β 相等。Βeta 分布的定义、概率密度函数和性质可参考 PRML [2]。 

为了理解 Beta 分布,使用 Python 可视化 Beta 的模型。论文选择的超参数是 α=0.2 和 0.4,此处主要观察 α 变化对应的概率分布变化。

from scipy.stats import beta
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 1, 100)
a_array = [1,0.5 ,0.1 ,0.2, 0.01,0.001]
for  a in a_array:
   plt.plot(x, beta.pdf(x, a, a), lw=1, alpha=0.6, label='a=' + str(a) + ',b=' + str(a))
plt.legend(frameon=False)
plt.show()

fa94fdbca9e2009f26908f525738e700c42a48bd

从上图可以看出,α 趋近于 0 时,概率分布趋近于 x-0 和 x=1 两种情况,在论文中代表 ERM。

模型细节

SamplePairing

SamplePairing 的实现很简单,两幅图片直接像素相加求平均,监督的 label 不变。但是在训练过程中,先用 ILSVRC 数据集普通数据增广方式,完成多个 epoch 后间歇性禁止 SamplePairing,在训练损失函数和精度稳定后,禁止 SamplePairing 进行微调。

个人认为相当于随机引入噪声,在训练样本中人为引入误导性的训练样本。

mixup

75381f23860b423ccf99364ab5f58169439856a5

 mixup实现公式、Python源代码和可视化实现

其中 (xi, yi) 和 (xj, yj) 是训练集随机选取的两个数据,λ ∈ [0,1],λ ∼ Beta(α,α)。

mixup 扩展训练集分布基于这样的先验知识:线性特征向量的混合导致相关目标线性混合。混合超参数 α 控制特征目标之间的插值强度,α→0 时表示 ERM。

mixup 模型实现方式简单,PyTorch 7 行代码即可实现。上图中的可视化表明,mixup 导致决策边界模糊化,提供更平滑的预测。

实验

论文的实验过程很丰富,包括 CIFAR-10,CIFAR-100,和 ImageNet-2012,随机噪音测试,语音数据,facing adversarial examples 黑盒攻击和白盒攻击,UCI 数据集,以及稳定训练 GAN 网络。

f477013f29468eeae078a56710d7e3000f2df68d

讨论

论文提出,在训练过程中,随着 α 增加,训练误差越来越大,而在验证验证集测试中泛化误差反而减少。这与论文提出的假设相同:mixup 隐含控制模型的复杂度。但是论文没有提出 bias-variance trade-off 的理论解释。 

论文提出一些进一步探索的可行性:

  • mixup 是否可以应用在其他监督学习问题,比如回归和结构化预测。mixup 可能在回归问题容易实现,结构化预测如图像分割等问题,实验效果不明显。
  • mixup 是否可以用于半监督学习、无监督学习或强化学习。当然作者是假设,希望有后来者证明 mixup 是理论可行的。 

mixup 来自 MIT 和 Facebook AI Research。ICLR 是双盲评审,官网上的匿名评审意见普遍认为 mixup 缺乏理论基础,但是实验效果具有明显优势。笔者个人认为在 mixup 基础上,还有很多坑可以填。



原文发布时间为:2018-03-6

本文作者:陈泰红

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
3月前
|
机器学习/深度学习 缓存 算法
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络
|
9月前
|
机器学习/深度学习 移动开发 编解码
RepVGG(一)论文解析
RepVGG(一)论文解析
173 0
|
23天前
|
人工智能
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。
25 3
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
|
1月前
|
知识图谱 异构计算
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
11 3
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
|
11月前
|
机器学习/深度学习 人工智能 算法
【Pytorch神经网络实战案例】21 基于Cora数据集实现Multi_Sample Dropout图卷积网络模型的论文分类
是在Dropout随机选取节点丢弃的部分上进行优化,即将Dropout随机选取的一组节点变成随机选取多组节点,并计算每组节点的结果和反向传播的损失值。最终,将计算多组的损失值进行平均,得到最终的损失值,并用其更新网络,如图9-19所示。
179 0
【Pytorch神经网络实战案例】21 基于Cora数据集实现Multi_Sample Dropout图卷积网络模型的论文分类
|
11月前
|
机器学习/深度学习 人工智能 算法
【Pytorch神经网络理论篇】 23 对抗神经网络:概述流程 + WGAN模型 + WGAN-gp模型 + 条件GAN + WGAN-div + W散度
GAN的原理与条件变分自编码神经网络的原理一样。这种做法可以理解为给GAN增加一个条件,让网络学习图片分布时加入标签因素,这样可以按照标签的数值来生成指定的图片。
343 0
|
新零售 算法 搜索推荐
理解图表示学习中的负采样 | KDD论文解读
本文“Understanding Negative Sampling in Graph Representation Learning”已被KDD 2020录用。
理解图表示学习中的负采样 | KDD论文解读
|
机器学习/深度学习 编解码 算法
经典论文系列 | Group Normalization & BN的缺陷
本文是何凯明在18年发表的论文,论文提出了BN中存在的问题,即模型性能受到Batch Size的影响,当batch size比较小时,模型性能退化严重,且BN的存在使得在受到内存限制的应用很难使用预训练。 本文基于这些问题提出了Group Normalization,GN很好地避免了这些问题,模型性能不会受到BatchSize的影响。 此外,在论文中作者将两者与其它一些归一化方法(如Layer Normalization、Instance Normalization)进行了介绍与实验对比。
经典论文系列 | Group Normalization & BN的缺陷
ML之GMM:Gaussian Mixture Model高斯混合模型相关论文、算法步骤相关配图
ML之GMM:Gaussian Mixture Model高斯混合模型相关论文、算法步骤相关配图
ML之GMM:Gaussian Mixture Model高斯混合模型相关论文、算法步骤相关配图
|
机器学习/深度学习 算法 计算机视觉
DL之BN-Inception:BN-Inception算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(二)
DL之BN-Inception:BN-Inception算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
DL之BN-Inception:BN-Inception算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(二)