备案控制台

开发者社区

开发者社区大数据文章正文

Mixup vs. SamplePairing：ICLR2018投稿论文的两种数据增广方式

2018-03-07 2753

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

论文动机

神经网络训练需要海量的人工标注数据集，一般的数据增广方式是裁剪、翻转以及旋转、尺度变化。之前在 arXiv 上看到过 IBM的一篇文章 SamplePairing：针对图像处理领域的高效数据增强方式，该论文主要是关于数据增强方式，没有公式没有网络架构，只通过简单的相加求平均值方式。

而在最近公布的 ICLR 2018 入围名单中，另一篇数据增广相关论文脱颖而出，而 SamplePairing 出局。仔细阅读 Mixup 的论文，发现它其实是对 SamplePairing 的更进一步延伸。

名词解释

Empirical Risk Minimization (ERM)：机器学习的经验风险最小化，ERM 策略认为，经验风险最小化的模型是最优化的模型。可参照李航的《统计学习方法》[1] 进行理解。

Βeta分布：既然概率论中的贝塔分布，是指一组定义在是指一组定义在（0，1）区间的连续概率分布，有两个参数 α 和 β。论文中 α 和 β 相等。Βeta 分布的定义、概率密度函数和性质可参考 PRML [2]。

为了理解 Beta 分布，使用 Python 可视化 Beta 的模型。论文选择的超参数是 α=0.2 和 0.4，此处主要观察 α 变化对应的概率分布变化。

from scipy.stats import beta
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 1, 100)

a_array = [1,0.5 ,0.1 ,0.2, 0.01,0.001]
for  a in a_array:

   plt.plot(x, beta.pdf(x, a, a), lw=1, alpha=0.6, label='a=' + str(a) + ',b=' + str(a))

plt.legend(frameon=False)

plt.show()

18e826496fcfc7b5d63f1571484350aa61d2d8d2

从上图可以看出，α 趋近于 0 时，概率分布趋近于 x-0 和 x=1 两种情况，在论文中代表 ERM。

模型细节

SamplePairing

SamplePairing 的实现很简单，两幅图片直接像素相加求平均，监督的 label 不变。但是在训练过程中，先用 ILSVRC 数据集普通数据增广方式，完成多个 epoch 后间歇性禁止 SamplePairing，在训练损失函数和精度稳定后，禁止 SamplePairing 进行微调。

个人认为相当于随机引入噪声，在训练样本中人为引入误导性的训练样本。

mixup

△ mixup实现公式、Python源代码和可视化实现

其中 (xi, yi) 和 (xj, yj) 是训练集随机选取的两个数据，λ ∈ [0,1]，λ ∼ Beta(α,α)。

mixup 扩展训练集分布基于这样的先验知识：线性特征向量的混合导致相关目标线性混合。混合超参数 α 控制特征目标之间的插值强度，α→0 时表示 ERM。

mixup 模型实现方式简单，PyTorch 7 行代码即可实现。上图中的可视化表明，mixup 导致决策边界模糊化，提供更平滑的预测。

实验

论文的实验过程很丰富，包括 CIFAR-10，CIFAR-100，和 ImageNet-2012，随机噪音测试，语音数据，facing adversarial examples 黑盒攻击和白盒攻击，UCI 数据集，以及稳定训练 GAN 网络。

e7fd1efc1faccbb34bfdeb921246753409bb7ef0

对于具有代表性的 ImageNet-2012，Top-1 的精度至少提高 1.2%。

ab9d730c95e7a02796b9c393904d73eae6ac6d62

讨论

论文提出，在训练过程中，随着 α 增加，训练误差越来越大，而在验证验证集测试中泛化误差反而减少。这与论文提出的假设相同：mixup 隐含控制模型的复杂度。但是论文没有提出 bias-variance trade-off 的理论解释。

论文提出一些进一步探索的可行性：

mixup 是否可以应用在其他监督学习问题，比如回归和结构化预测。mixup 可能在回归问题容易实现，结构化预测如图像分割等问题，实验效果不明显。
mixup 是否可以用于半监督学习、无监督学习或强化学习。当然作者是假设，希望有后来者证明 mixup 是理论可行的。

mixup 来自 MIT 和 Facebook AI Research。ICLR 是双盲评审，官网上的匿名评审意见普遍认为 mixup 缺乏理论基础，但是实验效果具有明显优势。笔者个人认为在 mixup 基础上，还有很多坑可以填。

原文发布时间为：2018-03-7

本文作者：陈泰红

本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”微信公众号

文章标签：

机器学习/深度学习

Python

数据可视化

技术小能手

目录

相关文章

星辰大海AI领航

|

3月前

|

机器学习/深度学习缓存算法

【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络

【论文速递】CVPR2020 - CRNet:用于小样本分割的交叉参考网络

星辰大海AI领航

26 0 0

楠竹11

|

1月前

|

知识图谱异构计算

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

【2月更文挑战第28天】ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

楠竹11

11 3 3

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

5i77ajz5u7ji6

|

11月前

|

数据可视化计算机视觉

CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞（文末获取论文）（二）

CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞（文末获取论文）（二）

5i77ajz5u7ji6

88 0 0

5i77ajz5u7ji6

|

11月前

|

编解码计算机视觉网络架构

CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞（文末获取论文）（一）

CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞（文末获取论文）（一）

5i77ajz5u7ji6

219 0 0

-开发达人-

|

11月前

|

人工智能数据可视化计算机视觉

AAAI 2023 Oral | 回归元学习，基于变分特征聚合的少样本目标检测实现新SOTA

AAAI 2023 Oral | 回归元学习，基于变分特征聚合的少样本目标检测实现新SOTA

-开发达人-

116 0 0

-开发达人-

|

11月前

|

机器学习/深度学习人工智能运维

NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet

NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet

-开发达人-

55 0 0

LiBiGo

|

11月前

|

机器学习/深度学习人工智能算法

【Pytorch神经网络实战案例】21 基于Cora数据集实现Multi_Sample Dropout图卷积网络模型的论文分类

是在Dropout随机选取节点丢弃的部分上进行优化，即将Dropout随机选取的一组节点变成随机选取多组节点，并计算每组节点的结果和反向传播的损失值。最终，将计算多组的损失值进行平均，得到最终的损失值，并用其更新网络，如图9-19所示。

LiBiGo

179 0 0

【Pytorch神经网络实战案例】21 基于Cora数据集实现Multi_Sample Dropout图卷积网络模型的论文分类

clichong

YOLOv5的Tricks | 【Trick8】图片采样策略——按数据集各类别权重采样

这篇文章用来记录一下yolov5在训练过程中提出的一个图片采样策略，简单来说，就是根据图片的权重来决定其采样顺序。

clichong

475 0 0

YOLOv5的Tricks | 【Trick8】图片采样策略——按数据集各类别权重采样

汀丶人工智能

|

机器学习/深度学习存储人工智能

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

汀丶人工智能

185 0 0

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

被纵养的懒猫

|

新零售算法搜索推荐

理解图表示学习中的负采样 | KDD论文解读

本文“Understanding Negative Sampling in Graph Representation Learning”已被KDD 2020录用。

被纵养的懒猫

2542 0 0

理解图表示学习中的负采样 | KDD论文解读

热门文章

最新文章

阿里云各个地域节点测试IP（国内+海外）Ping值延迟测试（全解析）

基于Flink的实时日志分析系统实践

阿里云的SLB，植入cookie和重写cookie有什么区别？

uni-app 开源资源汇总

一文了解阿里云对象存储OSS

SQL SERVER中的OLEDB等待事件

kindle3使用技巧

sd卡无法写操作

普京顾问警告或征收科技税谷歌苹果可能受创

CIO：传统企业如何做好转型？

手动给docusaurus添加一个搜索

深入白盒测试：代码级透视与质量保证

网络安全与信息安全：防御前线的关键技术与意识

云端守卫：融合云计算与网络安全的未来之路

nginx 配置代理ip访问https的域名配置

基于Java的中国传统面食介绍网站的设计与实现(源码+lw+部署文档+讲解等)

Python搭建代理IP池实现存储IP的方法

外部中断的使用方法

基于Java的快递信息管理系统的设计与实现(源码+lw+部署文档+讲解等)

深入理解MySQL中的UPDATE JOIN语句

相关课程

更多

【算法实战】14. 利用PCA来简化数据

【算法实战】8. 集成方法-Adaboost

【算法实战】11. K-Means（K-均值）聚类算法

【算法实战】5. Logistic回归算法

【算法实战】2. K近邻算法

【算法实战】15. 利用SVD来简化数据

相关电子书

更多

深度学习论文实现：空间变换网络-第一部分

优势特征蒸馏(Privileged Features Distillation)在手淘信息流推荐中的应用

纯干货 | 机器学习中梯度下降法的分类及对比分析

相关实验场景

更多

如何快速训练大模型

【文生文】一键部署ChatYuan模型

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云oss简介和使用流程