Mixup vs. SamplePairing：ICLR2018投稿论文的两种数据增广方式-阿里云开发者社区

Mixup vs. SamplePairing：ICLR2018投稿论文的两种数据增广方式

2018-03-06 4488

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

论文动机

神经网络训练需要海量的人工标注数据集，一般的数据增广方式是裁剪、翻转以及旋转、尺度变化。之前在 arXiv 上看到过 IBM的一篇文章 SamplePairing：针对图像处理领域的高效数据增强方式，该论文主要是关于数据增强方式，没有公式没有网络架构，只通过简单的相加求平均值方式。

而在最近公布的 ICLR 2018 入围名单中，另一篇数据增广相关论文脱颖而出，而 SamplePairing 出局。仔细阅读 Mixup 的论文，发现它其实是对 SamplePairing 的更进一步延伸。

名词解释

Empirical Risk Minimization (ERM)：机器学习的经验风险最小化，ERM 策略认为，经验风险最小化的模型是最优化的模型。可参照李航的《统计学习方法》[1] 进行理解。

Βeta分布：既然概率论中的贝塔分布，是指一组定义在是指一组定义在（0，1）区间的连续概率分布，有两个参数 α 和 β。论文中 α 和 β 相等。Βeta 分布的定义、概率密度函数和性质可参考 PRML [2]。

为了理解 Beta 分布，使用 Python 可视化 Beta 的模型。论文选择的超参数是 α=0.2 和 0.4，此处主要观察 α 变化对应的概率分布变化。

from scipy.stats import beta
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 1, 100)

a_array = [1,0.5 ,0.1 ,0.2, 0.01,0.001]
for  a in a_array:

   plt.plot(x, beta.pdf(x, a, a), lw=1, alpha=0.6, label='a=' + str(a) + ',b=' + str(a))

plt.legend(frameon=False)

plt.show()