三招提升数据不平衡模型的性能(附python代码)

【方向】 2018-06-08

算法 机器学习 性能 随机森林 数据科学 数据不平衡

       对于深度学习而言,数据集非常重要,但在实际项目中,或多或少会碰见数据不平衡问题。什么是数据不平衡呢?举例来说,现在有一个任务是判断西瓜是否成熟,这是一个二分类问题——西瓜是生的还是熟的,该任务的数据集由两部分数据组成,成熟西瓜与生西瓜,假设生西瓜的样本数量远远大于成熟西瓜样本的数量,针对这样的数据集训练出来的算法“偏向”于识别新样本为生西瓜,存心让你买不到甜的西瓜以解夏天之苦,这就是一个数据不平衡问题。针对数据不平衡问题有相应的处理办法,比如对多数样本进行采样使得其样本数量级与少样本数相近,或者是对少数样本重复使用等。最近恰好在面试中遇到一个数据不平衡问题,这也是面试中经常会出现的问题之一,现向读者分享此次解决问题的心得。

1_jpeg

数据集

       训练数据中有三个标签,分别标记为[1、2、3],这意味着该问题是一个多分类问

登录 后评论
下一篇
我是你爱豆
12903人浏览
2019-08-22
相关推荐
关于数据科学的那些事
6549人浏览
2017-10-01 22:37:57
0
1
0
3817