机器学习（二）--- 分类算法详解

2017-12-04 1859

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

感觉狼厂有些把机器学习和数据挖掘神话了，机器学习、数据挖掘的能力其实是有边界的。机器学习、数据挖掘永远是给大公司的业务锦上添花的东西，它可以帮助公司赚更多的钱，却不能帮助公司在与其他公司的竞争中取得领先优势，所以小公司招聘数据挖掘/机器学习不是为了装逼就是在自寻死路。可是相比Java和C++语言开发来说，机器学习/数据挖掘确实是新一些老人占的坑少一些，而且可以经常接触一些新的东西。还是赶紧再次抓住机会集中的再总结一下吧，不能再拖拖拉拉了。
其实数据挖掘的主要任务是分类、聚类、关联分析、预测、时序模式和偏差分析。本文先系统的介绍一下机器学习中的分类算法，主要目录如下：

常用分类算法

Bayes

贝叶斯分类法是基于贝叶斯定定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率，来进行分类。朴素贝叶斯分类法假定一个属性值在给定类的影响独立于其他属性的 —— 类条件独立性。

朴素贝叶斯的优缺点

优点
1. 所需估计的参数少，对于缺失数据不敏感。
缺点
1. 假设属性之间相互独立，这往往并不成立。（喜欢吃番茄、鸡蛋，却不喜欢吃番茄炒蛋）。
2. 需要知道先验概率。
3. 分类决策错误率。

朴素贝叶斯的公式

朴素贝叶斯求解：
$P (C | F 1, . . ., F n) = p ( C ) p ( F 1 , . . . , F n | C )$

Decision Tree

决策树是一种简单但广泛使用的分类器，它通过训练数据构建决策树，对未知的数据进行分类。决策树的每个内部节点表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶结点存放着一个类标号。
在决策树算法中，ID3基于信息增益作为属性选择的度量，C4.5基于信息增益比作为属性选择的度量，CART基于基尼指数作为属性选择的度量。

决策树代码

决策树的优缺点

优点
1. 不需要任何领域知识或参数假设。
2. 适合高维数据。
3. 简单易于理解。
4. 短时间内处理大量数据，得到可行且效果较好的结果。
缺点
1. 对于各类别样本数量不一致数据，信息增益偏向于那些具有更多数值的特征。
2. 易于过拟合。
3. 忽略属性之间的相关性。
4. 不支持在线学习

决策树公式

熵：
$E n t r o p y (S) = - \sum p i log p i$
信息增益：
$E n t r o p y (S, A) = E n t r o p y (S) - \sum v \in V (A) |$
分裂信息：
$S p l i t I n f o R = - \sum j = 1 k | D j | | D | log$
增益比率：
$G a i n R a t i o (R) = G a i n ( R ) S p l i t I n f o R ( D )$
基尼指数：
$G i n i (S) = 1 - \sum i m p 2 i$

SVM

支持向量机把分类问题转化为寻找分类平面的问题，并通过最大化分类边界点距离分类平面的距离来实现分类。

支持向量机的优缺点

优点
1. 可以解决小样本下机器学习的问题。
2. 提高泛化性能。
3. 可以解决高维、非线性问题。超高维文本分类仍受欢迎。
4. 避免神经网络结构选择和局部极小的问题。
缺点
1. 缺失数据敏感。
2. 内存消耗大，难以解释。
3. 运行和调差略烦人。

支持向量机的公式

转自研究者July: SVM的求解，先导出

m a x 1 | | ω | | s . t . , y i ( ω T + b ) \geq 1 , i = 1 , .

这个问题等价于

m a x 1 | | ω | | 2 s . t . , y i ( ω T + b ) \geq 1 , i = 1

\partial L \partial ω = 0 ⟹ ω = \sum i = 1 n α i y i x i

\partial L \partial b = 0 ⟹ \sum i = 1 n α i y i = 0

L (ω, b, a) = 1 2 \sum i , j = 1 n α i α j y i y j x T i x j -

KNN

K近邻的优缺点

优点
1. 暂无
缺点
1. 计算量太大
2. 对于样本分类不均衡的问题，会产生误判。

K近邻的公式

Logistic Regression

逻辑回归的优缺点

优点
1. 速度快。
2. 简单易于理解，直接看到各个特征的权重。
3. 能容易地更新模型吸收新的数据。
4. 如果想要一个概率框架，动态调整分类阀值。
缺点
1. 特征处理复杂。需要归一化和较多的特征工程。

逻辑回归的公式

如果是连续的，那么就是多重线性回归；如果是二项分布，就是Logistic回归；如果是Poission分布，就是Poisson回归；如果是负二项分布，那么就是负二项分布。
回归问题常见步骤是：寻找h函数；构造J函数；想办法使得J函数最小并求得回归参数。逻辑回归的h函数为：

θ j := θ j - α 1 m x T E

J (θ) = 1 2 m \sum i = 1 n ( h θ ( x i ) - y i ) 2 + λ \sum j =

逻辑回归的问题

过拟合问题
1. 减少feature个数
2. 规格化

神经网络

神经网络的优缺点

优点
1. 分类准确率高。
2. 并行处理能力强。
3. 分布式存储和学习能力强。
4. 鲁棒性较强，不易受噪声影响。
缺点
1. 需要大量参数（网络拓扑、阀值、阈值）。
2. 结果难以解释。
3. 训练时间过长。

神经网络公式

深度学习？？？

Ensemble learning

集成学习的思路是在对新的实例进行分类的时候，把多个单分类器的结果进行某种组合，来对最终的结果进行分类。
更好的数据往往打败更好的算法，设计好的特征大有脾益。并且如果你有一个庞大的数据集，使用某种特定的算法的性能可能并不要紧。大可以挨个分类器尝试，并且选取最好的一个。（可以多从易用性和性能考虑）
而且从Netfliex Prize的经验教训来看，尝试各类分类器、交叉验证、集成方法往往能取得更好的结果，一般的boosting>bagging>single classifier。集成学习的方法主要有一下三种：
1. 在样本上做文章，基分类器为同一个分类算法，主要有bagging和boosting。
2. 在分类算法上做文章，即用于训练基分类器的样本相同。基分类器的算法不同。
3. 在样本属性集上做文章，即在不同的属性上构建分类器，比较出名的是randomforest Tree的算法，这个有weka也有实现。
1998年Jerome Friedman & Trevor Hastie & Robert Tibshirani发表文章Additive Logistic Regression: a Statistical View of Boosting，中提到Bagging是一个纯粹的降低相关度的方法。如果树的节点具有很高的相关性，bagging就会有很好的效果。

GBDT

回归树类似决策树，使用叶子节点的平均值作为判定的结果。如果不是叶子节点，那么就继续向下寻找。GBDT几乎可用于所有的回归问题，亦可以适用于二分类问题。
GBDT使用新生成的树来拟合之前的树拟合的残差。

Adaboost

Adaboost目的就是从训练数据中学习一系列的弱分类器或基本分类器，然后将这些弱分类器组合成一个强分类器。

Adaboost的算法流程如下，首先初始化训练数据的权值分布。每个训练样本最开始都被赋予相同的权重：1/N。计算Gm(x)在训练数据集上的误差率em就是被Gm(x)误分类样本的权值之和。计算Gm(x)的系数，am表示Gm(x)在最终分类器中的重要程度。

Random Forest

随机森林指通过多颗决策树联合组成的预测模型，可以对样本或者特征取bagging。

本文转自博客园知识天地的博客，原文链接：机器学习（二）--- 分类算法详解，如需转载请自行联系原博主。