《从机器学习到深度学习》笔记（1）有监督学习-阿里云开发者社区

《从机器学习到深度学习》笔记（1）有监督学习

2019-04-18 1391

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 经过数十年的发展机器学习已先后衍生出百余种算法，几乎每种算法又有若干分支。这些算法根据动机和适用场景可分为三大类型：有监督学习、无监督学习、强化学习。

有监督学习（Supervised Learning）是指这样的一种场景：

有一组数量较多的历史样本集，其中每个样本有一组特征（features）和一个或几个标示其自身的类型或数值的标签（label）；对历史样本学习得到模型后，可以用新样本的特征预测其对应的标签。

场景

在有监督学习中可以将每条数据看成是一条由特征到标签的映射，训练的目的是找出映射的规律。根据标签的类型可以将有监督学习再分为两个子类：

分类（Classification）：标签是可数的离散类型，比如疾病诊断（疾病的类型有限）、图像文字识别（文字的总量有限）。
回归（Regression）：标签是不可数的连续类型、有大小关系，比如房价预测（值无法枚举）。
图1-8是一个胸科诊断的分类案例。
1_8

图1-8 分类学习示例

图1-8中的年龄、血液PH值、是否吸烟就是模型的特征，诊断结果（肺气肿/正常）是学习的标签。

注意：图1-8中分类问题的特征变量也可以是连续类型（年龄、PH值）。

算法

有监督学习是机器学习中最易理解、发展最成熟的一个领域，其应用最广泛算法可以分成以下几类：

线性分析（Linear Analysis）：来源于统计学，这其中众所周知的最小二乘法（Ordinary Least Squares，OLS）是优化目标最易理解的回归学习算法；通过对优化目标的调整还衍生了Ridge Regression、Lasso Regression等算法。此外还包括线性判别分析（Linear Discriminant Analysis）。
梯度下降法（Gradient Descent）：用于寻找函数最小值或最大值问题。主要包括三个分支：批量梯度下降法BGD、随机梯度下降法SGD、小批量梯度下降法MBGD。
朴素贝叶斯（Naïve Bayes）：基于概率论的分类方法。在贝叶斯理论中，该方法要求所有特征之间相互独立，但2004年Harry Zhang的论文《The Optimality of Naive Bayes》中阐述了特征之间有比较平和的关联时朴素贝叶斯也能达到很好效果。
决策树（Decision Tree）：源自风险管理的辅助决策系统，是一个利用树状模型的决策支持工具，根据其建分支的策略不同派生了很多子算法，如ID3、C4.5、CART等。其优点是学习结果易于人类理解，缺点是当数据集变化时决策图变化较大。
支持向量机（Support Vector Machine，SVM）：上世纪六十年代就被提出，直到1992由Bernhard E.Boser等人改进为可以应用于非线形问题后被广泛应用，在本世纪初期的很长时间里被认为是最好的分类器。
神经网络（Neutral Network，NN）：由名称可知源于生物神经学，具有较长历史，可以处理复杂的非线形问题。传统神经网络的研究曾一度停滞，但随着计算机计算能力的提升和卷积网络结构的提出，由其发展而来的深度学习（Deep Learning）已经成为当前机器学习中最强大的工具。
集成学习（Ensemble Learning）：是一种利用若干个基础分类器共同执行决策的方法。此方法近来被广泛应用，其中的随机森林（Random Forrest）正在逐步取代SVM的地位；此外还有以AdaBoost为代表的提升方法（Boosting Methods）。
所有的有监督学习算法都有一定的容错性，即不要求所有历史样本绝对正确、可以有部分标签被错误分配的样本。当然，样本中的错误越多越不容易训练出正确的模型。