一文解析统计学在机器学习中的重要性

简介: 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

统计是一组工具,您可以使用这些工具来探求数据方面的重要问题。

您可以使用描述性统计方法将原始观测数据转换为您可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。

在这篇文章中,您将明晰为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

本文中您将了解到:

统计通常被认为是应用机器学习领域的先决条件。
我们需要利用统计将观测结果转化为信息,并回答有关观测样本的问题。
统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

那我们开始吧!

统计是必备的先决条件

机器学习和统计是两个密切相关的研究领域,统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。

对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃的例子来做个解释。

请先看一本流行的实用机器学习书《应用预测建模》中的一句话:

”读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)“
——《应用预测建模》
2013年 第7页

流行书籍《统计学习入门》中也有这样的例子:

”我们期望读者至少有一门统计学基础课程。“
——《统计学习介绍及其
在R语言中的应用》
2013年 第9页

即使统计学不是先决条件,但还是需要一些简单的先导知识,正如广为人知的《编程集体智慧》一书的引语所言:

“这本书并不认为你事先就知道[…]或统计学[…] 但是,掌握一些三角学和基本统计知识将有助于你理解算法。”
——《编程集体智慧:构建
智能Web 2.0应用程序》
2007年 第13页

为了能够更好地理解机器学习,需要对统计学有一些基本的概念。

欲知其中缘由,我们首先必须明白为何要了解统计学领域的知识。

为什么要学统计学?

单独的原始观察数据只是数据,它们还不是信息或知识。

有了原始数据,那么接下来的问题是:

什么是最常见或可预期的观测?
观测的限制条件是什么?
数据是什么样子的?

虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。

除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:

哪些变量是最相关的?
两个实验的结果有什么不同?
数据中的差异是真实的还是噪声的结果?

这类问题很重要,其结果对项目、利益相关者和有效决策都很重要。

我们需要用统计方法来找到数据问题的答案。

这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。

这只是冰山一角,因为预测建模项目的每一步都需要用到统计方法。

什么是统计学?

统计学是数学的一个子领域。

它指的是处理数据和使用数据回答问题的方法集合。

统计学是对疑难问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来的。
——《统计》第四版
2007年 第13页

由于该领域采用抓斗袋的方法来处理数据,对于初学者来说,它可能看起来大而无形。统计方法和其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。

虽然统计知识并非没有深奥的理论知识,但从统计与概率的关系中得出的一些重要、容易理解的定理,可以提供有价值的理论基础。

举两个例子:大数定律和中心极限定理。

第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们比较样本之间的期望值(例如:平均值)提供基础。

当涉及我们在实践中使用的统计工具时,可以将统计领域分为两大类:

描述性统计用于总结数据
推理统计用于从数据样本中得出结论

"统计数据使研究人员能够从大量的采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。"
——《统计概述》 第三版
2010年 第9—10页

描述统计(学)

描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。

通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。

描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。

推断统计

推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。

通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。

可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。

有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。

延展阅读

如果您想深入研究,本节将提供更多关于该主题的资源。

书籍
《应用预测建模》,2013年
《R语言应用程序统计学习导论》,2013年
《编程集智能:构建智能Web 2.0应用程序》,2007年
《统计》,第四版,2007年
《统计:统计推断的简明课程》,2004年
《简明统计》,第三版,2010年。

文章
维基百科上的统计
门户:维基百科上的统计
维基百科上的统计文章列表
维基百科上的数理统计
维基百科上的统计历史
维基百科的描述性统计
对维基百科的统计推断

总结

在这篇文章中,您已明晰为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。

具体而言,总结如下:

统计通常被认为是机器学习领域的先决条件。
我们需要统计数据来将观测结果转化为信息,并回答有关观测样本的问题。
统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

原文发布时间为:2018-07-18
本文作者:Jason Brownlee
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU

相关文章
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习-可解释性机器学习:随机森林与fastshap的可视化模型解析
机器学习-可解释性机器学习:随机森林与fastshap的可视化模型解析
103 1
|
1月前
|
机器学习/深度学习 运维 算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
机器学习的魔法(三)解析无监督学习的黑科技,揭秘新闻话题背后的神奇算法
|
5月前
|
机器学习/深度学习 人工智能 数据库
Python 机器学习入门:数据集、数据类型和统计学
机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。
159 2
Python 机器学习入门:数据集、数据类型和统计学
|
6月前
|
机器学习/深度学习 数据采集 算法
回归算法全解析!一文读懂机器学习中的回归模型
回归算法全解析!一文读懂机器学习中的回归模型
318 0
|
3月前
|
人工智能
全方位解析PAI:数据准备、模型开发、模型训练一网打尽
全方位解析PAI:数据准备、模型开发、模型训练一网打尽 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研发中。然而,AI的研发并非易事,从数据准备、模型开发、模型训练到模型服务,每一个环节都需要专业的工具和平台来支持。阿里云的PAI(Powered by AI)正是一个涵盖了数据准备、模型开发、模型训练、模型服务全流程的AI工作平台。本文将为您详细介绍PAI的各个子产品的产品线上规格及使用指引。
39 2
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
机器学习-ROC曲线:技术解析与实战应用
机器学习-ROC曲线:技术解析与实战应用
130 0
|
6月前
|
机器学习/深度学习 监控 PyTorch
机器学习 - 混淆矩阵:技术与实战全方位解析
机器学习 - 混淆矩阵:技术与实战全方位解析
87 0
|
7月前
|
机器学习/深度学习 人工智能 算法
编织人工智能:机器学习发展总览与关键技术全解析
编织人工智能:机器学习发展总览与关键技术全解析
46 0
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
16天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)

热门文章

最新文章

推荐镜像

更多