数据科学究竟是什么?

简介: 本文是关于数据科学的概述和讨论,包括数据挖掘,统计推断,机器学习,数据工程等等。

screenshot

数据科学是一门将数据变得有用的学科。它包含三个重要概念:

  1. 统计
  2. 机器学习
  3. 数据挖掘/分析

数据科学的定义

如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:

  1. 大数据意味着计算机的使用频率增加。
  2. 统计学家很难将纸张上所写算法用计算机实现。

由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。

screenshot
推特给出的定义circa 2014

2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。

之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。

screenshot
Drew Conway对数据科学的定义

维基百科上对数据科学的定义更接近于我给学生讲授的内容:

数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。

简单来讲:数据科学是一门将数据变得有用的学科

现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”

先看下图,该图内容与维基百科给出的定义十分契合:

screenshot

这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?

统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。

新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。

我建议可按如下方式进行区分:

screenshot

None-One-Many

这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。

我们的行动和决定会影响到我们周围的世界。

接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。

下图是决策导向图,您可以通过以下三步让数据变得有用。

screenshot

数据挖掘

如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。

分析的黄金准则:只对你所见的下结论。

除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。

除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。

暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。

统计推断

灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。

如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。

在情况不确定的时候,或许统计学能够改变你的想法。

机器学习

机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同如何入门机器学习企业运用机器学习的经验教训以及向孩子介绍监督学习等。

screenshot

数据工程

数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。

数据工程与数据科学的差异是前后的区别。

获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。

决策智能

决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。

决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。

以上为译文

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《What on earth is data science?》,作者:Cassie Kozyrkov,译者:Elaine,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
10月前
|
算法 数据挖掘 API
【数据科学基础】学习笔记
数据科学基础与数据挖掘
136 0
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
【数据科学】反思十年数据科学和可视化工具的未来
【数据科学】反思十年数据科学和可视化工具的未来
|
11月前
|
机器学习/深度学习 人工智能 算法
【数据科学】数据科学难题,怎么解释到底什么是数据科学
【数据科学】数据科学难题,怎么解释到底什么是数据科学
|
11月前
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 人工智能 供应链
数据科学的现在与未来
数据科学是截至近年来技术领域中最具热度的方向之一。如果您拥有数据科学或者相关专业的工作经验及学位,那么只要大笔一挥、简历一发,一份薪酬可观的职位就会应手而得。
|
数据可视化 Python 数据挖掘
|
机器学习/深度学习 自然语言处理 Python
送你10本机器学习和数据科学必读书
让一系列免费的机器学习与数据科学书籍开启你的夏日学习之旅吧!
2080 0
|
机器学习/深度学习 分布式计算 算法
数据科学指南
本文为学习数据科学的指南,从编程语言、数据库管理、数据收集和整理方法、特征工程、机器学习模型、模型评估方面进行讲述。
2753 0
|
机器学习/深度学习 自然语言处理 大数据
关于数据科学的那些事
随着大数据越来越火热,数据科学正在成为二十一世纪最流行的科学技术之一,本文为你汇集了数据科学的相关学习资料。
7396 0