做机器学习的是些什么样的人?Kaggle做了一份居委会式的调查

简介:
本文来自AI新媒体量子位(QbitAI)

在做数据科学的,都是些什么人?能赚多少钱?他们是怎样进入这个行业的,工作中会用到什么方法、哪些工具,遇到怎样的困难?

5a0d0325ac31d2a67ec7a6d3139cf7a2c2d34e43

为了解答这些问题,全球最大的数据科学家社区Kaggle面向他们的100万名注册用户,发起了像居委会一样的调查,从年薪多少到喜欢听哪个播客,都问了个遍。

他们收到了16000份调查结果,其中463份来自中国。

Kaggle把调结果梳理成一份交互式报告,量子位编译整理了其中要点:

谁在从事数据工作?

有很多方法可以研究有哪些人在从事数据工作,但我们首先从一些人口统计学信息入手来了解从事数据科学的人的职业和背景:

你多大年纪?

75c9e971edf17f41e0a402e0fa73932e319b85a7

平均而言,调查受访者都在30岁左右,但不同国家的数值各有不同。例如,印度的平均年龄比澳大利亚年轻9岁。

370e90e9795c8ff490623a5efc21bb2bd099b3e5

中国的受访者平均年龄是25岁。与全球情况相比,中国受访者的年龄分布更加集中,40岁以上的人数很少。

你的就业状态如何?

d322de3674c8316ae5254b22a6576bb31adaaece

从调查结果来看,全职工作的受访者占65.7%,正在找工作的占12.7%。

0662cc01e1cb66bffe8424155c957260c120a341

中国受访者中,全职工作的只有53.5%,17%的人处于没有工作也没在找工作的状态。(不知道是不是因为没有设置“学生”这个选项……)

你的头衔是什么?

04bb77da7a156c64a291c10209c095a61d35d868

虽然我们对“数据科学家”的定义是使用代码分析数据的人,但我们发现有很多职位头衔都被归入数据科学家之列。例如,在伊朗和马来西亚,从事数据科学工作的最流行的头衔是“科学家或研究员”。

b8d27cae4b6e47715115842f9596411d33bf771a

而在中国,数据科学工作者最流行的头衔是“机器学习工程师”,其次是“数据分析师”和“数据科学家”。

你的全职年薪有多少?

e65850390a92c5c23e7f46ef6023ed497937768b

虽然在我们的调查中,“薪酬和福利”不如“职业发展机会”重要,但最好还是能了解合理的薪酬。全球数据科学工作者的平均年薪是55441美元。

1a4f2d08fc16e1d37fb07f8b93b3cc40c2a86094

在美国,数据科学工作者平均年薪最高,达到11万美元。

9e26a3d786e4d5a57faf00235b3322aeb301cc47

机器学习工程师的平均年薪更是高达13.5万美元。

2fcb2f659f31105b4bcc2e23ff3e1f9376cc1347

在中国,受访的数据科学工作者的平均年薪只有29835美元,不过样本量较少,只有66人。

你最高的正式学历是什么?

acc26bf1f8f408f539a7ad44c270ae2e65c25b0e

整体来看,数据科学从业人员中的硕士比例最高。

94d18983da8f78a25f8d60c1dc1f529de5983a19

484970cc87f1c9778acbfa09390934701591fe35

但工资最高的(15万至20万美元和20万美元以上区间)获得博士学位的比例同样高。

一个典型的受访者是30岁,拥有硕士学位,从事数据科学家工作,年薪5.5万美元。但平均值并不能反应具体状况。

前面几个人口统计学问题只能粗浅地反映Kaggle的数据科学社区在年龄、性别、居住地、职位、薪资、经验和学历方面的多样性。

数据科学家具体干什么?

我们定义的数据科学家是“通过写代码来分析数据的人”。我们向这些人询问了他们的日常工作,以下就是一些数据:

工作中使用哪种数据科学方法?

7893e0e36da4bd249add172fed15d34b675b2b17

在各个行业中,逻辑回归都是工作中最常见的数据科学方法,只有军事和安全行业是个例外,该行业使用神经网络的频率稍高。

工作中使用什么工具?

8496e3f9a16829a1f028b1572909785f20523421

整体而言,Python是最常使用的数据分析工具,但仍有较多的统计学家仍然钟情于R。

工作中使用何种数据?

fe45b79ade8ec9f419a8da4cc2ffcdc402359757

关系数据是各行各业中最常使用的数据类型,除了学术以及国防和安全领域,他们更多地使用文本数据。

工作中如何共享代码?

adb9838e417139ee67825d2e7777d4eec5180f5f

虽然使用Git分享工作代码的比例最高,但大公司更多地使用电子邮件等文件共享软件,而非云计算技术。小公司通过云计算实现了更高的灵活性。

工作中面临哪些障碍?

07ff6f6aa0cef079359a13f3a2ff1cca3f511114

脏数据,我们又见面了。整体而言,脏数据似乎是数据科学领域最常见的问题。一丝不苟的数据工程师是个例外。脏数据之后,公司政策、缺乏管理和/或财务支持也是数据科学家最常遇到的问题。

仔细查看数据,你可能会发现很多行业的受访者都缺乏数据科学人才。这意味着新的数据科学家都很幸运。下面就来看看已经任职的受访者是如何走上正轨的:

新的数据科学家如何进入这一领域?

当我们踏上新的职业道路时,能够了解其他人的成功经验肯定很有帮助。我们询问了数据科学从业人员的成功经验。以下就是精选出来的一些建议:

新的数据科学家最应该首先学习哪种语言?

6fcfe2855f3d0d29070044f7b9e5acb91dc4ccf3

每个数据科学家对应该最先学习的语言都有自己的观点。

6fcfe2855f3d0d29070044f7b9e5acb91dc4ccf3

结果显示,只使用Python或R的人感觉他们做出了正确的选择。

ec6d4fcbdb79f84e51fdb9cb41842a0fab9fa41b

但如果你问问同时使用R和Python的人,他们推荐Python的比例达到R的两倍。

你使用哪种数据科学学习资源?

b9be067d51148ca199e7d168bddc421f27c72562

数据科学是个快速变化的领域,有很多有价值的资源可以帮助你学习,并保持前沿,以便让你保持称职状态。已经从事数据科学工作的人使用Stack Overflow问答、会议和播客的频率高于新人。如果你在开发内容或开源软件,那请记住,新人更常使用官方文档和YouTube视频。

Kaggle制作的交互式报告中,还包含着更多信息。

地址:https://www.kaggle.com/surveys/2017

另外,Kaggle还放出了这份报告背后的R语言代码,供大家在这个基础上,继续挖掘信息。

R kernel地址:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results

如果你只想要这份调查的数据,然后用它来做自己的分析,Kaggle也同样提供下载。

调查数据下载地址:https://www.kaggle.com/kaggle/kaggle-survey-2017

本文作者:李杉 夏乙 
原文发布时间:2017-10-31
相关文章
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
【Python机器学习】决策树、K近邻、神经网络等模型对Kaggle房价预测实战(附源码和数据集)
75 0
|
11月前
|
机器学习/深度学习 架构师 算法框架/工具
机器学习天降福音!数据科学家、Kaggle大师发布「ML避坑宝典」
机器学习天降福音!数据科学家、Kaggle大师发布「ML避坑宝典」
|
机器学习/深度学习 数据采集 数据可视化
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
基于kaggle网站所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格,数据的标签SalePrice是连续性数据,因此可以判定这是一个回归问题。
机器学习实战 | 逻辑回归应用之“Kaggle房价预测”
|
机器学习/深度学习 算法
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
179 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(三)
|
机器学习/深度学习 vr&ar
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
177 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(二)
|
机器学习/深度学习 存储
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
286 0
​Kaggle M5 Forecasting:传统预测方法与机器学习预测方法对比(一)
|
机器学习/深度学习 数据挖掘
机器学习系列(4)_数据分析之Kaggle鸢尾花iris(下)
那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长宽花瓣长宽分别是3.1、2.3、1.2、0.5,然后她就问你:“我家这朵鸢尾花到底属于哪个分类?”
机器学习系列(4)_数据分析之Kaggle鸢尾花iris(下)
|
机器学习/深度学习 数据挖掘 数据格式
机器学习系列(4)_数据分析之Kaggle鸢尾花iris(上)
已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。
机器学习系列(4)_数据分析之Kaggle鸢尾花iris(上)
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习系列(2)_数据分析之Kaggle电影TMDB5000(下)
机器学习系列(2)_数据分析之Kaggle电影TMDB5000
机器学习系列(2)_数据分析之Kaggle电影TMDB5000(下)
|
机器学习/深度学习 JSON 数据挖掘
机器学习系列(2)_数据分析之Kaggle电影TMDB5000(上)
机器学习系列(2)_数据分析之Kaggle电影TMDB5000
机器学习系列(2)_数据分析之Kaggle电影TMDB5000(上)