2017数据科学职位报告:R超过SAS,但仍不如Python

简介: 本文以美国最大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势。

更多深度文章,请关注:https://yq.aliyun.com/cloud
Bob_Muenchen
Bob Muenchen

《R for SAS and SPSS Users》的作者,r4stats.com(分析数据科学软件趋势、帮助人们学习R语言的一家网站)的创办者;同时也是ASA官方认证的专业统计学家(30年从业经验),现任田纳西大学OIT Research Computing Support的管理员。

前言

招聘广告的数量能一定程度上反应每一种软件的流行程度,并从中预测出哪一种在将来会更加流行。本文作者以美国最大的招聘网站Indeed.com为统计平台,通过对某一天数据科学职位的招聘数量进行统计分析,得出数据科学软件的变化趋势。

为了公平,本文采用了一种专门的方法,用来在数据科学职位范围内统计每种软件的招聘数量(详见How to Search for Data Science Jobs),文中所有的图片也都是在这个前提下取得的,统计日期为2017年2月24日。

正文

各种软件招聘量见下图。其中最多的是SQL,将近18000,然后分别是Python和JAVA(13000左右),Hadoop(10000左右),R,C系列和SAS(这是R首次在在数据科学职位报告中超过SAS),Apache Spark(详细分析见Spark is the Future of Analytics),Tableau(5000左右,限数据科学职位),Apache Hive(3900左右),Scala,SAP,MATLAB,SPSS。其中Scala,SAP,MATLAB,SPSS均为2500左右。
Fig_1a_IndeedJobs_2017_1_

招聘量小于250的软件列在了下图中,分别是:Alteryx(240),Microsoft(Azure Machine Learning and Microsoft Cognitive Toolkit,157),Julia,FORTRAN,Apache Flink(125),H2O(100)。以操作容易为卖点的SAS Enterprise Miner、RapidMiner和KNIME招聘量都是90左右,大概是因为各公司认为没有必要聘请专家?SPSS模块也是同样类型的接口,但却只有50个职位。开源的MXNet深度学习框架有34个职位,而Tensorflow是它的12倍,但是两者都很年轻,有足够大的潜力在未来快速发展。
Fig_1b_IndeedJobs_2017_3_

下面我们先来看一下R是如何超过SAS的。从下图可以看出,在2012年到2017年2月28日这个时间段,SAS的职位需求一直都很稳定,而R则稳定增长并最终在2016年早期超过了SAS。另外根据blog post所述,R于2015年就已经在学术出版物中超过SAS。
Fig_1c_R_v_SAS_2017_02_18_1_

再来看一下Python和R。Python和R谁更流行的争论是由来已久,但是从来都没有多少数据支持。但是单从招聘职位上来看,Python于2013年就已经超过了R(如下图)。当然我们要清楚,R只是单纯用来进行数据分析,而Python在数据科学领域用途更广泛。

Fig_1d_R_v_Python_2017_2_28_2_

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

文章原标题《Data Science Job Report 2017: R Passes SAS, But Python Leaves Them Both Behind》,作者:Bob Muenchun,译者:杨辉,审校:董昭男,更为详细的内容,请查看原文

相关文章
|
1月前
|
数据采集 数据可视化 大数据
Python在数据科学中的实际应用:从数据清洗到可视化的全流程解析
Python在数据科学中的实际应用:从数据清洗到可视化的全流程解析
35 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Python 语言的瑰宝:数据科学中的无限潜能
在当今数字化时代,数据科学的应用已成为推动企业和学术界前进的重要力量。而Python语言,作为一门简洁、灵活且功能强大的编程语言,正日益成为数据科学领域的首选工具。本文将探讨Python语言在数据科学中的广泛应用,从数据分析到机器学习,再到人工智能。
|
1天前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
10 1
|
7天前
|
数据采集 机器学习/深度学习 数据可视化
数据科学面试准备:解决Python数据分析常见问答和挑战
【4月更文挑战第12天】本文介绍了Python数据分析面试中常见的问题和挑战,涉及Pandas、NumPy、Matplotlib等库的基础知识,以及数据预处理、探索性分析、可视化、回归分析和分类分析的方法。例如,使用Pandas处理缺失值和异常值,利用Matplotlib和Seaborn进行数据可视化,通过Scikit-learn进行回归和分类模型的构建。
|
1月前
|
存储 数据挖掘 数据处理
探索数据科学中的Python神器——Pandas库的强大功能
在数据科学领域中,Python语言的Pandas库被广泛应用于数据处理和分析。本文将深入探讨Pandas库的核心功能及其在数据科学中的重要性,帮助读者更好地理解和利用这一强大工具。
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
Python在数据科学中的应用:从入门到精通
【2月更文挑战第12天】 本文旨在探讨Python语言在数据科学领域的广泛应用,从基础语法到高级数据分析和机器学习模型的实现。我们将通过实际案例,展示如何使用Python进行数据处理、分析与可视化,以及如何利用Python的强大库和框架(如Pandas、NumPy、Matplotlib、Scikit-learn等)解决复杂的数据科学问题。此外,文章还将介绍一些最佳实践和技巧,帮助读者更有效地使用Python进行数据科学项目。无论你是数据科学的新手还是希望提升现有技能的专业人士,本文都将为你提供宝贵的资源和启发。
28 3
|
1月前
|
数据采集 数据可视化 数据挖掘
Python在数据科学中的应用
【2月更文挑战第11天】随着数据科学的迅速发展,Python已成为该领域不可或缺的工具之一。本文将从Python在数据科学中的角色出发,探讨其在数据处理、分析及可视化方面的应用。我们将通过实际案例,展示Python如何帮助数据科学家高效地解决问题,从而揭示Python在数据科学中的重要性和其未来的发展潜力。与传统摘要不同,本文旨在通过具体实例,为读者提供一个直观且实用的视角,让读者能够深刻理解Python在数据科学中的应用价值。
20 2
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索Python在数据科学中的应用:从数据处理到深度学习
本文全面探讨了Python语言在数据科学领域的关键应用,突破了传统摘要的界限,采用故事化手法引入主题。我们从一个数据科学项目的起点出发,描述了一个数据科学家如何使用Python进行数据收集、清洗、分析、可视化,以及如何应用机器学习和深度学习模型来提取洞见和做出预测。文章不仅阐述了Python在各个环节的具体应用,还介绍了相关的库和工具,旨在为读者提供一个关于Python在数据科学中应用的全景视图。
|
4月前
|
机器学习/深度学习 算法 数据可视化
Python是数据科学和机器学习
Python是数据科学和机器学习
21 1
|
4月前
|
机器学习/深度学习 自然语言处理 数据可视化
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
【Python百宝箱】数据科学的黄金三角:数据挖掘和聚类
167 2