R语言会成为大数据时代的现象级语言吗?

简介: 文章讲的是R语言会成为大数据时代的现象级语言吗,大数据虽然能为企业带来很多好处,但同时它也让开发人员们很是头痛,更为要命的是,开发人员渐渐发现传统编程语言不足以应付他们遇到的许多挑战。   数据科学家和开发人员在处理数据时往往会有以下几个选择:   ·基于GUI的开发平台。
文章讲的是 R语言会成为大数据时代的现象级语言吗大数据虽然能为企业带来很多好处,但同时它也让开发人员们很是头痛,更为要命的是,开发人员渐渐发现传统编程语言不足以应付他们遇到的许多挑战。

R语言会成为大数据时代的现象级语言吗?

  数据科学家和开发人员在处理数据时往往会有以下几个选择:

  ·基于GUI的开发平台。

  ·C-based语言(如C,C ++和Java)。

  ·R语言。

  R语言论坛博主Oliver Bracht曾经写过一篇关于R语言优点的主题帖子,并指出R比其他语言更适合处理更大的数据查询。

  Jan Wijffels在talkR会议上列举了不同规模的数据集,根据经验,百万条记录的数据集可以轻松地用标准R进行处理;百万到十亿条记录的数据集也可以使用R来处理,但是需要额外的努力;十亿条以上的数据集就需要MapReduce算法,而这些算法可以在R中设计,并用Hadoop等连接器进行处理。

  下面我们来看一下数据科学家都使用哪些工具和编程语言:

  GUI开发平台

  GUI开发平台非常友好,但是它们不足以处理大型的大数据项目,随着大数据渐渐成为企业的优先事务,更多的大数据项目将会涌现,这些GUI开发平台会更受欢迎。

  C以及C-based语言

  C以及C-based语言早在1978年就被制定了编程语言标准,C是C ++,Java,Python以及其他面向对象编程语言的基础。虽然新的C-based语言具有强大的面向对象能力,但它们在大数据查询方面也具有一定的局限性。

  C语言有一些很好的数据处理方法,程序员会选择C是基于以下的原因:

  ·C是用于周界预估和处理传感器数据的伟大语言。

  ·Java生态系统类似于Hadoop。

  ·C ++可用于处理雷达数据。

  这些语言在处理GB级的数据时非常有用,但是在处理大数据时并不健壮。例如,C++可用于大数据项目,但是要求程序员要十分熟练准确的使用指针。C-based语言的局限性使得开发人员不得不去寻找替代方案,而R语言是更新的编程语言,更适合处理大数据。

  R是查询和处理大数据的更好选择

  R语言的大数据编程是在几年前开发的,它用于数据分析和分布式计算。R语言的库被广泛应用于大型分布式平台,而且在较小的系统上也能很好地运行,甚至还可以在个人笔记本电脑上使用。

  InfoWorld的编辑Martin Heller指出,R是更适合大数据开发人员有以下几个原因:

  R语言的包和函数能够加载各种来源的数据,除了使用read.table()函数处理的逗号之外的分隔符,您可以复制和粘贴数据表,读取Excel文件,将Excel连接到R,导入SAS和SPSS数据以及访问数据库, Salesforce和RESTful接口。

  您不需要学习标准数据导入的语法,因为RStudio Tools | Import Dataset菜单项将帮助您通过查看文本文件或URL中的数据,设置正确的转换选项来交互地生成正确的命令

  我们来更详细地看一下这些要点:

  多个来源加载数据

  在大数据爆红之前,大多数应用程序都是从单一来源汇总数据。而大数据催生了物联网的发展,现在许多项目都要依赖众多来源的数据。营销应用程序是一个典型的例子,他们需要从内部数据库,社交媒体和客户设备等多个来源来收集客户数据。所以你需要一种可以从所有来源查询和处理数据的编程语言。

  程序员的适应程度

  程序员学习新的语言需要一定的时间,不过,一般来说多功能的编程语言都有更陡峭的学习曲线,尤其是处理大数据之类的复杂东西。

  而R是一个例外。只要程序员了解其基本编码原则,就可以使用内建的库来处理大数据。

  与其他语言的兼容性

  R语言的优点之一就是和其他主流的编程语言兼容。

  从云平台中提取的能力

  如果程序员学习了R语言扩展包dplyr,就可以使用它来运行不同云平台的大数据查询,如Google BigQuery和Amazon Redshift。

  托管公司与R兼容

  由于R可能成为大数据应用程序的标准编程语言,所以更多的托管公司开始重视R语言,以下托管公司都在近期为R语言程序员提供了新的解决方案:

  Host.AG是来自Antigua 和Barbuda,的一家托管公司,它使用大数据来分析网络安全威胁并部署最佳解决方案,例如DDoS攻击。

  VPS.AG认为许多客户依赖大数据,但是预算有限,所以他们向GB数据级的公司提供经济托管服务。

  TrueHoster深耕各行业的客户服务,使用大数据为所有行业定制服务计划。

  随着大数据的继续深入发展,其他托管服务供应商对于R语言兼容性的需求会上升。

  R将成为大数据的未来?

  大数据正在以各种方式改变我们的生活,但是却很少有人谈论大数据时如何改变程序员的生活。程序员正在寻找更强大的解决方案,他们发现,R具有许多其他语言缺乏的大数据特征,并相信在不久的将来R语言可能会成为更流行的语言。


作者:朱立娜

来源:IT168

原文链接: R语言会成为大数据时代的现象级语言吗?

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
数据可视化 大数据 数据处理
大数据处理时的python和R语言
【5月更文挑战第5天】本文讨论了在语言Python 和R中数据处理时的框架,比如Python中的 OpenCV, Matplotlib, NumPy, Pandas, 和Seaborn。
16 1
大数据处理时的python和R语言
|
机器学习/深度学习 分布式计算 搜索推荐
|
存储 算法 大数据
《R语言数据挖掘》----第1章 预备知识 1.1大数据
第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义、预处理等。 最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前,我们来看一看将要介绍的主题: 数据挖掘 社交网络挖掘 文本挖掘 网络数据挖掘
1315 0
|
分布式计算 大数据 API
R语言和大数据
分布式的R
5519 0
|
12天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
12天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
12天前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
12天前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)

热门文章

最新文章