为什么我们说海量数据处理技术会火

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qingfeng812/article/details/9018339 为什么我们说海量数据处理技术会火 大数据处理技术正在改变目前计算机的运行模式。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qingfeng812/article/details/9018339

为什么我们说海量数据处理技术会火

 

大数据处理技术正在改变目前计算机的运行模式。我们已经从中获得了大量收益,因为正是大数据处理技术给我们带来了搜索引擎Google。然而故事才刚刚开始,基于以下几个原因,我们说大数据处理技术正在改变着这个世界:

1.它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据。

2.它工作的速度非常快速:实际上几乎实时。

3.它具有普及性:因为它所用的都是最普通低成本的硬件

大数据为以下这些公司提供了解决方案:eBay、Facebook、LinkedIn、Netflix、Twitter以及Zynga。

事实上大数据处理并非一项新的技术,它仅仅是小部分技术的一个术语简称。其中的某些技术已经与我们生活了数度春秋,然而时间推移到2012年,其中更小的部分技术就让大数据一下子火了起来。

目前大数据市场已经达到700亿美元规模并以每年15%的速度增长

数据存储巨头EMC的CEO Pat Gelsinger最近透露,大数据处理目前的市场规模已达700亿美元并且正以每年15-20%的速度增长。几乎所有主要的大科技公司都对大数据感兴趣,对该领域的产品及服务进行了大量投入。其中包括了IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo等,而且这个列表还在继续。

眼见着这些财大气粗的大公司动作频繁,VC们也没闲着,因为该领域将是他们未来的摇钱树。他们正寻找大数据领域可靠的创业企业进行投资,创新孵化机构Accel就于去年11月建立了1亿美元的“大数据”基金,同样,IA Ventures也于之前的一个月建立同样的基金。

大数据领域正吸引大量的人才进入

所有关于大数据的东西都在于“大”:潜在市场大、该领域的企业大,就算是那些刚刚进入该领域进行创业的小团队,他们拿到的投资额也大。因此,如果看到大量硅谷工程师牛人进入该领域的情形,我们不会感到意外。来自Google、Facebook以及Yahoo的工程师,正排队进入像Cloudera、Hortonworks以及MapR这样的大数据领域创业公司。

廉价技术使大数据变成可能

大数据处理之所以发生是因为存在这样的需求:

1.云技术给了人们廉价获取巨量计算和存储的能力。你不必去买一个大型机或者一个数据处理中心,只需为你使用的部分付费。

2.社交媒体意味着每个人都在创造有趣的数据也消费这些数据。

3.拥有GPS定位系统的智能手机正提供人们日常生活中新的见解。

4.宽带连接的普及使得人们时刻保持在线状态

任务分解,大数据技术由四种技术构成

我们前面提到大数据技术是很多种技术的某种集合,它们包括:

1.分析技术

2.存储数据库

3.NoSQL数据库

4.分布式计算技术

分析技术意味着对海量数据进行分析以实时得出答案

人们会思考运用云技术我们能做什么?IBM副总裁兼云计算CTO Lauren States解释说,运用大数据与分析技术,我们希望能获得一种洞察力。她提供了一个澳大利亚网球公开赛的一个案例。当时组委会在IBM的云平台上建立了一个叫Slam Tracker的分析引擎,Slam Tracker收集了最近5年比赛的近3900万份统计数据。通过这些数据分析出了运动员们在获胜时的一些表现模式。

存储数据库(In-Memory Databases)让信息快速流通

大数据分析经常会用到存储数据库来快速处理大量记录的数据流通。比方说,它可以对某个全国性的连锁店某天的销售记录进行分析,得出某些特征进而根据某种规则及时为消费者提供奖励回馈。

NoSQL数据库是一种建立在云平台的新型数据处理模式

NoSQL在很多情况下又叫做云数据库。由于其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它为Zynga、AOL、Cisco以及其它一些企业提供网页应用支持。正常的数据库需要将数据进行归类组织,类似于姓名和帐号这些数据需要进行结构化和标签化。但是NoSQL数据库则完全不关心这些,它能处理各种类型的文档。

在处理海量数据同时请求时,它也不会有任何问题。比方说,如果有1000万人同时登录某个Zynga游戏,它会将这些数据分布于全世界的服务器并通过它们来进行数据处理,结果与1万人同时在线没什么两样。

NoSQL来自于大小不一的玩家

现今有多种不同类型的NoSQL模式。商业化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;开源免费的模式如CouchDB和Cassandra;还有亚马逊最新推出的NoSQL云服务。

分布式计算结合了NoSQL与实时分析技术

如果想要同时处理实时分析与NoSQL数据功能,那么你就需要分布式计算技术。分布式技术结合了一系列技术,可以对海量数据进行实时分析。更重要的是,它所使用的硬件非常便宜,因而让这种技术的普及变成可能。

SGI的Sunny Sundstrom解释说,通过对那些看起来没什么关联和组织的数据进行分析,我们可以获得很多有价值的结果。比如说可以分发现一些新的模式或者新的行为。运用分布式计算技术,银行可以从消费者的一些消费行为和模式中识别网上交易的欺诈行为。

分布式计算技术让不可能变成可能

分布式计算技术正引领着将不可能变为可能。Skybox Imaging就是一个很好的例子。这家公司通过对卫星图片的分析得出一些实时结果,比如说某个城市有多少可用停车空间,或者某个港口目前有多少船只。它们将这些实时结果卖给需要的客户。没有这个技术,要想快速便宜的分析这么大量卫星图片数据将是不可能的。

分布式计算技术是Google的核心,也是Yahoo的基础

目前分布式计算技术是基于Google创建的技术,但是却最新由Yahoo所建立。Google总共发表了两篇论文,2004年发表的叫做MapReduce的论文介绍了如何在多计算机之间进行数据处理;另一篇于2003年发表,主要是关于如何在多服务器上存储数据。

来自于Yahoo的工程师Doug Cutting在读了这两篇论文后建立了分布式计算平台,以他儿子的玩具大象命名。如今Cutting已经离开Yahoo,加入了最大的分布式系统创业公司Cloudera。其它一些创业企业包括MapR以及Yahoo自己的Hortonworks。但是所有最大的IT供应商都提供这个技术,它们或者以产品的形式,或者基于其云计算平台。

该技术经常是免费的,但是咨询费则相当昂贵

大多数大数据技术都是开放项目并且免费,通过提供服务来盈利。很多有需求的IT企业不了解如何建立这方面的应用,也没有这个必要。主流的IT公司都在建立这方面的产品和服务,以帮助企业充分利用分布式技术的强大优势。其中包括了很多正在崛起的初创企业。我们可以相信,未来类似Google这样的企业将更多来自于这些创业企业。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
25 4
大数据处理技术
|
3月前
|
机器学习/深度学习 存储 人工智能
大数据处理与分析技术:未来的基石
在信息化时代,数据已成为企业发展和决策的基础。而随着数据量的不断增长,传统的数据处理方法已经无法满足现代企业的需求。因此,大数据处理与分析技术的出现成为了新时代的必需品。本文将介绍大数据处理与分析技术的概念,意义、应用场景以及未来发展趋势。
50 3
|
5月前
|
人工智能 Cloud Native 大数据
构建高性能云原生大数据处理平台:融合人工智能优化数据分析流程
构建高性能云原生大数据处理平台:融合人工智能优化数据分析流程
191 0
|
3月前
|
机器学习/深度学习 数据采集 存储
迈向智慧时代的关键一步:大规模数据处理
在当前数字化浪潮中,大规模数据处理成为了推动科技发展和商业创新的关键步骤。本文将探讨大规模数据处理的重要性,并介绍其在智慧时代中的关键作用和挑战。
|
3月前
|
存储 数据采集 机器学习/深度学习
数据时代的新疆域:大规模数据处理的技术启示
大规模数据处理已经成为当今数字化时代的核心竞争力。本文将探讨大规模数据处理的重要性以及相关技术的应用,展示数据时代带来的新疆域,为企业和社会创造巨大的机遇。
27 0
|
9月前
|
存储 算法 搜索推荐
海量数据处理
海量数据处理
114 0
|
流计算 SQL HIVE
小红书如何实现高效推荐?解密背后的大数据计算平台架构
小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
小红书如何实现高效推荐?解密背后的大数据计算平台架构
Uma
|
存储 SQL OLAP
DTCC 2019 | 海量数据毫秒级分析的背后——《阿里超大规模实时数仓架构挑战与实践解析》
在DTCC 2019大会上,阿里云智能数据库产品事业部研究员林亮进行了题为《超大规模实时数仓架构挑战与实践解析》的分享,数据分析领域目前正在朝着在线化方向演进,数据业务在海量数据实时写入、高并发分析、稳定性、灵活性上挑战巨大。
Uma
4600 0
|
存储 分布式计算 大数据
对比解读五种主流大数据架构的数据分析能力
数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、对业务发展有着举足轻重的作用。
16294 0
|
关系型数据库 数据处理 数据库

热门文章

最新文章