大数据全解:定义、价值及挑战

简介: 这些年,“大数据”一词已成为当下最热门的词汇之一。对于很多人来说,都不太理解什么是大数据?它比想象中复杂。大数据不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。

这些年,“大数据”一词已成为当下最热门的词汇之一。对于很多人来说,都不太理解什么是大数据?它比想象中复杂。大数据不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。更进一步来说,大数据是一种全新的思维方式和商业模式。

今天就让我们深入了解一下,到底什么是大数据。

大数据的定义

首先,还是要重新审视大数据的定义。行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

■ 要做什么?——获取数据、存储数据、分析数据

■ 对谁做?——大容量数据

■ 目的是什么?——挖掘价值

大数据,到底有多大?

传统的个人电脑,处理的数据,是GB/TB级别。

■ 1 GB = 1024 MB (GB - gigabyte)

■ 1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢?PB/EB级别。

■ 1 PB = 1024 TB (PB - petabyte)

■ 1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话,似乎不是很直观。

举个例子:

1TB,只需要一块硬盘可以存储。容量大约是20万张图片或20万首音乐,或者是671部小说。

1PB,需要大约2个机柜的存储设备。容量大约是2亿张图片或2亿首音乐。如果一个人不停地听这些音乐,可以听1900年。

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.3公里。如果摆放在机房里,大约需要21个标准篮球场,才能放得下。

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

EB还不是最大的。目前全人类的数据量,是ZB级。

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

1 ZB = 1024 EB (ZB - zettabyte)

大数据的特点4Vs

行业里对大数据的特点,概括为4个V。除了Volume(海量化)之外,剩下三个,分别是Variety、Velocity、Value。

Variety(多样化)

01

数据又分为结构化数据和非结构化数据。

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

Velocity(时效性)

02

从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

■ Email:2.04亿封被发出

■ Google:200万次搜索请求被提交

■ Youtube:2880分钟的视频被上传

■ Facebook:69.5万条状态被更新

■ 12306:1840张车票被卖出

■ ……

怎么样?是不是瞬息万变?

Value(价值密度)

03

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

大数据的价值

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。

■ 第一次浪潮:农业阶段,约1万年前开始

■ 第二次浪潮:工业阶段,17世纪末开始

■ 第三次浪潮:信息化阶段,20世纪50年代后期开始

进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。

2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

如今,大数据应用开始走进我们的生活,影响我们的衣食住行。

之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。

归纳来说,大数据的价值主要来自于两个方面:

  1. 帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。通过数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

  1. 帮助企业了解自己

大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。

大数据的挑战

大数据时代下,大部分人对于信息安全的意识不够,对相关数据的使用不当,造成敏感、隐私数据的泄露,尤其是具有一定关联性的多组数据同时泄漏,引发的连锁反应会让问题加重。

大数据时代下信息安全面对极大的挑战,信息安全技术也面临很大的考验,互联网信息安全有着无限的发展趋势,将会是大数据时代下最值得关注的问题。在未来互联网行业里,信息安全技术将是重中之重。

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。除了安全之外,大数据还要面临能耗等方面的问题。

换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
992 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
9天前
|
存储 传感器 大数据
大数据定义详解
【4月更文挑战第9天】大数据,超常规工具处理的海量(TB-PB-EB)多样化数据,包含结构化与非结构化信息,生成速度快且真实性高。关键在于专业化处理以实现数据增值,依赖于计算机科学、统计学的理论与云计算的支撑。大数据分析提供决策支持,驱动业务创新和社会治理改善,与云计算紧密关联,共同塑造新兴领域。
28 4
|
4月前
|
SQL 大数据 Java
大数据必知必会系列——萌新提问怎么定义HiveUDF函数?能否给个示例
大数据必知必会系列——萌新提问怎么定义HiveUDF函数?能否给个示例
36 0
|
机器学习/深度学习 人工智能 Cloud Native
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
IDC认为,从提升企业中长期发展质量、降低综合投入成本的角度出发,大数据技术领域将呈现出两个显著趋势:一体化和融合化。企业应以战略和顶层设计为先导,用体系化的思维全面构建大数据能力架构,避免形成新的数据、业务和能力孤岛。 【下载地址见文末】
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
|
数据采集 机器学习/深度学习 算法
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
681 0
大数据分析案例-基于RFM模型对电商客户价值分析(聚类)
|
大数据
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护
232 0
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
|
存储 SQL 弹性计算
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(五)
快速学习飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
196 0
|
存储 数据采集 分布式计算
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(四)
快速学习飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
186 0
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(四)
|
新零售 分布式计算 安全
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习日记(二)
快速学习 MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI
181 0
MaxCompute 持续定义 Saas 模式云数据仓库一云数据仓库 + BI | 学习日记(二)