《大数据导论》——1.1节概念与术语

简介:

本节书摘来自华章社区《大数据导论》一书中的第1章,第1.1节概念与术语,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.1 概念与术语
作为开端,我们首先要定义几个基本概念和术语,以便大家理解。
1.1.1 数据集
我们把一组或者一个集合的相关联的数据称作数据集。数据集中的每一个成员数据,都应与数据集中的其他成员拥有相同的特征或者属性。以下是一些数据集的例子:
存储在一个文本文件中的推文(tweet)
一个文件夹中的图像文件
存储在一个CSV格式文件中的从数据库中提取出来的行数据
存储在一个XML文件中的历史气象观测数据
图1.1中显示了三种不同数据格式的数据集。


d6de8ab9776c2e7c348b7b25377b2ad8d52abea2

1.1.3 数据分析学
数据分析学是一个包含数据分析,且比数据分析更为宽泛的概念。数据分析学这门学科涵盖了对整个数据生命周期的管理,而数据生命周期包含了数据收集、数据清理、数据组织、数据分析、数据存储以及数据管理等过程。此外,数据分析学还涵盖了分析方法、科学技术、自动化分析工具等。在大数据环境下,数据分析学发展了数据分析在高度可扩展的、大量分布式技术和框架中的应用,使之有能力处理大量的来自不同信息源的数据。图1.3显示了代表数据分析学的符号。


c60ea1e167eca3e5dda58e5b3abfe6094a64ce43

大数据分析(学)的生命周期通常会对大量非结构化且未经处理过的数据进行识别、获取、准备和分析等操作,从这些数据中提取出能够作为模式识别的输入,或者加入现有的企业数据库的有效信息。
不同的行业会以不同的方式使用大数据分析工具和技术。以下述三者为例:
在商业组织中,利用大数据的分析结果能降低运营开销,还有助于优化决策。
在科研领域,大数据分析能够确认一个现象的起因,并且能基于此提出更为精确的预测。
在服务业领域,比如公众行业,大数据分析有助于人们以更低的开销提供更好的服务。
大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同,我们大致可以将分析归为以下4类:
描述性分析
诊断性分析
预测性分析
规范性分析
不同的分析类型将需要不同的技术和分析算法。这意味着在传递多种类型的分析结果的时候,可能会有大量不同的数据、存储、处理要求。如图1.4所示,生成高质量的分析结果将加大分析环境的复杂性和开销。


523b8f79d88a55ca0d6c745dc7b6d9111f1849b0

从描述性分析到规范性分析,价值和复杂性都在不断提升
1.描述性分析
描述性分析往往是对已经发生的事件进行问答和总结。这种形式的分析需要将数据置于生成信息的上下文中考虑。
相关问题可能包括:
过去12个月的销售量如何?
根据事件严重程度和地理位置分类,收到的求助电话的数量如何?
每一位销售经理的月销售额是多少?
据估计,生成的分析结果80%都是自然可描述的。描述性分析提供了较低的价值,但也只需要相对基础的训练集。
如图1.5所示,进行描述性分析常常借助即席报表和仪表板(dashboard)。报表常常是静态的,并且是以数据表格或图表形式呈现的历史数据。查询处理往往基于企业内部存储的可操作数据,例如客户关系管理系统(CRM)或者企业资源规划系统(ERP)。


91293a1a58423409b08df169f8540052ca01bffb

图左侧的操作系统,经过描述性分析工具的处理,能够生成图右侧的报表或者数据仪表板
2.诊断性分析
诊断性分析旨在寻求一个已经发生的事件的发生原因。这类分析的目标是通过获取一些与事件相关的信息来回答有关的问题,最后得出事件发生的原因。
相关的问题可能包括:
为什么Q2商品比Q1卖得多?
为什么来自东部地区的求助电话比来自西部地区的要多?
为什么最近三个月内病人再入院的比率有所提升?
诊断性分析比描述性分析提供了更加有价值的信息,但同时也要求更加高级的训练集。如图1.6所示,诊断性分析常常需要从不同的信息源搜集数据,并将它们以一种易于进行下钻和上卷分析的结构加以保存。而诊断性分析的结果可以由交互式可视化界面显示,让用户能够清晰地了解模式与趋势。诊断性分析是基于分析处理系统中的多维数据进行的,而且,与描述性分析相比,它的查询处理更加复杂。
3.预测性分析
预测性分析常在需要预测一个事件的结果时使用。通过预测性分析,信息将得到增值,这种增值主要表现在信息之间是如何相关的。这种相关性的强度和重要性构成了基于过去事件对未来进行预测的模型的基础。这些用于预测性分析的模型与过去已经发生的事件的潜在条件是隐式相关的,理解这一点很重要。如果这些潜在的条件改变了,那么用于预测性分析的模型也需要进行更新。


9c21c471edcb189d8a7cdccabd9c7ae3a46ddfc1

4.规范性分析
规范性分析建立在预测性分析的结果之上,用来规范需要执行的行动。其注重的不仅是哪项操作最佳,还包括了其原因。换句话说,规范性分析提供了经得起质询的结果,因为它们嵌入了情境理解的元素。因此,这种分析常常用来建立优势或者降低风险。
下面是两个这类问题的样例:
这三种药品中,哪一种能提供最好的疗效?
何时才是抛售一只股票的最佳时机?
规范性分析比其他三种分析的价值都高,同时还要求最高级的训练集,甚至是专门的分析软件和工具。这种分析将计算大量可能出现的结果,并且推荐出最佳选项。解决方案从解释性的到建议性的均有,同时还能包括各种不同情境的模拟。
这种分析能将内部数据与外部数据结合起来。内部数据可能包括当前和过去的销售数据、消费者信息、产品数据和商业规则。外部数据可能包括社会媒体数据、天气情况、政府公文等等。如图1.8所示,规范性分析涉及利用商业规则和大量的内外部数据来模拟事件结果,并且提供最佳的做法。


1b784585d05dc489e274ba85b23eafcc56ea258c

规范性分析通过引入商业规则、内部数据以及外部数据来进行深入彻底的分析
1.1.4 商务智能
商务智能(BI)通过分析由业务过程和信息系统生成的数据让一个组织能够获取企业绩效的内在认识。分析的结果可以用于改进组织绩效,或者通过修正检测出的问题来管理和引导业务过程。商务智能在企业中使用大数据分析,并且这种分析通常会被整合到企业数据仓库中以执行分析查询。如图1.9所示,商务智能的输出能以仪表板显示,它允许管理者访问和分析数据,且可以潜在地改进分析查询,从而对数据进行深入挖掘。

image

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 数据采集 机器学习/深度学习
大数据学习的一些概念(值得背)
大数据学习的一些概念(值得背)
|
6月前
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
74 0
|
4月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
107 0
|
5月前
|
人工智能 分布式计算 数据可视化
大数据导论
大数据导论
46 0
|
4月前
|
存储 分布式计算 大数据
【云计算与大数据技术】大数据概念和发展背景讲解(图文解释 超详细)
【云计算与大数据技术】大数据概念和发展背景讲解(图文解释 超详细)
173 0
|
4月前
|
分布式计算 MaxCompute
在MaxCompute中,资源(Resource)是特有的概念
在MaxCompute中,资源(Resource)是特有的概念
27 6
|
5月前
|
数据采集 机器学习/深度学习 监控
大数据导论考察论文
大数据导论考察论文
65 0
|
7月前
|
存储 大数据 API
大数据Flink流处理相关概念
大数据Flink流处理相关概念
57 0
|
8月前
|
存储 数据采集 分布式计算
hadoop离线01--大数据导论、Apache Zookeeper
hadoop离线01--大数据导论、Apache Zookeeper
|
10月前
|
存储 大数据