《数据分析实战:基于EXCEL和SPSS系列工具的实践》——第1章 什么是数据分析 1.1 一眼就看到结论还需要数据分析吗

简介:

本节书摘来自华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第1章,第1.1节,作者 纪贺元,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

什么是数据分析

1.1 一眼就看到结论还需要数据分析吗

在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪:

我们的企业其实是不需要数据分析的。

我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了。

公司的数据好简单啊,就那么几列,有啥好分析的。

公司里面的很多数据都是造假的,没有分析的价值。

在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题,如果企业员工出于种种原因总是在编造各种假数据,这应该属于职业道德或者企业管理水平(企业应该通过严格严谨的管理流程使得员工无从造假)的范畴,这里暂且不讨论。那么,什么是数据的可分析度呢?

这个问题实际上包含如下两层意思:

1)这个企业的数据是比较复杂的,一眼是看不到结论的,需要使用一些工具、模型、方法进行分析。

2)关于数据的分析是有价值的,也就是说分析的过程和结论对于企业是有价值的,能够对企业的生产经营等带来促进和提高。

因此,在数据的可分析度方面,我们需要有一些判断的维度,以帮助我们辨识数据是否值得分析,这里所说的维度主要考虑企业数据量、数据复杂度、数据颗粒度这三个方面(如图1-1所示)。

image

1.1.1 企业数据量

企业数据量是企业可分析度的第一要素,企业数据量的大小往往取决于两个因素:

一是企业的行业属性,二是企业的信息化程度。众所周知,互联网行业往往也是产生大量数据的行业,“BAT”不仅仅引领了各自行业的发展,同时也是数据行业发展的标杆。

一般情况下,企业的数据量跟企业的规模呈正相关关系,中等以上规模的企业数据量均比较大。但是也有例外,我曾经接触过一家从事智能手机操作系统推送业务的公司,该公司规模很小,只有40多人,但是由于合作方是国内诸多智能手机的生产企业,因此该企业的手机用户数量有3000多万,每天产生的业务数量高达几GB。

1.1.2 数据复杂度

如果说数据量相当于数据的行,那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例,总共的列数加在一起是12列。该公司要求分析客户数据,但是涉及客户资料的数据基本上就是客户名称、客户行业(行业数据还是不全的)这两列,客户注册资本、销售收入、雇佣人数都没有,怎么分析?

做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚!请想想,你提供的客户数据就是寥寥数列,那要怎么去分析?怎么做文章?

到目前为止,并没有什么明确的指标来度量数据量与数据复杂度,我们很难说每天的数据超过3万行就算数据量多,或者说数据超过30列就算数据复杂。特别是数据复杂度,这中间还有一个数据相关性的问题:以案例文件1.1为例,虽然其中的数据是3列,但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析(相关系数的函数,后面会详细讲解),我们发现第二列“销售数量”和第三列“销售额”之间的相关系数是1(完全相关),如图1-2所示。

image

从数据分析的角度看,这里实际上是两列数据而不是3列,换句话说,第3列的销售额数据属于“衍生指标”,因为单价30是固定的,我们只需要用销售量这个数据就可以反映销售的状况。

因此通过数据的列数来衡量数据复杂度其实也未必准确,而是应该看剔除相关性之后的列数。

1.1.3 数据颗粒度

数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性,还是通过一个例子来说明一下。炒过股票、用过股票软件的人都知道各种周期的分析(如图1-3所示)。

image

从图1-3可以看出,股票有1分钟、5分钟、15分钟、30分钟等多个观察周期,而各种周期之间存在着相互包含的关系,例如5分钟的周期线实际上是由5个1分钟的周期线组合而成的,而15分钟的周期线是由3个5分钟周期线组合而成,以此类推。因此,我们说股票数据的颗粒度是:1分钟、5分钟……

其他颗粒度的例子还有很多,例如在分析各地GDP的数据时,涉及全国、省、市、区(县)等颗粒度;考虑家电产品的维度时,也有家电、白色家电、冰箱、型号等颗粒度。

理解了颗粒度之后,就很容易理解如下道理:数据的颗粒度越细越好,因为有了细颗粒度的数据,就可以自行组合成颗粒度比较“粗”的数据。例如我们知道了全国各个区(县)的GDP数据,就可以推算出市、省、全国的数据,但是反向的操作无法实现,即知道了市的GDP数据,未必能够知道下辖区(县)的GDP数据。

综上所述,可以得到如下结论:企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。

相关文章
|
1月前
|
easyexcel Java 测试技术
读取Excel还用POI?试试这款开源工具EasyExcel
读取Excel还用POI?试试这款开源工具EasyExcel
57 0
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
104 0
|
2月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。
|
1月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第13天】 本文旨在探讨Python语言在当前数据驱动时代的核心应用之一——数据分析领域的实践方法和技术。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已成为数据科学家和分析师首选的工具之一。文章首先简要介绍Python及其在数据分析中的优势,随后深入讲解使用Python进行数据处理、分析、可视化的关键技术,包括但不限于Pandas库的数据处理、Matplotlib和Seaborn库的数据可视化技术,以及SciPy和Scikit-learn库在数据分析中的应用。通过具体案例,展示Python如何有效地解决实际数据分析问题,最终旨在为读者提供一
21 2
|
1月前
|
数据采集 数据挖掘 大数据
Python在数据分析中的应用及实践
【2月更文挑战第13天】 本文旨在探讨Python语言在数据分析领域的广泛应用及其实践方法。通过深入浅出的方式,介绍Python在处理、分析大数据时的核心库和工具,如Pandas、NumPy、Matplotlib等,并通过一个实际案例来展示这些工具如何协同工作,解决数据分析中遇到的常见问题。文章不仅为读者提供了一个学习和应用Python进行数据分析的起点,也通过案例分析,展示了Python在数据处理能力上的强大与灵活性,旨在激发读者对Python数据分析深入学习和研究的兴趣。
|
6天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
7天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
12 1
|
7天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
13 1
|
8天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
9天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。