《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第1章什么是数据分析 1.1 一眼就看到结论还需要数据分析吗-阿里云开发者社区

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第1章什么是数据分析 1.1 一眼就看到结论还需要数据分析吗

2017-07-03 1496

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《数据分析实战：基于EXCEL和SPSS系列工具的实践》一书中的第1章，第1.1节，作者纪贺元，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

什么是数据分析

1.1　一眼就看到结论还需要数据分析吗

在我做数据分析培训和咨询的时候，时不时会有学员或者客户流露出这样的情绪：

我们的企业其实是不需要数据分析的。

我们公司的业务情况，我很清楚，分析不分析都那样，反正我都知道了。

公司的数据好简单啊，就那么几列，有啥好分析的。

公司里面的很多数据都是造假的，没有分析的价值。

在以上问题中，除了数据质量，其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题，如果企业员工出于种种原因总是在编造各种假数据，这应该属于职业道德或者企业管理水平（企业应该通过严格严谨的管理流程使得员工无从造假）的范畴，这里暂且不讨论。那么，什么是数据的可分析度呢？

这个问题实际上包含如下两层意思：

1）这个企业的数据是比较复杂的，一眼是看不到结论的，需要使用一些工具、模型、方法进行分析。

2）关于数据的分析是有价值的，也就是说分析的过程和结论对于企业是有价值的，能够对企业的生产经营等带来促进和提高。

因此，在数据的可分析度方面，我们需要有一些判断的维度，以帮助我们辨识数据是否值得分析，这里所说的维度主要考虑企业数据量、数据复杂度、数据颗粒度这三个方面（如图1-1所示）。

1.1.1　企业数据量

企业数据量是企业可分析度的第一要素，企业数据量的大小往往取决于两个因素：

一是企业的行业属性，二是企业的信息化程度。众所周知，互联网行业往往也是产生大量数据的行业，“BAT”不仅仅引领了各自行业的发展，同时也是数据行业发展的标杆。

一般情况下，企业的数据量跟企业的规模呈正相关关系，中等以上规模的企业数据量均比较大。但是也有例外，我曾经接触过一家从事智能手机操作系统推送业务的公司，该公司规模很小，只有40多人，但是由于合作方是国内诸多智能手机的生产企业，因此该企业的手机用户数量有3000多万，每天产生的业务数量高达几GB。

1.1.2　数据复杂度

如果说数据量相当于数据的行，那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例，总共的列数加在一起是12列。该公司要求分析客户数据，但是涉及客户资料的数据基本上就是客户名称、客户行业（行业数据还是不全的）这两列，客户注册资本、销售收入、雇佣人数都没有，怎么分析？

做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚！请想想，你提供的客户数据就是寥寥数列，那要怎么去分析？怎么做文章？

到目前为止，并没有什么明确的指标来度量数据量与数据复杂度，我们很难说每天的数据超过3万行就算数据量多，或者说数据超过30列就算数据复杂。特别是数据复杂度，这中间还有一个数据相关性的问题：以案例文件1.1为例，虽然其中的数据是3列，但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析（相关系数的函数，后面会详细讲解），我们发现第二列“销售数量”和第三列“销售额”之间的相关系数是1（完全相关），如图1-2所示。

从数据分析的角度看，这里实际上是两列数据而不是3列，换句话说，第3列的销售额数据属于“衍生指标”，因为单价30是固定的，我们只需要用销售量这个数据就可以反映销售的状况。

因此通过数据的列数来衡量数据复杂度其实也未必准确，而是应该看剔除相关性之后的列数。

1.1.3　数据颗粒度

数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性，还是通过一个例子来说明一下。炒过股票、用过股票软件的人都知道各种周期的分析（如图1-3所示）。

从图1-3可以看出，股票有1分钟、5分钟、15分钟、30分钟等多个观察周期，而各种周期之间存在着相互包含的关系，例如5分钟的周期线实际上是由5个1分钟的周期线组合而成的，而15分钟的周期线是由3个5分钟周期线组合而成，以此类推。因此，我们说股票数据的颗粒度是：1分钟、5分钟……

其他颗粒度的例子还有很多，例如在分析各地GDP的数据时，涉及全国、省、市、区（县）等颗粒度；考虑家电产品的维度时，也有家电、白色家电、冰箱、型号等颗粒度。

理解了颗粒度之后，就很容易理解如下道理：数据的颗粒度越细越好，因为有了细颗粒度的数据，就可以自行组合成颗粒度比较“粗”的数据。例如我们知道了全国各个区（县）的GDP数据，就可以推算出市、省、全国的数据，但是反向的操作无法实现，即知道了市的GDP数据，未必能够知道下辖区（县）的GDP数据。

综上所述，可以得到如下结论：企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据，就有比较高的分析和利用价值。

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第1章什么是数据分析 1.1 一眼就看到结论还需要数据分析吗

第1章

什么是数据分析

1.1　一眼就看到结论还需要数据分析吗

1.1.1　企业数据量

1.1.2　数据复杂度

1.1.3　数据颗粒度

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第1章 什么是数据分析 1.1 一眼就看到结论还需要数据分析吗

第1章

什么是数据分析

1.1 一眼就看到结论还需要数据分析吗

1.1.1 企业数据量

1.1.2 数据复杂度

1.1.3 数据颗粒度

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第1章什么是数据分析 1.1 一眼就看到结论还需要数据分析吗

1.1　一眼就看到结论还需要数据分析吗

1.1.1　企业数据量

1.1.2　数据复杂度

1.1.3　数据颗粒度