《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读

简介: 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。


image

前  言

为什么要写这本书
在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。
“理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨,到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳,颈椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。
我在写作本书的时候,给自己规定了几个原则:
一是要实用,要能够解决企业工作中的实际问题。
二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。
三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本书的阅读轻松一点吧。
在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。
简言之,给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。
读者对象
这本书的读者对象是企事业单位中从事数据分析的非统计专业人士:
企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。
企业中的生产部人员,包括生产经理、质量控制经理等。
企业中的财务部人员,包括财务总监、财务经理等。
企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。
如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用Eviews、Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。
如何阅读本书
本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。
第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。
第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。
正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载,下载地址为http://www.hzbook.com
勘误和支持
由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱jhyjhy8888@163.com,我很期待能够收到你们的真挚反馈。

目 录

1.1  一眼就看到结论还需要数据分析吗
1.2  数据分析能给我们带来什么
1.3.3  合适的工具
1.4  数据分析的流程
1.5  如何成为数据分析高手
第2章
2.1  基本概念和术语
2.1.2  术语
2.2  选择称手的软件工具
2.3  在分析需求和模型之间搭起桥梁
第3章
3.1  数据采集的几条重要原则
3.2  用“逐步推进法”推测需要的数据
3.3  耗时耗力的数据整理过程
3.3.1  重复、空行、空列数据删除
3.3.2  缺失值的填充和分析
3.3.3  数据间逻辑的排查
3.4  数据量太大了怎么办
3.4.1  放到数据库中处理
3.4.2  用专业工具处理
3.4.3  数据抽样
第4章 数据分析的基础:制表(上)
4.1 以数据合并为目标的制表
4.1.1 跨工作表合并
4.1.2 跨工作簿合并
4.2 以数据筛选为目标的制表
4.2.1 普通数据筛选
4.2.2 高级筛选
4.2.3 计算筛选
4.2.4 函数筛选
4.3 以获得概要数据为目标的制表
4.3.1 分类汇总方法
4.3.2 数据透视表汇总
第5章 数据分析的基础:制表(下)
5.1 “七个百分比”让你懂得大部分表格类型
5.1.1 行总计的百分比
5.1.2 列总计的百分比
5.1.3 全部总计的百分比
5.1.4 父行(列)的百分比
5.1.5 累计占比
5.1.6 环比
5.1.7 同比
5.2 分组功能经常让分析峰回路转
5.2.1 文本的分组
5.2.2 等步长的数据分组
5.2.3 不等步长的数据分组
5.2.4 日期型的分组
5.3 随意生成各种派生指标
5.3.1 添加字段
5.3.2 添加项
5.4 从大数据库中挑选要分析的数据:Microsoft Query
5.5 强大的SQL
5.5.1 SQL的基本语法
5.5.2 SQL的应用
第6章 数据扫描:给数据做体检
6.1 在EXCEL中给数据做扫描
6.2 SPSS中给数据做扫描
6.3 在Modeler中给数据做扫描
6.4 其他相应的指标
第7章 数据标注:给数据上色
7.1 大数据块的整体标注
7.1.1 突出显示单元格规则
7.1.2 特殊数据选取规则
7.2 根据业务逻辑在数据中标注上色
7.2.1 数据条、色阶、图标集的应用
7.2.2 规则的理解
7.2.3 根据业务需求改变规则
7.3 采用公式实现复杂强大的数据标注
7.3.1 理解逻辑表达式的含义
7.3.2 复杂逻辑公式的应用
7.4 如何在一张表格中实现多种标注规则
7.4.1 多规则的应用
7.4.2 如何理解“遇真则停止”
第8章 找到数据中的“特殊分子”
8.1 什么是异常值
8.2 异常值的判断标准
8.3 用绘图技巧找到异常值
8.3.1 散点图
8.3.2 面板图
8.4 用公式函数法发掘异常值
8.5 三倍标准差法
第9章 相关分析与决策树
9.1 Pearson相关
9.1.1 应用场景
9.1.2 输出指标的解析
9.2 典型相关分析
9.2.1 操作步骤
9.2.2 结果解读
9.3 决策树
9.3.1 什么时候需要用决策树
9.3.2 决策树的操作和指标解释
第10章 聚类
10.1 多维度数据的分类怎么办
10.1.1 低维度数据的分类方法
10.1.2 高维度数据的分类需求
10.1.3 常用的聚类操作介绍
10.2 聚类的烦恼1:如何面对数量级差别大的数据
10.3 聚类的烦恼2:如何判断聚类的质量
第11章 回归
11.1 如何寻找现有数据的内在规律
11.1.1 什么是数据拟合
11.1.2 多元线性回归
11.2 logistic回归
11.2.1 回归(客户“买”与“不买”)
11.2.2 多元logistic回归(多个品牌的选择)
11.2.3 多元有序logistic回归
第12章 关联分析
12.1 因果关系的弱化
12.2 关联分析的指标
12.2.1 支持度
12.2.2 置信度
12.2.3 提升度
12.3 什么样的数据适合做关联分析
12.3.1 商超数据
12.3.2 金融数据
12.3.3 生产质量数据
12.4 关联分析的具体操作
第13章 预测
13.1 什么是预测,预测的准确度高吗
13.2 移动平滑
13.3 指数平滑
13.3.1 二次指数平滑
13.3.2 三次指数平滑
13.4 对周期性数据的分解
13.5 ARIMA预测法
第14章 高级绘图技巧
14.1 怎样才算图画得好
14.2 双轴图的技巧和运用
14.3 不同数量级数据的高效对比展示
14.4 数据标签的妙用
14.5 图形中的重点标注
14.6 绘图美学—多点审美素养
14.6.1 整体布局
14.6.2 线型的选择
14.6.3 色彩对比
后记 数据分析经验之我见

相关文章
|
1月前
|
easyexcel Java 测试技术
读取Excel还用POI?试试这款开源工具EasyExcel
读取Excel还用POI?试试这款开源工具EasyExcel
58 0
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
106 0
|
2月前
|
数据采集 存储 数据挖掘
Python 爬虫实战之爬拼多多商品并做数据分析
Python爬虫可以用来抓取拼多多商品数据,并对这些数据进行数据分析。以下是一个简单的示例,演示如何使用Python爬取拼多多商品数据并进行数据分析。
|
1月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第13天】 本文旨在探讨Python语言在当前数据驱动时代的核心应用之一——数据分析领域的实践方法和技术。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已成为数据科学家和分析师首选的工具之一。文章首先简要介绍Python及其在数据分析中的优势,随后深入讲解使用Python进行数据处理、分析、可视化的关键技术,包括但不限于Pandas库的数据处理、Matplotlib和Seaborn库的数据可视化技术,以及SciPy和Scikit-learn库在数据分析中的应用。通过具体案例,展示Python如何有效地解决实际数据分析问题,最终旨在为读者提供一
21 2
|
1月前
|
数据采集 数据挖掘 大数据
Python在数据分析中的应用及实践
【2月更文挑战第13天】 本文旨在探讨Python语言在数据分析领域的广泛应用及其实践方法。通过深入浅出的方式,介绍Python在处理、分析大数据时的核心库和工具,如Pandas、NumPy、Matplotlib等,并通过一个实际案例来展示这些工具如何协同工作,解决数据分析中遇到的常见问题。文章不仅为读者提供了一个学习和应用Python进行数据分析的起点,也通过案例分析,展示了Python在数据处理能力上的强大与灵活性,旨在激发读者对Python数据分析深入学习和研究的兴趣。
|
7天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
8天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
12 1
|
8天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
15 1
|
8天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
9天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。