备案控制台

开发者社区

开发者社区大数据文章正文

Python3数据分析——（2）Pandas快速入门基础

2018-04-14 1870

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pandas基础Pandas的名称来自于面板数据（panel data）和Python数据分析（data analysis）。

Pandas基础

Pandas 的名称来自于面板数据（panel data）和 Python数据分析（data analysis）。

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas特点：

1.一个强大的分析和操作大型结构化数据集所需的工具集

2.基础是NumPy，提供了高性能矩阵的运算

3.提供了大量能够快速便捷地处理数据的函数和方法

4.应用于数据挖掘，数据分析

5.提供数据清洗功能

Pandas的数据结构：

import pandas as pd

Pandas有两个最主要也是最重要的数据结构： Series 和 DataFrame

Pandas中使用频率较低的一种数据结构： Panel（Pandas 决定在未来的版本中将 Panel 移除，转而使用 MultiIndex DataFrame 来表示多维数据结构）

Pandas的对齐运算：

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补 NaN ，最后也可以填充 NaN

一、Series数据结构（一维数据）

1、简要介绍：

（1） Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。

（2） 类似一维数组的对象，由数据和索引组成（索引(index)在左，数据(values)在右，索引是自动创建的）

（3） Series 是 Pandas 中最基本的一维数据形式。其可以储存整数、浮点数、字符串等形式的数据。Series 的新建方法如下： s = pandas.Series(data, index=index) ；其中，data 可以是字典、numpy 里的 ndarray 对象等。index 是数据索引，索引是 pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。

2、通过字典（dict）构建Series

数据值是 10, 20, 30，索引为 a, b, c 。

我们也可以直接通过 index= 参数来设置新的索引，如下

pandas 会自动匹配人为设定的索引值和字典转换过来的索引值。而当索引无对应值时，会显示为 NaN 缺失值。

3、通过ndarray构建Series

ndarray 是著名数值计算包 numpy 中的多维数组。我们也可以将 ndarray 直接转换为 Series。

（1）指定了 index 的值

（2）非人为指定索引值时，Pandas 会默认从 0 开始设置索引值。

（3）从一维数据 Series 中返回某一个值时，可以直接通过索引完成

（4）对Series 直接进行运算

（5）Series的对齐运算

注意：填充未对齐的数据进行运算

使用add, sub, div, mul的同时，通过fill_value指定填充值，未对齐的数据将和填充值做运算

示例代码：print(s1)

print(s2)

s1.add(s2, fill_value = -1)

二、DataFrame数据结构（二维数据）

1、简要介绍

（1） DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值。DataFrame既有行索引也有列索引，它可以被看做是由Series组成的字典（共用同一个索引），数据是以二维结构存放的。

（2） 特点：类似多维数组/表格数据 (如，excel, R中的data.frame)；每列数据可以是不同的类型；索引包括列索引和行索引

（3） DataFrame 可以用于储存多种类型的输入：

一维数组、列表、字典或者 Series 字典。
二维 numpy.ndarray。
结构化的 ndarray。
一个 Series。
另一个 DataFrame。

2、通过字典（dict）构建DataFrame

（1）通过Series的字典构建DataFrame

行索引为 a, b, c, d ，而列索引为 one, two

（2）通过ndarray或list的字典构建DataFrame

3、通过带字典的列表构建DataFrame

4、DataFrame.from_ 方法

pandas的 DataFrame 下面还有 4 个以 from_ 开头的方法，这也可以用来创建 Dataframe。

5、DataFrame中列的选择、删除和添加

在 一维数据结构Series 中，我们用 df['标签'] 来选择行。在二维数据 DataFrame 中， df['标签'] 表示选择列。

6、DataFrame的对齐运算

三、Panel数据结构（三维数据）

1、简要介绍

（1） Panel是Pandas中使用频率较低的一种数据结构，但它是三维数据的重要容器。

（2） Panel data又称面板数据，它是计量经济学中派生出来的一个概念。在计量经济学中，数据大致可分为三类：截面数据，时间序列数据，面板数据。而面板数据即是截面数据与时间序列数据综合起来的一种数据类型。

简单来讲，截面数据指在某一时间点收集的不同对象的数据。而时间序列数据是指同一对象在不同时间点所对应的数据集合。

这里引用一个城市和 GDP 关系的示例来解释上面的三个概念：

截面数据：

例如城市：北京、上海、重庆、天津在某一年的 GDP 分别为10、11、9、8（单位亿元）。

时间序列数据:

例如：2000、2001、2002、2003、2004 各年的北京市 GDP 分别为8、9、10、11、12（单位亿元）。

面板数据：

2000、2001、2002、2003、2004 各年中国所有直辖市的 GDP 分别为（单位亿元）：北京市分别为 8、9、10、11、12；上海市分别为 9、10、11、12、13；天津市分别为 5、6、7、8、9；重庆市分别为 7、8、9、10、11。

（3） Panel 构成

在 Pandas 中，Panel 主要由三个要素构成：

items: 每个项目（item）对应于内部包含的 DataFrame。
major_axis: 每个 DataFrame 的索引（行）。
minor_axis: 每个 DataFrame 的索引列。

简言之，在 Pandas 中，一个 Panel由多个 DataFrame 组成。

2、生成一个Panel

可以看到，wp 由 2 个项目、5个主要轴和4个次要轴组成。其中，主要轴由2000-01-01 到2000-01-05这5天组成的时间序列，次轴从A到D。

3、由于 Panel 在 Pandas 中的使用频率远低于 Series 和 DataFrame，所以 Pandas 决定在未来的版本中将 Panel 移除，转而使用 MultiIndex DataFrame 来表示多维数据结构。

补充 ：Pandas统计计算和描述

#描述和汇总的方法

count 非Nan数量

describe 针对个列汇总统计

min和max 最大最小值

argmin、argmax 计算最大值或最小值对应的索引位置

quantile 计算样本的分位数（0-1）

mean 均值

median 中位数

mad 平均绝对离差

var 样本方差

std 样本的标准差

skew 样本值的偏度

kurt 样本值的峰度

cumsum 样本值的累计和

注：

Pandas官网： http://pandas.pydata.org/

Pandas官方文档： http://pandas.pydata.org/pandas-docs/stable/api.html

Pandas详细学习教程： https://www.yiibai.com/pandas/python_pandas_date_functionality.html

文章标签：

Python

索引

数据挖掘

容器

数据采集

关键词：

数据分析pandas

Pandas数据分析

Python数据分析

Python快速入门

Python Pandas

飞天小橘子

目录

相关文章

1941623231718325

|

3天前

|

供应链搜索推荐数据挖掘

Pandas实战案例：电商数据分析的实践与挑战

【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段，Pandas用于处理缺失值、重复值。接着，通过用户购买行为和商品销售趋势分析，构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战，通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合，提升决策支持能力。

1941623231718325

9 0 0

1941623231718325

|

3天前

|

存储数据可视化数据挖掘

实战案例：Pandas在金融数据分析中的应用

【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中，一家投资机构使用Pandas加载、清洗股票历史价格数据，删除无关列并重命名，将日期设为索引。接着，数据被可视化以观察价格走势，进行基本统计分析了解价格分布，以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。

1941623231718325

10 0 0

绝不原创的飞龙

|

4天前

|

Python 数据挖掘存储

Python 数据分析（PYDA）第三版（七）（4）

Python 数据分析（PYDA）第三版（七）

绝不原创的飞龙

22 1 1

绝不原创的飞龙

|

Python Shell 存储

Python 数据分析（PYDA）第三版（七）（3）

Python 数据分析（PYDA）第三版（七）

绝不原创的飞龙

28 1 1

Python 数据分析（PYDA）第三版（七）（3）

绝不原创的飞龙

|

机器学习/深度学习数据可视化 Python

Python 数据分析（PYDA）第三版（六）(2)

Python 数据分析（PYDA）第三版（六）

绝不原创的飞龙

43 0 0

绝不原创的飞龙

|

机器学习/深度学习 Python 数据挖掘

Python 数据分析（PYDA）第三版（六）(1)

Python 数据分析（PYDA）第三版（六）

绝不原创的飞龙

48 0 0

绝不原创的飞龙

|

4天前

|

Python 数据格式 XML

Python 数据分析（PYDA）第三版（三）（1）

Python 数据分析（PYDA）第三版（三）

绝不原创的飞龙

54 0 0

绝不原创的飞龙

|

4天前

|

数据挖掘索引 Python

Python 数据分析（PYDA）第三版（二）（3）

Python 数据分析（PYDA）第三版（二）

绝不原创的飞龙

15 0 0

绝不原创的飞龙

|

3天前

|

存储数据挖掘索引

Python 数据分析（PYDA）第三版（二）（1）

Python 数据分析（PYDA）第三版（二）

绝不原创的飞龙

18 0 0

Python 数据分析（PYDA）第三版（二）（1）

绝不原创的飞龙

|

3天前

|

数据挖掘 Python 索引

Python 数据分析（PYDA）第三版（一）（3）

Python 数据分析（PYDA）第三版（一）

绝不原创的飞龙

20 0 0

Python 数据分析（PYDA）第三版（一）（3）

热门文章

最新文章

上网行为监控管理：利用R编写的数据分析和可视化代码示例

python数据分析和可视化【1】

【python】Python航空公司客户价值数据分析（代码+论文）【独一无二】

python数据分析和可视化【3】体检数据分析和小费数据分析

python数据分析和可视化【2】鸢尾花数据分析

JAVA智慧工地源码,实现对施工全过程的实时监控、数据分析

【python】Python大豆特征数据分析 [机器学习版一]（代码+论文）【独一无二】

问卷调查数据分析指南！掌握方法，精准把握用户需求！

大模型与数据分析：探索Text-to-SQL（中）

大模型与数据分析：探索Text-to-SQL（下）

Python数据分析（三）—— Pandas数据统计

Python数据分析（二）—— Pandas快速入门

第四章 Pandas 统计分析基础

Pandas中concat的用法

Python在数据分析中的利器：Pandas库全面解析

利用Python中的Pandas库进行数据分析和可视化

Python数据分析：利用Pandas库处理缺失数据的技巧

在Python中，pandas库的`get_dummies`函数

Pandas数据处理4、DataFrame记录重复值出现的次数(是总数不是每个值的数量)

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

Data Pre-Processing in Python:

即学即用的Pandas入门与时间序列分析

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

自然语言入门：NLP数据读取与数据分析

Python新手入门

Python入门

库仓一体实时数据分析

助力游戏运营数据分析

Python选择及循环结构

下一篇

阿里云oss简介和使用流程