玩数据必备Python库:Numpy使用详解

简介: Numpy(Numerical Python的简称)是高性能科学计算和数据分析的基础包,其提供了矩阵运算的功能。本文带你了解Numpy的一些核心知识点。

导读:Numpy(Numerical Python的简称)是高性能科学计算和数据分析的基础包,其提供了矩阵运算的功能。本文带你了解Numpy的一些核心知识点。

image.png

Numpy提供的主要功能具体如下:

ndarray——一个具有向量算术运算和复杂广播能力的多维数组对象。

用于对数组数据进行快速运算的标准数学函数。

用于读写磁盘数据的工具以及用于操作内存映射文件的工具。

非常有用的线性代数,傅里叶变换和随机数操作。

用于集成C /C++和Fortran代码的工具。

除了明显的科学计算用途之外,Numpy还可以用作通用数据的高效多维容器,定义任意的数据类型。这些都使得Numpy能够无缝、快速地与各种数据库集成。

提示:这里提到的“广播”可以这么理解:当两个维度不同的数组(array)运算的时候,可以将低维的数组复制成高维数组参与运算(因为Numpy运算的时候需要结构相同)。

在学习图像识别的过程中,需要将图片转换为矩阵。即将对图片的处理简化为向量空间中的向量运算。基于向量运算,我们就可以实现图像的识别。

01 创建数组

现在就来关注下Numpy中的一些核心知识点。在Numpy中,最核心的数据结构是ndarray, ndarray代表的是多维数组,数组指的是数据的集合。为了方便理解,我们下面列举一个小例子。

一个班级里学生的学号可以通过一维数组来表示,数组名为a,数组a中存储的是数值类型的数据,分别是1,2,3,4。

image.png

其中,a[0]代表的是第一个学生的学号1,a[1]代表的是第二个学生的学号2,以此类推。

一个班级里学生的学号和姓名,可以用二维数组来表示,数组名为b。

image.png

类似的,其中b[0,0]代表的就是1(学号),b[0,1]代表的就是Tim(学号为1的学生的名字),以此类推b[1,0]代表的是2(学号)等。

借用线性代数的说法,一维数组通常称为向量(vector),二维数组通常称为矩阵(matrix)。

当我们安装完Anaconda之后,默认情况下Numpy已经在库中了,所以不需要额外安装。下面我们来写一些语句简单测试下Numpy库。

1)在Anaconda的Notebook里输入

import numpy as np

之后,通过键盘按住Shift+Enter执行,如果没有报错,则说明Numpy已被正常引入,如图2-7所示。

image.png
▲图2-7 在Notebook中引入Numpy

稍微解释下这条语句:通过import关键字将Numpy库引入,然后通过as为其取一个别名np,别名的作用是为了便于后续引用。

2)Numpy中的array()可以直接导入向量,代码如下:

vector = np.array([1,2,3,4])

3)numpy.array()方法也可以导入矩阵,代码如下:

matrix = np.array([[1,'Tim'],[2,'Joey'],[3,'Johnny'],[4,'Frank']])

02 创建Numpy数组

我们可以通过创建Python列表(list)的方式来创建Numpy矩阵,比如输入

nparray = np.array([i for i in range(10)])

可以看到返回的结果是

array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

同样,也可以通过Python列表的方式来修改值,比如输入

nparray[0] = 10

再来观察nparray的向量内容就会发现返回的结果是

array([ 10, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Numpy数组还封装了其他方法来创建矩阵。首先,我们介绍第一个方法np.zeros(从命名规则来看,这个方法就是用来创建数值都为0的向量),比如,我们输入:

a = np.zeros(10)

可以看到结果为:


array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

从上述结果可以看出,每一个0后面都有一个小数点,调用a.dtype会发现我们创建的这个向量的类型为dtype(‘float64’)。值得注意的是:在大部分图像识别算法开发中,我们使用的都是float64这个类型。如果希望在创建Numpy矩阵的时候强制规定一种类型,那么我们可以使用以下代码:


np.zeros(10,dtype=int)

这样,返回的结果在矩阵中的数据就都是整型0了。介绍完使用zeros方法创建向量之后,再来看看如何创建一个多维矩阵。我们可以使用传入元组的方式,代码如下:

np.zeros(shape=(3,4)) #代表创建的是三行四列的矩阵并且其数据类型为float64

返回的结果为:


array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

与np.zeros方法相似的还有np.ones方法,顾名思义,np.ones方法创建的矩阵的数值都为1。我们来举个例子:

np.ones((3,4))

返回的结果如下:


array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

读者可能会比较好奇,既然我们可以创建数值全为0的矩阵,也可以创建数值全为1的矩阵,那么Numpy是否提供了一个方法可以让我们自己指定值呢?答案是肯定的,这个方法就是np.full方法,我们来看一个例子,代码如下:

np.full((3,5),121) #这个方法的意思是我们创建了一个三行五列的矩阵,默认值为121

返回的结果是:

array([[121, 121, 121, 121, 121],
       [121, 121, 121, 121, 121],
       [121, 121, 121, 121, 121]])

我们也可以使用np.arange方法来创建Numpy的矩阵。示例代码如下:

np.arange(0,20,2) #arange接收三个参数,与Python中的range方法相似,arange也是前闭后开的方法,第一个参数为向量的第一个值0,第二个参数为最后一个值20,因为是后开所以取的是18,第三个参数为步长,默认为1,本例中设置为2,所以最后一个值是18。

返回的结果是:

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

我们可以使用np.linspace方法(前闭后闭)来对Numpy矩阵进行等分,比如将0~10等分为5份的代码如下:

np.linspace(0,10,5)

返回的结果是:


array([  0. ,   2.5,   5. ,   7.5,  10. ])

下面通过几个例子再来看看在Numpy矩阵中如何生成随机数矩阵。

1)生成一个长度为10的向量,里面每一个数值都是介于0~10之间的整数,代码如下:

import numpy as np
np.random.randint(0,10,10)

2)如果不确定每个参数代表的意思,则加上参数名size,代码如下:

np.random.randint(0,5,size=5) #注意是前闭后开,永远取不到5

3)我们也可以生成一个三行五列的整数矩阵,代码如下

np.random.randint(4,9,size=(3,5))

4)seed的作用:如果不希望每次生成的随机数都不固定,那么我们可以使用np.random.seed(1),随机种子使用数字1记录,这以后只要是用随机种子1生成的随机数就都是固定的。

5)我们也可以生成介于0~1之间的浮点数的向量或者矩阵,代码如下:

np.random.random(10) #生成0~1之间的浮点数,向量的长度为10
np.random.random((2,4)) #生成0~1之间的浮点数,二行四列的矩阵

6)np.random.normal()表示的是一个正态分布,normal在这里是正态的意思。numpy.random.normal(loc=0,scale=1,size=shape)的意义如下:

参数loc(float):正态分布的均值,对应这个分布的中心。loc=0说明这是一个以Y轴为对称轴的正态分布。

参数scale(float):正态分布的标准差,对应分布的宽度,scale越大,正态分布的曲线越矮胖,scale越小,曲线越高瘦。

参数size(int或者整数元组):输出的值赋在shape里,默认为None。

03 获取Numpy属性

首先,我们通过Numpy中的一个方法arange(n),生成0到n-1的数组。比如,我们输入

np.arange(15)

可以看到返回的结果是

array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

然后,再通过Numpy中的reshape(row,column)方法,自动构架一个多行多列的array对象。

比如,我们输入:

a = np.arange(15).reshape(3,5)        #代表3行5列

可以看到结果:

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

有了基本数据之后,我们就可以通过Numpy提供的shape属性获取Numpy数组的行数与列数,示例代码如下:

print(a.shape)

可以看到返回的结果是一个元组(tuple),第一个3代表的是3行,第二个5代表的是5列:

(3, 5)

我们可以通过.ndim来获取Numpy数组的维度,示例代码如下:

importnumpy as np
x = np.arange(15)
print(x.ndim)        #输出x向量的维度,这时能看到的维度是1维
X = x.reshape(3,5)    #将x向量转为三行五列的二维矩阵
Print(X.ndim)        #输出X矩阵的维度,这时能看到的维度是2维
reshape方法的特别用法
如果只关心需要多少行或者多少列,其他由计算机自己来算,那么这个时候我们可以使用如下方法:
x.reshape(15,-1)    #我关心的是我只要15行,列由计算机自己来算
x.reshape(-1,15)    #我关心的是我只要15列,行由计算机自己来算

04 Numpy数组索引

Numpy支持类似list的定位操作,示例代码如下:

import numpy as np
matrix = np.array([[1,2,3],[20,30,40]])
print(matrix[0,1])

得到的结果是2。

上述代码中的matrix[0,1],0代表的是行,在Numpy中,0代表起始的第一个,所以取的是第1行,之后的1代表的是列,所以取的是第2列。那么,最后的输出结果是取第一行第二列,也就是2这个值了。

05 切片

Numpy支持类似list的切片操作,示例代码如下:

import numpy as np 
matrix = np.array([
[5, 10, 15], 
 [20, 25, 30],
 [35, 40, 45]
 ])
print(matrix[:,1])
print(matrix[:,0:2])
print(matrix[1:3,:])
print(matrix[1:3,0:2])

上述的代码中

  • print(matrix[:,1])语法代表选择所有的行,而且列的索引是1的数据,因此返回的结果是10,25,40。
  • print(matrix[:,0:2])代表的是选取所有的行,而且列的索引是0和1的数据。

print(matrix[1:3,:])代表的是选取所有的列,而且行的索引值是1和2的数据。

  • print(matrix[1:3,0:2])代表的是选取行的索引是1和2,而且列的索引是0和1的所有数据。

06 Numpy中的矩阵运算

矩阵运算(加、减、乘、除),在本书中将严格按照数学公式来进行演示,即两个矩阵的基本运算必须具有相同的行数与列数。本例只演示两个矩阵相减的操作,其他的操作读者可以自行测试。示例代码如下:

import numpy as np
myones = np.ones([3,3])
myeye = np.eye(3)        #生成一个对角线的值为1,其余值都为0的三行三列矩阵
print(myeye)
print(myones-myeye)

输出结果如下:


[[ 1.  0.  0.]
[ 0.  1.  0.]
[ 0.  0.  1.]]
[[ 0.  1.  1.]
[ 1.  0.  1.]
[ 1.  1.  0.]]

提示:numpy.eye(N, M=None, k=0, dtype=)中第一个参数输出矩阵(行数=列数),第三个参数默认情况下输出的是对角线的值全为1,其余值全为0。

除此之外,Numpy还预置了很多函数,使用这些函数可以作用于矩阵中的每个元素。

Numpy预置函数及说明:

  • np.sin(a):对矩阵a中的每个元素取正弦,sin(x)
  • np.cos(a):对矩阵a中的每个元素取余弦,cos(x)
  • np.tan(a):对矩阵a中的每个元素取正切,tan(x)
  • np.sqrt(a):对矩阵a中的每个元素开根号
  • np.abs(a):对矩阵a中的每个元素取绝对值

1. 矩阵之间的点乘

矩阵真正的乘法必须满足第一个矩阵的列数等于第二个矩阵的行数,矩阵乘法的函数为dot。示例代码如下:

import numpy as np
mymatrix = np.array([[1,2,3],[4,5,6]])
a = np.array([[1,2],[3,4],[5,6]])
print(mymatrix.shape[1] == a.shape[0])
print(mymatrix.dot(a))

其输出结果如下:

[[22 28]
 [49 64]]

上述示例代码的原理是将mymatrix的第一行[1,2,3]与a矩阵的第一列[1,3,5]相乘然后相加,接着将mymatrix的第一行[1,2,3]与a矩阵的第二列[2,4,6]相乘然后相加,以此类推。

2. 矩阵的转置

矩阵的转置是指将原来矩阵中的行变为列。示例代码如下:


import numpy as np
a = np.array([[1,2,3],[4,5,6]])
print(a.T)

输出结果如下:


[[1 4]
 [2 5]
 [3 6]]

3. 矩阵的逆

需要首先导入numpy.linalg,再用linalg的inv函数来求逆,矩阵求逆的条件是矩阵的行数和列数必须是相同的。示例代码如下:

import numpy as np
import numpy.linalg as lg
A = np.array([[0,1],[2,3]])
invA = lg.inv(A)
print(invA)
print(A.dot(invA))

输出结果如下:


[[-1.5  0.5]
[ 1.   0. ]]

逆矩阵就是,原矩阵A.dot(invA)以及逆矩阵invA.dot(A)的结果都为单位矩阵。并不是所有的矩阵都有逆矩阵。

07 数据类型转换

Numpy ndarray数据类型可以通过参数dtype进行设定,而且还可以使用参数astype来转换类型,在处理文件时该参数会很实用。注意,astype调用会返回一个新的数组,也就是原始数据的备份。

比如,将String转换成float。示例代码如下:

vector = numpy.array(["1", "2", "3"])
vector = vector.astype(float)

注意:在上述例子中,如果字符串中包含非数字类型,那么从string转换成float就会报错。

关于作者:魏溪含 ,爱丁堡大学人工智能硕士,阿里巴巴达摩院算法专家,在计算机视觉、大数据领域有8年以上的算法架构和研发经验。
涂铭,阿里巴巴数据架构师,对大数据、自然语言处理、图像识别、Python、Java相关技术有深入的研究,积累了丰富的实践经验。
张修鹏,毕业于中南大学,阿里巴巴技术发展专家,长期从事云计算、大数据、人工智能与物联网技术的商业化应用,在阿里巴巴首次将图像识别技术引入工业,并推动图像识别产品化、平台化。

本文摘编自《深度学习与图像识别:原理与实践》,经出版方授权发布。

文章来源:微信公众号 大数据

相关实践学习
基于函数计算实现AI推理
本场景基于函数计算建立一个TensorFlow Serverless AI推理平台。
目录
相关文章
|
1天前
|
Python
在Python中绘制K线图,可以使用matplotlib和mplfinance库
使用Python的matplotlib和mplfinance库可绘制金融K线图。mplfinance提供便利的绘图功能,示例代码显示如何加载CSV数据(含开盘、最高、最低、收盘价及成交量),并用`mpf.plot()`绘制K线图,设置类型为'candle',显示移动平均线(mav)和成交量信息。可通过调整参数自定义图表样式,详情参考mplfinance文档。
7 2
|
1天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。
|
1天前
|
机器学习/深度学习 存储 数据采集
【Python 机器学习专栏】PCA(主成分分析)在数据降维中的应用
【4月更文挑战第30天】本文探讨了主成分分析(PCA)在高维数据降维中的应用。PCA通过线性变换找到最大化方差的主成分,从而降低数据维度,简化存储和计算,同时去除噪声。文章介绍了PCA的基本原理、步骤,强调了PCA在数据降维、可视化和特征提取上的优势,并提供了Python实现示例。PCA广泛应用在图像压缩、机器学习和数据分析等领域,但降维后可能损失解释性,需注意选择合适主成分数量及数据预处理。
|
1天前
|
vr&ar Python
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
|
1天前
|
Python
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
Python随机波动性SV模型:贝叶斯推断马尔可夫链蒙特卡洛MCMC分析英镑/美元汇率时间序列数据|数据分享
|
1天前
|
机器学习/深度学习 Python
【Python机器学习专栏】时间序列数据的特征工程
【4月更文挑战第30天】本文探讨了时间序列数据的特征工程,强调其在捕捉季节性、揭示趋势、处理异常值和提升模型性能中的重要性。介绍了滞后特征、移动窗口统计特征、时间戳特征、频域特征和波动率特征等方法,并提供了Python实现示例。通过有效特征工程,可提高时间序列分析的准确性和预测可靠性。
|
1天前
|
机器学习/深度学习 计算机视觉 Python
【Python 机器学习专栏】图像数据的特征提取与预处理
【4月更文挑战第30天】本文探讨了图像数据的特征提取与预处理在机器学习中的重要性。图像数据具有大容量、信息丰富和冗余性高的特点。特征提取涉及颜色、纹理和形状特征;预处理包括图像增强、去噪和分割。Python的OpenCV和Scikit-image库在处理这些任务时非常有用。常见的特征提取方法有统计、变换和基于模型的方法,而预处理应注意保持图像真实性、适应性调整及验证评估。有效的特征提取和预处理能提升模型性能,Python工具使其更高效。
|
1天前
|
机器学习/深度学习 自然语言处理 算法
【Python机器学习专栏】文本数据的特征提取与表示
【4月更文挑战第30天】本文探讨了文本特征提取与表示在机器学习和NLP中的重要性。介绍了词袋模型、TF-IDF和n-gram等特征提取方法,以及稀疏向量和词嵌入等表示方式。Python中可利用sklearn和gensim库实现这些技术。有效的特征提取与表示有助于将文本数据转化为可处理的数值形式,推动NLP和机器学习领域的进步。
|
1天前
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】使用Scikit-learn进行数据编码
【4月更文挑战第30天】本文介绍了Python Scikit-learn库在机器学习数据预处理中的作用,尤其是数据编码。数据编码将原始数据转化为算法可理解的格式,包括标签编码(适用于有序分类变量)、独热编码(适用于无序分类变量)和文本编码(如词袋模型、TF-IDF)。Scikit-learn提供LabelEncoder和OneHotEncoder类实现这些编码。示例展示了如何对数据进行标签编码和独热编码,强调了正确选择编码方法的重要性。
|
1天前
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】数据标准化与归一化技术
【4月更文挑战第30天】在机器学习中,数据预处理的两大关键步骤是标准化和归一化,旨在调整数据范围以优化算法性能。标准化将数据缩放到特定区间,如[-1, 1]或[0, 1],适合基于距离的算法,如KNN、SVM。归一化则将数据线性变换到[0, 1],保持相对关系。Python中可使用`sklearn.preprocessing`的`MinMaxScaler`和`StandardScaler`实现这两种操作。选择哪种方法取决于数据分布和算法需求。预处理能提升模型理解和性能,增强预测准确性和可靠性。