GMM高斯混合模型学习笔记（EM算法求解）-阿里云开发者社区

GMM高斯混合模型学习笔记（EM算法求解）

2017-11-22 2946

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

提出混合模型主要是为了能更好地近似一些较复杂的样本分布，通过不断添加component个数，能够随意地逼近不论什么连续的概率分布。所以我们觉得不论什么样本分布都能够用混合模型来建模。由于高斯函数具有一些非常有用的性质。所以高斯混合模型被广泛地使用。

GMM与kmeans相似，也是属于clustering，不同的是。kmeans是把每一个样本点聚到当中一个cluster，而GMM是给出这些样本点到每一个cluster的概率。每一个component就是一个聚类中心。

GMM(Gaussian Mixture Model)高斯混合模型，由K个不同的Gaussian线性组合而成，每一个Gaussian是混合模型的一个component，GMM的概率密度函数例如以下：

p (x) = \sum k = 1 K p (k) (x | k) = \sum k = 1 K π k  (x | μ k, \sum k)

    依据上式。从GMM中生成一个样本点x分两步：
    1，从K个component中随机的选择一个
    2。从该component中选择一个点

參数说明：N个样本点。K个component，μk,∑k 是第k个component的均值和协方差矩阵，是模型參数，是须要预计的。

πk是mixing coefficient，表示第k个component被选中的概率。πk=1N∑Nn=1znk，也是模型參数。须要预计。N是高斯（正态）分布。

对一个样本集建立高斯混合模型的过程，就是依据已知样本集X反推高斯混合模型的參数(μ,∑,π)，这是一个參数预计问题。首先想到用最大似然的方法求解，也就是，要确定參数π,μ,∑使得它所确定的概率分布生成这些样本点的概率最大。这个概率也就是似然函数，例如以下：

p (x) = \prod n = 1 N p (x i)

而一般对于单个样本点其概率较小。多个相乘后更小，easy造成浮点数下溢，所以通常是对似然函数求log，变成加和形式：

\sum i = 1 N l n p (x i)

这个叫做log似然函数，目标是要最大化它。用log似然函数对參数分别求偏导。令偏导等于0，可求解得參数。
然而。GMM的log似然函数是例如以下形式：

l n p (X) = \sum i = 1 N l n [\sum k = 1 K π k  (x i | μ k, \sum k)]

能够看到对数中有求和，直接求导求解将导致一系列复杂的运算，故考虑使用EM算法。（详细思路见上一篇： EM算法学习笔记）

考虑GMM生成一个样本点的过程，这里对每一个xi引入隐变量z，z是一个K维向量，如果生成xi时选择了第k个component，则zk=1，其它元素都为0。∑Kk=1zk=1.
如果z是已知的。则样本集变成了{X,Z}，要求解的似然函数变成了：

p (X, Z | μ, \sum, π) = \prod n = 1 N \prod k = 1 K π z n k k  (x n | μ k, \sum k) z n k

log似然函数为：

l n p (X, Z | μ, \sum, π) = \sum n = 1 N \sum k = 1 K z n k [l n π k + l n  (x n | μ k, \sum k)] . (*)

能够看到，这次ln直接对Gaussian作用，求和在ln外面，所以能够直接求最大似然解了。

1,初始化一组模型參数π,μ,∑
2,E-step

然而。其实z是不知道的。我们仅仅是如果z已知。

而z的值是通过后验概率观測。所以这里考虑用z值的期望在上述似然函数中取代z。
对于一个样本点x：

p (z) = \prod k = 1 K π z k k

p (x | z k = 1) =  (x | μ k, \sum k)

p (x | z) = \prod k = 1 K  (x | μ k, \sum k) z k

p (x) = \sum z p (z) p (x | z) = \sum k = 1 K π k  (x | μ k, \sum k)

后验概率（固定

μ,∑,π ）：

p (z | x, μ, \sum, π) = p ( x | z ) p ( z ) p ( x ) 正 比 于 \prod n = 1 N \prod k = 1 K [π k  (x n | μ k, \sum k)] z n k

由于{

zn }之间是相互独立的。
计算z期望

γ(znk) （z向量仅仅有一个值取1，其余为0）：

γ (z n k) = E [z n k] = 0 * p (z n k = 0 | x n) + 1 * p (z n k = 1 | x n) = p (z n k = 1 | x n) = p ( z n k = 1 ) p ( x n | z n k = 1 ) p ( x n ) = π k  ( x | μ k , \sum k ) \sum K j = 1 π j  ( x | μ j , \sum j ) .

将z值用期望取代。则待求解的log似然函数(*)式变为：

E z [l n p (X, Z | μ, \sum, π)] = \sum n = 1 N \sum k = 1 K γ (z n k) [l n π k + l n  (x n | μ k, \sum k)] .

3,M-step

如今能够最大化似然函数求解參数了，首先对μ求偏导，令偏导等于0。可得：

\sum n = 1 N \sum k = 1 K γ (z n k) \sum k (x n - μ k) = 0

μ k = 1 N k \sum n = 1 N γ (z n k) x n ， 其 中 N k = \sum n = 1 N γ (z n k) .

Nk 是“the effective number of points assigned to cluster k”.
再对

∑k 求偏导，令偏导等于0，可得：

\sum k = 1 N k \sum n = 1 N γ (z n k) (x n - μ k) (x n - μ k) T

接下来还需求解π。注意到π需满足∑Kk=1πk=1。所以这是一个带等式约束的最大值问题。使用拉格朗日乘数法。
构造拉格朗日函数：

L = l n p (X | π, μ, \sum) + λ (\sum k = 1 K π k - 1) .

对

π 求导，令导数为0：

\sum n = 1 N  ( x | μ k , \sum k ) \sum K j = 1 π j  ( x | μ j , \sum j ) + λ = 0

两边同乘

πk 得：

\sum n = 1 N γ (z n k) + λ π k = 0

N k + λ π k = 0

两边对k求和：

\sum k = 1 K N k + \sum k = 1 K λ π k = 0

N + λ = 0

可得：

λ=−N
代入可得：

πk=NkN.

4,检查是否收敛
反复E-step和M-step两步。直到收敛，就可以求得一个局部最优解。

GMM的建模步骤例如以下图（k=2,高斯分布是蓝色和红色圈）：
gmm

主要參考资料：
《Pattern Recognization and Machine Learning》
帮助理解：
http://blog.pluskid.org/?p=39

本文转自mfrbuaa博客园博客，原文链接：http://www.cnblogs.com/mfrbuaa/p/5111355.html，如需转载请自行联系原作者

GMM高斯混合模型学习笔记（EM算法求解）

热门文章

最新文章

相关课程

相关电子书

相关实验场景