模式识别和机器学习笔记第二章概率分布

fuliang

浏览: 1664327 次
性别:
来自: 北京

最近访客更多访客>>

依然任逍遥

stephenworld

lli

samwalt

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Machine Learning

     这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型。讨论了一些统计学的关键概念，比如 Bayesian inference。概率分布的一个角色是：给定一个随机变量x有限集合的观察值x1,x2….xn，对概率分布p(x)进行建模，即概率密度估计。首先介绍离散型贝努力分布、二项式分布和多项式分布和连续型的Gaussian分布。一个特殊
的问题就是参数化估计问题，根据观察的值来估计概率分布的参数，frequentist方式，可以采用似然函数的方法，贝叶斯方式，首先引入一个参数的先验分布，然后根据观察数据计算后验分布。本章另一个重要的概念是共轭先验，它让后验分布具有和先验一样的函数形式，这能够极大的简化贝叶斯分析。比如多项式的参数的共轭分布式是Dirichlet分布，高斯分布期望参数的共轭先验仍是高斯分布。这些分布都是指数系列的分布，他们具有很多重要的性质。参数估计的方式的缺陷是首先假定了分布的函数，这在一些应用中并不适用，一种可选择的方式是非参数密度估计，它的分布形式很大程度依赖于现有数据的规模，这些模型仍然有隐含参数，但是它只是用于控制模型的复杂度而不是分布的形式。本章最后介绍了三个非参数的估计histograms，最邻近方法，核方法。

2.1 二元变量
    首先介绍二元分布和二项式分布，给出了期望和方差，并通过最大似然函数的方法估计参数u的值。
2.1.1
    这节介绍了beta分布，介绍了关于参数引入先验分布，然后通过观察似然函数因子，选择先验的形式使其和似然函数具有相似的形式，然后根据先验概率和似然函数的乘积计算出后验概率，和先验具有一样的形式，这种特性被称为共轭。beta分布是二项分布的共轭先验分布，介绍了超参数的概念。
       通过共轭分布，可以每次观察一个数据，然后计算后验分布，并将先验分布更新为后验分布，继续观察学习，这种方式被称为顺序学习。
2.2 多元变量
    这节首先介绍了使用1 of k的形式表示的多元分布，通过最大似然函数的方法估计参数u，然后引入k个变量的联合分布多项式分布。
2.2.1 Dirichlet distribution
    首先通过研究多项式参数分布参数uk的先验分布，引入了Dirichlet distribution。引入一个simplex的概念，关于simplex,二维的就是以(0,1)和(1,0)为端点的线段,三维的就是以(0,0,1),(0,1,0),(0,0,1)为端点的三角形的内部。然后通过将先验和似然函数相乘得到后验分布，仍然是Dirichlet distribution。事实上Dirichlet分布是多项式分布的共轭先验。现在比较火的topic model、LDA就是使用了Dirichlet distribution。
2.3 高斯分布
   在第一章已经介绍了高斯分布，引入了D-维变量的高斯分布，给出了期望和协方差矩阵。。高斯分布的最大增益仍然是高斯分布。多个随机变量之和的均值，随着变量的增加，越趋向于高斯分布。
    随后介绍了高斯分布的几何属性，引入了马氏距离（Mahalanobis distance）。然后考虑协方差矩阵式对称矩阵，通过其特征值和特征矩阵表示特征矩阵及其逆矩阵。引入一个新的坐标系统，被定义为正交矩阵ui从xi坐标移动并做了旋转变换，然后介绍在新的坐标系下高斯分布的形式。
2.3.1 高斯条件分布
把一个多维的变量分成两部分，然后通过分块矩阵运算，得到
μa|b = μa + ΣabΣ^−1bb (xb − μb)
Σa|b = Σaa − ΣabΣ^−1bb Σba.
2.3.2 高斯边缘分布
联合分布p(xa,xb)如果是高斯分布，那么条件分布仍然是高斯分布。边缘分布也是
高斯分布。根据联合分布的指数二次形式可以有效地得到边缘分布，进而得到均值
和方差。
联合分布的二次形式可以使用精度的分块矩阵来表示，我们的目的是对xb进行积分，
首先考虑和xb相关的项，与xb相关的项是一个标准的二次形式。
我们通过对指数部分积分，然后进行规范化即可，又由于标准的高斯分布，规范化的
分母只和方差矩阵相关，和均值无关。我们可以得到很简洁的使用分块精度矩阵表示
的均值和方差：
E[xa] = μa
cov[xa] = Σaa

2.3.3 关于高斯变量的贝叶斯理论
给定高斯分布p(x)和条件分布p(y|x)
p(x) = N(x|μ,Λ^-1)
p(y|x) = N(y|Ax + b,L^-1)
关于y的边缘分布和x关于y的条件分布为：
p(y) = N(y|Aμ + b,L?1 + AΛ^-1AT)
p(x|y) = N(x|Σ{A^T L(y-b)+Λμ},Σ)
Σ = (Λ + A^T LA)^1
2.3.4 高斯分布的最大似然估计(待续)

分享到：

深入异常处理 | 使用Jsoup抽取数据

2011-03-21 23:52
浏览 6316
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论