这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型。讨论了一些统计学的关键概念,比如 Bayesian inference。概率分布的一个角色是:给定一个随机变量x有限集合的观察值x1,x2….xn,对概率分布p(x)进行建模,即概率密度估计。首先介绍离散型贝努力分布、二项式分布和多项式分布和连续型的Gaussian分布。一个特殊
的问题就是参数化估计问题,根据观察的值来估计概率分布的参数,frequentist方式,可以采用似然函数的方法,贝叶斯方式,首先引入一个参数的先验分布,然后根据观察数据计算后验分布。本章另一个重要的概念是共轭先验,它让后验分布具有和先验一样的函数形式,这能够极大的简化贝叶斯分析。比如多项式的参数的共轭分布式是Dirichlet分布,高斯分布期望参数的共轭先验仍是高斯分布。这些分布都是指数系列的分布,他们具有很多重要的性质。参数估计的方式的缺陷是首先假定了分布的函数,这在一些应用中并不适用,一种可选择的方式是非参数密度估计,它的分布形式很大程度依赖于现有数据的规模,这些模型仍然有隐含参数,但是它只是用于控制模型的复杂度而不是分布的形式。本章最后介绍了三个非参数的估计histograms,最邻近方法,核方法。
2.1 二元变量
首先介绍二元分布和二项式分布,给出了期望和方差,并通过最大似然函数的方法估计参数u的值。
2.1.1
这节介绍了beta分布,介绍了关于参数引入先验分布,然后通过观察似然函数因子,选择先验的形式使其和似然函数具有相似的形式,然后根据先验概率和似然函数的乘积计算出后验概率,和先验具有一样的形式,这种特性被称为共轭。beta分布是二项分布的共轭先验分布,介绍了超参数的概念。
通过共轭分布,可以每次观察一个数据,然后计算后验分布,并将先验分布更新为后验分布,继续观察学习,这种方式被称为顺序学习。
2.2 多元变量
这节首先介绍了使用1 of k的形式表示的多元分布,通过最大似然函数的方法估计参数u,然后引入k个变量的联合分布多项式分布。
2.2.1 Dirichlet distribution
首先通过研究多项式参数分布参数uk的先验分布,引入了Dirichlet distribution。引入一个simplex的概念,关于simplex,二维的就是以(0,1)和(1,0)为端点的线段,三维的就是以(0,0,1),(0,1,0),(0,0,1)为端点的三角形的内部。然后通过将先验和似然函数相乘得到后验分布,仍然是Dirichlet distribution。事实上Dirichlet分布是多项式分布的共轭先验。现在比较火的topic model、LDA就是使用了Dirichlet distribution。
2.3 高斯分布
在第一章已经介绍了高斯分布,引入了D-维变量的高斯分布,给出了期望和协方差矩阵。。高斯分布的最大增益仍然是高斯分布。多个随机变量之和的均值,随着变量的增加,越趋向于高斯分布。
随后介绍了高斯分布的几何属性,引入了马氏距离(Mahalanobis distance)。然后考虑协方差矩阵式对称矩阵,通过其特征值和特征矩阵表示特征矩阵及其逆矩阵。引入一个新的坐标系统,被定义为正交矩阵ui从xi坐标移动并做了旋转变换,然后介绍在新的坐标系下高斯分布的形式。
2.3.1 高斯条件分布
把一个多维的变量分成两部分,然后通过分块矩阵运算,得到
μa|b = μa + ΣabΣ^−1bb (xb − μb)
Σa|b = Σaa − ΣabΣ^−1bb Σba.
2.3.2 高斯边缘分布
联合分布p(xa,xb)如果是高斯分布,那么条件分布仍然是高斯分布。边缘分布也是
高斯分布。根据联合分布的指数二次形式可以有效地得到边缘分布,进而得到均值
和方差。
联合分布的二次形式可以使用精度的分块矩阵来表示,我们的目的是对xb进行积分,
首先考虑和xb相关的项,与xb相关的项是一个标准的二次形式。
我们通过对指数部分积分,然后进行规范化即可,又由于标准的高斯分布,规范化的
分母只和方差矩阵相关,和均值无关。我们可以得到很简洁的使用分块精度矩阵表示
的均值和方差:
E[xa] = μa
cov[xa] = Σaa
2.3.3 关于高斯变量的贝叶斯理论
给定高斯分布p(x)和条件分布p(y|x)
p(x) = N(x|μ,Λ^-1)
p(y|x) = N(y|Ax + b,L^-1)
关于y的边缘分布和x关于y的条件分布为:
p(y) = N(y|Aμ + b,L?1 + AΛ^-1AT)
p(x|y) = N(x|Σ{A^T L(y-b)+Λμ},Σ)
Σ = (Λ + A^T LA)^1
2.3.4 高斯分布的最大似然估计(待续)
分享到:
相关推荐
国科大模式识别与机器学习第二章2018年课件,黄庆明老师主讲,第二章统计判别
本章介绍了各种概率分布,包括离散分布(如伯努利分布、多项式分布)和连续分布(如高斯分布、指数分布),以及它们在机器学习中的应用。概率分布是理解和分析数据不确定性的重要工具。 - **知识点:** - 伯努利...
《模式识别和机器学习笔记》是Bishop著作《Pattern Recognition and Machine Learning》(简称PRML)的学习笔记,涵盖了模式识别和机器学习领域的核心概念和方法。本笔记深入探讨了概率分布、线性模型、神经网络、核...
国科大_模式识别与机器学习第四章作业
综上所述,模式识别与机器学习第三章的内容涵盖了概率统计、贝叶斯定理、参数估计、特征提取与选择、监督学习以及模型评估等多个重要知识点,这些知识对于理解和实践机器学习算法至关重要。通过深入学习和练习第三章...
深度学习是近年来机器学习领域的热点,它通过多层非线性变换实现复杂模式的抽象和学习。 预备知识要求学生具备微积分、高等数学、线性代数、概率论与统计以及高级语言编程和数据结构的基础,这些是理解和应用机器...
3. 模式识别的定义:模式识别是指通过机器学习算法来识别和分类数据中所包含的模式和结构的过程。模式识别可以应用于图像识别、语音识别、文本分类等领域。 4. 模式识别的类型:模式识别可以分为两种类型:分类和...
这本书详细介绍了模式识别和统计学习理论的基础,是许多科研人员和工程师深入理解机器学习的必备参考书籍。 在模式识别方面,本书涵盖了基础理论和方法,包括概率模型、贝叶斯决策理论、线性分类器如支持向量机...
《模式识别和机器学习》(Chinese Edition,又称为“花书”)是机器学习领域的一本经典教材,由Chris Bishop撰写。这本书深入浅出地介绍了机器学习的基本概念、理论和方法。以下是对书中的主要知识点的详细解释: 1...
模式识别与机器学习:第四章 特征选择和提取.ppt
模式识别与机器学习是当前人工智能领域中的核心组成部分,它们都致力于让计算机从数据中学习并做出决策。这两者的共同问题是解决复杂数据集的分类、聚类、特征选择和信息融合等任务,但它们的研究侧重点有所不同。 ...
国科大模式识别和机器学习考试提纲 ...国科大模式识别和机器学习考试提纲涵盖了模式识别、机器学习、深度学习、概率图模型、集成学习和其他知识点。只有充分了解这些知识点,才能更好地应对考试。
《模式识别与机器学习》是深入探讨人工智能领域中两个核心概念——模式识别和机器学习的一篇高水准学术论文。这篇论文旨在阐述这两种技术的基本原理、关键算法及其在实际应用中的重要性。 首先,模式识别是人工智能...
模式识别在机器学习和人工智能领域中扮演着至关重要的角色。 模式识别的分类可以分为两种:监督学习和非监督学习。监督学习是通过已知的训练数据来学习和训练模型,以便对未知数据进行分类和识别。非监督学习是通过...
模式识别与机器学习PPT课件.pptx
模式识别与机器学习是人工智能领域的核心...随着技术的发展,新的模型和算法不断涌现,如Transformer在自然语言处理中的应用,以及强化学习在游戏和机器人控制等领域的进展,持续推动着模式识别和机器学习的边界拓展。
2021年整理,国科大模式识别与机器学习课程
通过以上分析,我们可以看到,《Pattern Recognition and Machine Learning》涵盖了模式识别与机器学习领域的核心概念和技术,包括线性模型、神经网络、核方法等多种方法。该书及其解答集对于深入理解和掌握机器学习...
在模式识别与机器学习的领域中,第二章通常会深入探讨基础理论和关键概念,为后续的高级主题打下坚实的基础。在这个国科大的作业中,我们可以预想它将涵盖以下几个核心知识点: 1. **概率论与统计推断**:在机器...
【模式识别与机器学习】 ...通过这门课程,学生将掌握模式识别和机器学习的基本概念、核心算法和实际应用,培养他们在实际场景中运用这些技术解决问题的能力,为未来在人工智能和数据分析领域的工作打下坚实基础。