一点题外内容:假设检验方法的用处在于让我们知道在观测到目前样本的情况下,除了初始假设之外,是否还有更加可能的某种其它原因。
零假设就是一个随机判定规则- 即选择一个样本,就根据某个先验概率P把它归为一个类别,如果一种候选规则同随机判定规则有显著差别,就说它是有用的。
空间的线性变换—例如平移(移动原点),旋转,反射,拉伸 ,压缩 ,或者这些的组合;还有其它的变换—可以通过它们在向量上的作用来可视化。
------------------------------
提及高斯函数,不得不提及其产生于的随机误差理论。
随机 误差的概念最先有伽利略在《关于两个主要世界系统的对话》中提出,在他的设想里,误差分布函数f(x)满足关于y轴对称,且随|x|的增加而递减。在勒让德的理论中,通常的算术平均值是方程组的未知数为一个时的特例,但这只是代数意义上的算术平均值的优良性,后来辛普森((Thomas Simpso)在《在应用天文学中取若干观测平均值的好处》中第一次从概率的角度严格证明算术平均的优良性(当时只是基于一种简单的误差分布假设)。
拉普拉斯直接考虑误差理论的基本问题,取怎样的分布为误差分布,以及在确定误差分布后,如何根据未知量的测量结果来估计其值。拉普拉斯给出与伽利略的随机误差相似的误差分布条件。
1. f(x) = f(-x), x是误差值
2. x->无穷,f(x)->0
3. f(x)的全定义域积分等于1
有很多函数满足这三条性质,为确定其一,他做了如下推理,条件2表明,曲线f(x)随着x(x>0)的增加越来越平缓,因而其下降率 -f'(x)也应随x的增加而下降,设-f‘(x) = mf(x), x>=0,m>0且为常数,可解得f(x) = ce^-mx由f(x) = -f(x), f(x) = ce^mx,x<0.再由f(x)积分=1,得c=m/2,f(x)=m/2*e^-m|x|.
拉普拉斯在得到误差密度函数后,就希望去通过能利用这个函数去估计真值。但是在当时的数学发展情况,我们现在熟知的点估计方法,矩法估计和似然估计都没有,拉普拉斯在他的“不充分推理”原则的基础上,得到是十分复杂的方程,不可能有实际的应用价值,他自己也认识到那个问题。
高斯在研究误差理论的时候,以及其简短的手法,推导出了正态分布密度函数:
假设x的误差分布函数为f(x)
L(X) = L(X; x1,x2...xn)= f(x1-X)f(x2-X)..f(xn-X)
这个过程中,高斯有两点创新:
1。 不采取贝叶斯式的推理方法,而是把使上式达到最大值的X = X(x1, x2,..xn)作为 X 的估计。
2。把问题倒过来,先承认算术平均是X应取的估计,然后再去找f(x)迎合这一点,即使算术平均是那个使上式子达到最大值。(算术平均是一个经历千百年考验的方法,故此一个一般方法如果是合理的,他应该在重复测量的情况下导出算术平均,因为最小二乘法具有这一特性,使我们对其合理性增添了信心,哈哈。高斯在研究测量误差的时候顺便也导出了最小二乘法)
对上式L(x)两边求对数,记 X 为算术平均。
记g(x) = f'(x)/f(x), 当我们取n = 2时,那么X应满足g(x1 - X ) + g(x2 - X ) = 0, 因为x1 - X = X - x2 , 所以g(-x) = - g(x), g(0) = 0.
现在令n=m+1,而
x1 = x2 =... xm= -x;
xm+1 = mx;
则 X = 0, g(mx) = mg(x). 假定g连续,不难推出g(x) = cx.因为g'(mx) = g'(x). 接下来显然g‘(x)=c .后面不难解得f(x)=Me^cx^2,f(x)积分为1, c便为一负数,记c为-1/h^2.正态分布的形式就不难求解了。
----------在20091104又发现上面记号里有些许错误,修正及修改衔接描述
这里可以看作必要性 的推导,虽然不知道高斯是不是这样推导的(根本搜不到相应的资料,要么可能有用的就是收费的,跑了上海书城一趟有用的东西也没翻到,都知道的东西你写本书我也写本书。还有人发表的文章上用的记号都似不对的,看得我郁闷了一个星期,直让我怀疑,是我太笨还是这东西太神秘)。
其实正态分布函数并不是首先来源高斯,只是首先被高斯用于误差分析领域,才慢慢发挥出巨大的作用,e这个东西在数学上很奇妙哈,我想这与三角函数,无穷级数,欧拉等等的研究的很有关系。
顺藤摸瓜的看了不少东西,到后来却发现没什么好写的 。顺便再说点,为什么高斯函数的曲线叫钟形曲线,首先有人研究命名了钟形曲面,记得外国的教堂的钟和旅馆里的服务台上的小铃铛吧,后来才有钟形曲线。
-------------------------------
两个高斯函数的卷积仍然是一个高斯函数,也就是说两个正态随机变量的和(z=x+y) 还是服从正态分布。卷积是其中一个函数翻转并平移后与另一个函数的乘积对于平移量的积分。
卷积最初为研究信号的零状态响应而来,有人说相关和卷积很像,的确,但他们又是两个完全不同的概念。相关最早是用来概率论中描述随机变量之间关系的概念,如相关系数。实际上信号一般是一个随机过程,为了实现信号的检测、识别与提取,经常要了解两个信号的相似性,或一个信号经过一段延迟后自身的相似性。但相关系数有缺陷,因为分子是两个信号的内积,如sinx和cosx,从波形上看只是相位不同,而相关系数为零(因为正弦和余弦正交),因此引进相关函数,将原来两函数直接内积改为一个函数和另一个函数的延迟作内积,所以和卷积公式很像,但其中每个量的物理意义是不同的。
--------------------
卷积如果再拓展一下:卷积的结果定义了一个新函数,这点在核函数里有充分体现,由卷积得到的函数f*g 一般要比f 和g 都光滑。特别当g 为具有紧致集(对应的空间稠密)的光滑函数,f 为局部可积时,它们的卷积f * g 也是光滑函数。利用这一性质,对于任意的可积函数f,都可以简单地构造出一列逼近于fs,这种方法称为函数的光滑化或正则化。卷积的概念还可以推广到数列、测度(为了积分推广)以及广义函数上去。
-------------------Added at 2009-03-31
服从多元正态分布的数据样本趋向于聚集在均值向量周围,形成一个以协方差矩阵的各本征向量为主轴的椭球形云团。二元的分布密度函数对应于代数里的二次型,因为它还是正态分布,所以它是一个“馒头山”,只有一个峰。这样研究极值就有意义了。
分享到:
相关推荐
在高级数学领域,笔记涉及了微积分、复变函数、泛函分析等主题。在微积分部分,matrix67不仅讲解了极限、导数和积分的基本概念,还讨论了微积分在实际问题中的应用,如最优化问题和物理模型的建立。在复变函数中,他...
1. 高等数学复习和准备考试的资料:文件标题“高数下讲义笔记【高斯课堂】.pdf”表明该文档是一套用于高等数学下册复习的讲义笔记。适用于高等数学下册的快速复习和考前突击,涵盖了各章节的例题和习题以及相应的...
- **异常检测**:用于识别数据集中不寻常或异常的样本,常使用高斯分布或其他概率模型来识别偏离正常行为的数据点。 【神经网络与深度学习】 神经网络是模拟人脑神经元结构的计算模型,通过多层非线性变换实现复杂...
在具体实现中,采用了高斯核函数来构建空间相关性,该函数可以根据欧几里得距离衰减,适当地捕捉不同位置间的关系。通过对高斯核的调整,可以控制相关性的影响范围。在计算过程中,还包括了标准化步骤,以满足对称...
这个学习笔记主要涵盖了FHOG特征提取的关键步骤,具体包括以下几个方面: 1. **梯度计算**: 梯度计算是FHOG的第一步,用于获取图像的局部变化信息。通过使用一维离散微分模板(如Sobel或Prewitt滤波器),可以...
1. 数论:高斯是数论的奠基人之一,他的工作包括二次互反律、高斯函数(也称为阶乘函数在实数和复数上的推广)、高斯整数等。复习这部分时,学生需要理解这些概念及其在密码学、编码理论等现代应用中的重要性。 2. ...
稀疏核机(支持向量机,SVM)是一种有效的分类和回归方法,其特点是通过核函数计算数据点之间的相似度,同时利用间隔最大化实现模型的稀疏性。本章还提到了稀疏贝叶斯模型(RVM),它通过引入贝叶斯框架来提高泛化...
这种分解特别适合处理与高斯分布相关的统计计算问题,比如在多元高斯分布的采样和概率密度函数的计算中经常用到。Cholesky分解相比于一般的LU分解,在计算量和内存占用上都更为高效,因为对称矩阵的非对角线上方和...
混合高斯分布模型是一个非常重要的统计模型,它广泛应用于数据分析、机器学习和模式识别等领域。本笔记将对混合高斯分布模型进行详细的介绍和分析,从高斯分布的基本概念到混合高斯分布模型的定义和应用。 1. 高斯...
这份压缩包文件包含了讲义笔记和练习题答案,是针对该课程的复习备考资源,旨在帮助学习者迅速理解和掌握相关知识点。 讲义笔记部分,通常会涵盖以下关键概念: 1. **概率论基础**:首先,我们需要理解概率的基本...
笔记中讨论了SVM的核心概念,包括优化目标、核函数,以及如何使用SVM进行分类。 聚类(Clustering)是一种无监督学习方法,旨在将数据集划分为多个类别。笔记中介绍了K均值聚类算法,并讨论了其应用场景。 降维...
同时,引入高斯函数作为练习,增强对分段函数的理解。 在建立模型阶段,强调了函数图像的各种形式,以及采用各种方法表示函数的条件。例如,解析法要求函数关系明确,图像法要求函数变化规律清晰,列表法则适用于函...
高斯判别分析(Gaussian Discriminant Analysis,GDA)是一种生成学习算法,在机器学习中用于解决分类问题。生成学习算法与判别学习算法相对,它关注于如何从数据中学习出联合概率分布P(X,Y),而不仅仅是条件概率...
在机器学习领域中,高斯判别分析(Gaussian Discriminant Analysis,GDA)是应用统计学中的一种方法,它主要涉及概率分布的建模。GDA属于生成模型,与之对应的判别模型如逻辑回归和感知器算法,专注于直接从输入特征...
笔记可能讲解了高斯消元法、克拉默法则、矩阵逆法等解线性方程组的方法。 6. **线性空间与基**:线性空间是所有向量集合,其中可以进行向量加法和标量乘法。笔记可能介绍了基的概念,基的性质,以及如何用基表示...
### MATLAB图像处理常用函数知识点总结 #### 图像处理概述 MATLAB作为一种强大的数值计算环境,在图像处理领域有着广泛的应用。本文档将从MATLAB图像处理的基础出发,介绍一系列常用函数和技巧,帮助读者更好地理解...
这个早期学习笔记包含了对差分隐私的基础理解和高斯机制的深入探讨。 差分隐私的基本概念是确保一个算法的输出在输入数据中添加或删除单个个体时变化不大。这样,即使数据集中的某个个体参与了,也无法通过分析结果...
### PRML读书会笔记知识点概览 #### 一、引言 《Pattern Recognition and Machine Learning》(PRML)是一本经典的机器学习教材,由Christopher M. Bishop撰写。本书以其全面性和深度著称,在机器学习领域内被视为...
这份笔记深入浅出地讲解了随机信号课程的关键点,包括定义、性质、分类和实际应用,是考生备考的宝贵资料。通过系统复习,学生可以更好地理解和应用随机过程理论,为解决实际工程问题打下坚实基础。