模式分类笔记 -- 统计学习（3）

highsky

浏览: 280301 次
性别:
来自: 深圳

最近访客更多访客>>

songling

213yy

u010081690

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

模式分类

网络应用 F#领域模型数据结构

计学习理论已经发展了几十年了，最近二十年的感觉是它的繁荣期。我在这一块耗费的时间也多了点，虽然只是草草入门了解，但亦觉得受益良多。

虽然提及统计学习理论的文章多会搭上神经网络的弱点，但是神经网络虽然存在理论上的梯度下降的固有缺陷，可应用起来的效果倒很不错的说。从一个方面来讲，统计学习在可行性的极限上与神经网络没啥区别，跟傅立叶变换这个基础关系很紧密。另外，统计学习理论对于小样本学习的情况比较关注，毕竟现实中样本经常是不够的，所以可以说它的理论成果比较坚实点。

反问题（由结果推原因）很多情况下是病态的，得到的结果跟样本的关系很大，可能样本有一点小小的偏差，那么结果就差的很远，或许这正是过拟合成为问题的理论来源。在此情况下，对样本的处理过程中需要用到正则化理论（通俗讲就是得到近似解）。一说最小二乘法相信你就能很好联系起来了。

对于正则化应用，除了应用样本的数据，后面通常会加上一个惩罚因子，来对拟合进行调节，以期综合性的筛选出最优化的解。在分类问题上的表现就是结构风险最小化（相对经验风险最小化），通常会控制函数的复杂性，因为复杂性通常和过拟合相联系，为了推广性，通常简单性与光滑性是我们所期望的。

后面的内容主要发生在希尔伯特空间。

这个空间所定义的内积空间是对欧氏空间的推广，在其中的元素是函数时（成为一个函数空间），最有意义，不然退回到欧式空间得了，再提一下，里面的元素具有线性性质，加法与标量乘法。

Riesz representation theorem:

在希尔伯特空间（H）中存在一个元素y，使得其对偶空间(构成元素是连续线性泛函)的元素可以表示成这样的形式，h = <x, y>, x是H中的任意一个元素，且可唯一表示成这种形式。对偶空间中的值是实数。我想这个定理是如此的重要，在函数分析领域，你可以把y看作空间的标准正交基的傅立叶级数形式，就不难理解了。

评估泛函的连续性和有界是等同的，所以里斯表示定理说的就是RKHS的问题。

RKHS（再生核希尔伯特空间）的定义，|Ft [f ]| = |f (t)| <= M * ||f ||,对于空间中任意的f。其实这里的M也是代表那个核函数的模，这里可以看作是|Ft [f ]| = <k, f> <= ||K||*||f||,这个式子是柯西-施瓦兹不等式(Cauchy–Schwarz inequality).

核函数可能在现在的应用文章中广泛出现，由其所牵扯出来的便是再生核希尔伯特空间(RKHS).核的再生性的意义其实是由其可以再造出一个它对应的希尔伯特空间，我曾纳闷核具有再生性（reproducing property），纠结于这特性作用与其本身有什么意义，现在回过头来看自己好傻，或许翻译再制造特性不会让人那么迷惑，可见有老师点拨会少消耗些精力与时间。

希尔伯特空间的理论上世纪初就有了，为无穷维线性方程组和量子力学而设，又不是为模式分类而创造，怎么扯上关系的。当做线性回归的时候来解判别函数的时候，通过转换把权向量可写成训练点的线性组合，可发现来自训练例子的信息由训练点对之间的内积给出，这意味着只需要训练点之间的内积（这里的训练点当然或者多是经过高维变换的点）。

核函数该出场了：

核是一个连续函数k，这个函数对于所有的X中的x，z，满足k（x，z） = <f（x）， f（z）>，其中f是从X到（内积）特征空间F的一个映射 f： x --> f(x) 属于F。

这意味着可以计算两个点在特征空间的投影之间的内积，而不用显式地求出它们的坐标，标量值，我们喜欢。其实核函数并不是特意为此理论而造，名字当然来自于更早的起名者，来自于积分方程。

同时RKHS的空间范数||f||可以用来来度量假设空间的复杂度，RKHS 是在正则化理论和统计学习理论之间建立联系的基本工具。

接下来从mercer theorem来入手，把一些东西讲一讲。

Mercer theorem里的积分算子