贝叶斯与向量机的理解

blueyanghualong

浏览: 230798 次
性别:
来自: 杭州

最近访客更多访客>>

yumgpkpm

hui459982242

DD.

zp刘涛

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Bayes法

Bayes法是一种在已知先验概率与条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们，就要求样本足够大。另外，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。

先验概率和后验概率
用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率。类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率。机器学习中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率。

(1) 朴素贝叶斯算法

设每个数据样本用一个n维特征向量来描述n个属性的值，即：X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X（即没有类标号），若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是

P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i

根据贝叶斯定理

由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组，计算P(X|Ci)的开销可能非常大，为此，通常假设各属性的取值互相独立，这样

先验概率P(x1|Ci)，P(x2|Ci)，…，P(xn|Ci)可以从训练数据集求得。

根据此方法，对一个未知类别的样本X，可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci)，然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高，否则可能较低。另外，该算法没有分类规则输出

========================================================================

向量机

支持向量机(Support Vector Machine)是Cortes 和Vapnik 于1995年首先提出的，它在解决

小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其

他机器学习问题中[10]。

VC 维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC 维越高，一个问

题就越复杂

结构风险 近似模型与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）

泛化能力 亦是推广能力真实风险应该由两部分内容刻画，一是经

验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程度上可以

信任分类器在未知文本上分类的结果

置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果越有可

能正确，此时置信风险越小；二是分类函数的VC 维，显然VC 维越大，推广能力越差，置信

风险会变大。

泛化误差界的公式为：

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习的目标

从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

SVM 正是这样一种努力最小化结构风险的算法。

线性可分概念，在一个二维平面中它们的样本可以被中间的一条直线分类函数分成两类，并且样本完全分开。就称这些数据是线性可分的，否则称为非线性可分的。

线性函数 在一维空间里就是一个点，在二维空

间里就是一条直线，三维空间里就是一个平面，可以如此想象下去，如果不关注空间的维数，这种线性函数还有一个统一的名称——超平面（Hyper Plane）！

g(x)=wx+b

关于g(x)=wx+b 这个表达式要注意三点：一，式中的x 不是二维坐标系中的横轴，而是样本

的向量表示，例如一个样本点的坐标是(3,8)，则xT=(3,8)，而不是x=3（一般说向量都是

说列向量，因此以行向量形式来表示时，就加上转置）。二，这个形式并不局限于二维的情

况，在n 维空间中仍然可以使用这个表达式，只是式中的w 成为了n 维向量（在二维的这个

例子中，w 是二维向量，为了表示起来方便简洁，以下均不区别列向量和它的转置，聪明的

读者一看便知）；三，g(x)不是中间那条直线的表达式，中间那条直线的表达式是g(x)=0，

即wx+b=0，我们也把这个函数叫做分类面。

分类间隔实际上很容易看出来，中间那条分界线并不是唯一的，我们把它稍微旋转一下，只要不把两

类数据分错，仍然可以达到上面说的效果，稍微平移一下，也可以。

总之浅显点说向量机模型算法就是通过核函数把线性不可分割的数据进行高维度化使得分割间距明显然后在通过惩罚因子剔除脏数据

分享到：

【转】文本分类特征选择与特征权重计算的 ... | one-versus-rest和one-versus-one的不同

2012-05-23 15:58
浏览 1108
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论