`
blueyanghualong
  • 浏览: 228503 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

贝叶斯与向量机的理解

 
阅读更多

Bayes

Bayes是一种在已知先验概率与条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 

Bayes
方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本 足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

 

 

 

 

 

先验概率和后验概率 
P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有 这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学 习中,我们关心的是P(h|D),即给定Dh的成立的概率,称为h的后验概率。

 

(1) 朴素贝叶斯算法

设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1x2xn},假定有m个类,分别用C1, C2,…Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是

P(Ci|X)>P(Cj|X) 1jmji

根据贝叶斯定理

 

由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样

 

先验概率P(x1|Ci)P(x2|Ci)P(xn|Ci)可以从训练数据集求得。

根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出

 

========================================================================

========================================================================

 


向量机

  支持向量机(Support Vector Machine)是Cortes 和Vapnik 于1995年首先提出的,它在解决

小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其

他机器学习问题中[10]。

   VC 维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC 维越高,一个问

题就越复杂

 

 结构风险 近似模型与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)

 

泛化能力 亦是推广能力 真实风险应该由两部分内容刻画,一是

验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以

信任分类器在未知文本上分类的结果

 

 

置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可

能正确,此时置信风险越小;二是分类函数的VC 维,显然VC 维越大,推广能力越差,置信

风险会变大。

泛化误差界的公式为:

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)就是真实风险,Remp(w)就是经验风险,Ф(n/h)就是置信风险。统计学习的目标

从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。

 

SVM 正是这样一种努力最小化结构风险的算法。

 

线性可分 概念 ,在一个二维平面中它们的样本可以被中间的一条直线分类函数 分成两类,并且样本完全分开。就称这些数据是线性可分的,否则称为非线性可分的。

 

 

线性函数 在一维空间里就是一个点,在二维空

间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(Hyper Plane)!

g(x)=wx+b

 

关于g(x)=wx+b 这个表达式要注意三点:一,式中的x 不是二维坐标系中的横轴,而是样本

的向量表示,例如一个样本点的坐标是(3,8),则xT=(3,8),而不是x=3(一般说向量都是

说列向量,因此以行向量形式来表示时,就加上转置)。二,这个形式并不局限于二维的情

,在n 维空间中仍然可以使用这个表达式,只是式中的w 成为了n 维向量(在二维的这个

例子中,w 是二维向量,为了表示起来方便简洁,以下均不区别列向量和它的转置,聪明的

读者一看便知);三,g(x)不是中间那条直线的表达式,中间那条直线的表达式是g(x)=0,

即wx+b=0,我们也把这个函数叫做分类面。

 

分类间隔实际上很容易看出来,中间那条分界线并不是唯一的,我们把它稍微旋转一下,只要不把两

类数据分错,仍然可以达到上面说的效果,稍微平移一下,也可以。

 

 

总之浅显点说 向量机模型算法就是通过 核函数把线性不可分割的数据进行高维度化 使得 分割间距明显 然后在通过惩罚因子剔除脏数据 

 

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics