摘录自:
http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html
上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。
在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由一个向量(就是那些文本特征所组成的向量)和一个标记(标示出这个样本属于哪个类别)组成。如下:
Di=(xi,yi)
xi就是文本向量(维数很高),yi就是分类标记。
在二元的线性分类中,这个表示分类的标记只有两个值,1和-1(用来表示属于还是不属于这个类)。有了这种表示法,我们就可以定义一个样本点到某个超平面的间隔:
δi=yi(wxi+b)
这个公式乍一看没什么神秘的,也说不出什么道理,只是个定义而已,但我们做做变换,就能看出一些有意思的东西。
首先注意到如果某个样本属于该类别的话,那么wxi+b>0(记得么?这是因为我们所选的g(x)=wx+b就通过大于0还是小于0来判断分类),而yi也大于0;若不属于该类别的话,那么wxi+b<0,而yi也小于0,这意味着yi(wxi+b)总是大于0的,而且它的值就等于|wxi+b|!(也就是|g(xi)|)
现在把w和b进行一下归一化,即用w/||w||和b/||w||分别代替原来的w和b,那么间隔就可以写成
这个公式是不是看上去有点眼熟?没错,这不就是解析几何中点xi到直线g(x)=0的距离公式嘛!(推广一下,是到超平面g(x)=0的距离, g(x)=0就是上节中提到的分类超平面)
小Tips:||w||是什么符号?||w||叫做向量w的范数,范数是对向量长度的一种度量。我们常说的向量长度其实指的是它的2-范数,范数最一般的表示形式为p-范数,可以写成如下表达式
向量w=(w1, w2, w3,…… wn)
它的p-范数为
看看把p换成2的时候,不就是传统的向量长度么?当我们不指明p的时候,就像||w||这样使用时,就意味着我们不关心p的值,用几范数都可以;或者上文已经提到了p的值,为了叙述方便不再重复指明。
当用归一化的w和b代替原值之后的间隔有一个专门的名称,叫做几何间隔,几何间隔所表示的正是点到超平面的欧氏距离,我们下面就简称几何间隔为“距离”。以上是单个点到某个超平面的距离(就是间隔,后面不再区别这两个词)定义,同样可以定义一个点的集合(就是一组样本)到某个超平面的距离为此集合中离超平面最近的点的距离。下面这张图更加直观的展示出了几何间隔的现实含义:
H是分类面,而H1和H2是平行于H,且过离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔。
之所以如此关心几何间隔这个东西,是因为几何间隔与样本的误分次数间存在关系:
其中的δ是样本集合到分类面的间隔,R=max ||xi|| i=1,...,n,即R是所有样本中(xi是以向量表示的第i个样本)向量长度最长的值(也就是说代表样本的分布有多么广)。先不必追究误分次数的具体定义和推导过程,只要记得这个误分次数一定程度上代表分类器的误差。而从上式可以看出,误分次数的上界由几何间隔决定!(当然,是样本已知的时候)
至此我们就明白为何要选择几何间隔来作为评价一个解优劣的指标了,原来几何间隔越大的解,它的误差上界越小。因此最大化几何间隔成了我们训练阶段的目标,而且,与二把刀作者所写的不同,最大化分类间隔并不是SVM的专利,而是早在线性分类时期就已有的思想。
分享到:
相关推荐
### SVM入门(五)线性分类器的求解——问题的描述Part2 #### 重要概念与背景 本文档旨在帮助读者理解支持向量机(SVM)中的线性分类器求解过程及其数学表述,特别关注于如何将线性分类器问题转化为优化问题,并讨论...
从给出的内容片断中,我们可以了解到文档讨论了对抗攻击(Evasion Attacks),特别是针对线性分类器和非线性分类器的绕过攻击(Evasion of Classifiers),以及如何检测恶意PDF文件。 文档开篇引用了《孙子兵法》中...
然后是线性分类器,如支持向量机(SVM)和感知器。线性分类器因其简洁的数学形式和高效的计算而备受青睐。它们通过在特征空间中找到一个超平面来划分不同类别的样本。线性SVM寻找最大的间隔边界,以最大化两类样本...
线性分类器如贝叶斯分类器,能够提供基于概率的决策边界。非线性分类器则包括多层感知器、决策树和径向基网络(RH网络)。这些非线性模型通常能够处理更复杂的数据关系,适应更广泛的实际应用。 此外,本书还涉及上...
Part 1可能介绍了朴素贝叶斯分类器的基本原理和应用场景,而Part 2可能深入到条件独立假设、贝叶斯网络以及在文本分类和推荐系统中的应用。 总的来说,这些课件提供了丰富的机器学习和人工智能基础知识,涵盖了从...
1. 统计模式识别:利用概率模型,如朴素贝叶斯分类器,来识别数据中的模式。 2. 基于实例的学习:包括K近邻(K-NN)算法,通过查找与新样本最相似的训练样本来做出决策。 3. 神经网络和深度学习:通过多层非线性...
朴素贝叶斯分类器是一种基于概率的分类方法,它利用贝叶斯定理来计算给定数据的条件下属于某一类的概率。该算法的前提假设是特征之间相互独立,这样可以简化计算过程。 决策树是一种图形化的决策支持工具,以树状...
接下来,"Part 2 Linear model.pdf"探讨了线性模型,这是机器学习中最基础且实用的方法之一。线性模型如逻辑回归和线性回归,它们在预测分析中广泛使用,因为它们易于理解和实现。这部分可能会讲解如何构建和优化...
DPM通常基于Boosting框架,通过一系列弱分类器(如Haar特征或HOG特征)组合成强分类器,以提高检测性能。 在实际应用中,深度神经网络经常与各种技术结合,例如与循环神经网络(Recurrent Neural Network, RNN)和...
2. **人脸检测**:使用如Haar特征级联分类器或DPM(Deformable Part Models)等方法检测图像中的人脸区域。 3. **姿态校正**:通过旋转和平移校正图像,使所有人脸都处于相似的视角。 4. **模型训练**:使用SVM...
10. **AdaBoost**:通过迭代训练弱分类器,构建强分类器的集成学习方法。 11. **随机森林(Random Forest)**:包含多个决策树的集成学习方法,提高了预测的稳定性和准确性。 12. **主成分分析(Principal Component...
2. **Part2: mlBasics_niloy.pdf** 机器学习基础是深度学习的基石,这部分可能会讲解监督学习、无监督学习和强化学习的基本概念,以及常用的机器学习算法,如线性回归、逻辑回归、决策树、随机森林和SVM等。这些...
朴素贝叶斯分类器假设特征之间相互独立,虽然这一假设在实际应用中往往不成立,但该方法简单高效,适用于大规模数据集。 - **J48()**: C4.5决策树算法。C4.5是一种经典的决策树算法,它可以生成易于理解的决策规则,...
2. **人脸检测**:常用的人脸检测方法有Haar特征级联分类器、HOG(Histogram of Oriented Gradients)和DPM(Deformable Part Models)。MATLAB中的vision.CascadeObjectDetector函数可以实现基于Haar特征的快速人脸...
例如,Bag of Words (BoW)模型结合SIFT或SURF特征,通过KMeans聚类生成视觉词汇,并利用SVM进行分类。稀疏编码(Sparse Coding)方法如LLC(Locality-constrained Linear Coding)通过学习局部线性表示来对图像进行分类...
- **Softmax分类器:** 多项式逻辑回归的一种形式,用于多分类任务。 **Optimization** - **策略1:随机搜索** - 在预定义的范围内随机选择超参数。 - **策略2:沿着斜率方向前进** - 使用数值梯度或解析梯度来...
传统的行人检测方法包括 Dalal 等人提出的梯度直方图(Histogram of Oriented Gradient,HOG)以及与线性分类器支持向量机(Support Vector Machine,SVM)结合的行人检测方法。 Felazenszwalb 等人随后提出了改进的...