SVM算法
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。
SVM 方法有很坚实的理论基础,SVM 训练的本质是解决一个二次规划问题(Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM 分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM 训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM 的训练速度问题,研究者提出了很多改进方法,包括Chunking 方法、Osuna 算法、SMO 算法和交互SVM 等等[14]。
SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都优于kNN及朴素贝叶斯方法[8]。
与其它算法相比,SVM算法的理论基础较为复杂,但应用前景很广,我打算专门写一个系列的文章,详细的讨论SVM算法,stay tuned!
介绍过了几个很具代表性的算法之后,不妨用国内外的几组实验数据来比较一下他们的优劣。
在中文语料上的试验,文献[6]使用了复旦大学自然语言处理实验室提供的基准语料对当前的基于词向量空间文本模型的几种分类算法进行了测试,这一基准语料分为20个类别,共有9804篇训练文档,以及9833篇测试文档。在经过统一的分词处理、噪声词消除等预处理之后,各个分类方法的性能指标如下。
其中F1 测度是一种综合了查准率与召回率的指标,只有当两个值均比较大的时候,对应的F1测度才比较大,因此是比单一的查准或召回率更加具有代表性的指标。
由比较结果不难看出,SVM和kNN明显优于朴素贝叶斯方法(但他们也都优于Rocchio方法,这种方法已经很少再参加评测了)。
在英文语料上,路透社的Reuters-21578 “ModApt´e”是比较常用的测试集,在这个测试集上的测试由很多人做过,Sebastiani在文献[23]中做了总结,相关算法的结果摘录如下:
分类算法
|
在Reuters-21578 “ModApt´e”上的F1测度
|
Rocchio
|
0.776
|
朴素贝叶斯
|
0.795
|
kNN
|
0.823
|
SVM
|
0.864
|
仅以F1测度来看,kNN是相当接近SVM算法的,但F1只反映了分类效果(即分类分得准不准),而没有考虑性能(即分类分得快不快)。综合而论,SVM是效果和性能均不错的算法。
前面也提到过,训练阶段的最终产物就是分类器,分类阶段仅仅是使用这些分类器对新来的文档分类而已,没有过多可说的东西。
下一章节是对到目前为止出现过的概念的列表及简单的解释,也会引入一些后面会用到的概念。再之后会谈及分类问题本身的分类(绕口),中英文分类问题的相似与不同之处以及几种特征提取算法的概述和比较,路漫漫……
分享到:
相关推荐
标题中的“14G的中文预训练数据part3”指的是一个大型的中文文本数据集,其容量达到了14GB,这是专门为BERT模型的预训练准备的。预训练数据集是机器学习模型,尤其是深度学习模型的基础,它们在模型训练过程中扮演着...
人教版PEP英语六年级下册Unit3Wheredidyougo_PartA同步训练(.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartC同步训练C.pdf
SPC教育训练part1.pptx
pets3 考点详解与强化训练 听力部分A1 part3 提高应试听力
Adaboost训练车牌定位.zip-part3 使用Adaboost训练车牌定位介绍了《使用Adaboost训练车牌定位》的前两个 步骤: 1.准备训练样本图片,包括正例及反例样本 2.生成样本描述文件 3.训练样本 4.目标识别
标题 "英文BERT论文预训练数据part1" 指的是一个与BERT模型相关的研究资料集,它是BERT模型在英文环境下的预训练数据的第一部分。BERT,全称为Bidirectional Encoder Representations from Transformers,是由Google...
coco训练集5k.part(2014),包含coco训练集的图片路径(相对路径)如果发生找不到图片的情况,可修改为绝对路径
机器学习训练样本part1, fcis_coco-0000.params.00000001
标题中的“14G的中文预训练数据part1”指的是一个大型的中文文本数据集,其大小为14GB,这是专门为BERT模型的预训练准备的一部分。预训练是深度学习中一个关键步骤,特别是对于像BERT这样的语言模型,它通过在大量无...
人教版PEP英语六年级下册Unit3Wheredidyougo_PartC同步训练D.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartC同步训练B.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartC同步训练A.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartC同步训练(.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartA同步训练D.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartA同步训练C.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartA同步训练B.pdf
人教版PEP英语六年级下册Unit3Wheredidyougo_PartA同步训练A.pdf
中文维基glove词向量(已训练)-part2中文维基glove词向量(已训练)-part2
"part1"可能表明这是一个分批发布的大型数据集的一部分,后续可能还有其他部分(如part2、part3等)。 训练过程通常涉及使用卷积神经网络(CNNs),这是一种特别适合处理图像数据的网络结构。CNN通过多层过滤器来...