`
carus
  • 浏览: 30119 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

(六)训练Part 3

 
阅读更多

SVM算法

  支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。

  支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。

  SVM 方法有很坚实的理论基础,SVM 训练的本质是解决一个二次规划问题(Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM 分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM 训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM 的训练速度问题,研究者提出了很多改进方法,包括Chunking 方法、Osuna 算法、SMO 算法和交互SVM 等等[14]。

  SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都优于kNN及朴素贝叶斯方法[8]。

  与其它算法相比,SVM算法的理论基础较为复杂,但应用前景很广,我打算专门写一个系列的文章,详细的讨论SVM算法,stay tuned!

  介绍过了几个很具代表性的算法之后,不妨用国内外的几组实验数据来比较一下他们的优劣。

  在中文语料上的试验,文献[6]使用了复旦大学自然语言处理实验室提供的基准语料对当前的基于词向量空间文本模型的几种分类算法进行了测试,这一基准语料分为20个类别,共有9804篇训练文档,以及9833篇测试文档。在经过统一的分词处理、噪声词消除等预处理之后,各个分类方法的性能指标如下。

   

  其中F1 测度是一种综合了查准率与召回率的指标,只有当两个值均比较大的时候,对应的F1测度才比较大,因此是比单一的查准或召回率更加具有代表性的指标。

  由比较结果不难看出,SVM和kNN明显优于朴素贝叶斯方法(但他们也都优于Rocchio方法,这种方法已经很少再参加评测了)。

  在英文语料上,路透社的Reuters-21578 “ModApt´e”是比较常用的测试集,在这个测试集上的测试由很多人做过,Sebastiani在文献[23]中做了总结,相关算法的结果摘录如下:

 

 

  分类算法

 

 

  在Reuters-21578 “ModApt´e”上的F1测度

 

 

  Rocchio

 

 

  0.776

 

 

  朴素贝叶斯

 

 

  0.795

 

 

  kNN

 

 

  0.823

 

 

  SVM

 

 

  0.864

 

 

  仅以F1测度来看,kNN是相当接近SVM算法的,但F1只反映了分类效果(即分类分得准不准),而没有考虑性能(即分类分得快不快)。综合而论,SVM是效果和性能均不错的算法。

  前面也提到过,训练阶段的最终产物就是分类器,分类阶段仅仅是使用这些分类器对新来的文档分类而已,没有过多可说的东西。

  下一章节是对到目前为止出现过的概念的列表及简单的解释,也会引入一些后面会用到的概念。再之后会谈及分类问题本身的分类(绕口),中英文分类问题的相似与不同之处以及几种特征提取算法的概述和比较,路漫漫……

 

分享到:
评论

相关推荐

    基于hadoop的百度云盘源代码(亲测可用完整项目代码)

    基于hadoop的百度云盘源代码(亲测可用完整项目代码),个人经导师指导并认可通过的毕业设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的百度云盘源代码(亲测可用完整项目代码)基于hadoop的

    cruise软件模型,串联混动ECMS,cruise增程混动仿真模型,A-ECMS控制策略,Cruise混动仿真模型,串联混动汽车动力性经济性仿真 关于模型 1.本模型是基于增程混动架构搭建的cru

    cruise软件模型,串联混动ECMS,cruise增程混动仿真模型,A-ECMS控制策略,Cruise混动仿真模型,串联混动汽车动力性经济性仿真。 关于模型 1.本模型是基于增程混动架构搭建的cruise仿真模型,串联混动架构,实现简易的A-ECMS控制,可用于相关策略开发及课题研究。 2.模型是基于cruise simulink搭建的base模型,策略模型基于MATLAB Simulink平台搭建完成,通过C++编译器编译成dll文件给CRUISE引用,实现联合仿真。 3.尽可能详细的描写了策略说明,大约14页左右,主要解释策略搭建逻辑及各模式间的转。 4.模型主要供学习使用,不同的车型控制策略必然不同,请不要抱着买来即用的态度拿后,具体车型仿真任务请根据需求自行变更模型,或联系模型定制。 5.使用模型前请确保有相应软件基础,卖的是模型,不是软件教程。 关于模型策略问题可以适当交流,但不做软件保姆式教学。 6.模型由“王浮生不怕生”搭建,拿后模型提供五天文字,盗版用户不提供,找谁买的问谁去。 7.文件包含:cruise模型、simulink策略模型、策略说明文档。 8.DLL文件使

    Java 21 新特性详解:虚拟线程、字符串模板与模式匹配等亮点

    Java 21 是一款里程碑式的版本,虚拟线程让高并发编程突破极限,字符串模板让文本处理更简单直观,模式匹配增强则彻底解放你的双手。加上性能优化、集合新功能,它不仅让开发更轻松,还能大幅提升应用运行效率。快来体验这个重新定义开发体验的版本吧!

    基于java的无人超市管理系统设计与实现.docx

    基于java的无人超市管理系统设计与实现.docx

    2021中国新锐品牌发展研究:食品饮料行业报告.pdf

    2021中国新锐品牌发展研究:食品饮料行业报告

    永磁同步电机FOC矢量控制4种方法模型:双闭环PI控制、电流滞环控制、转速环滑模控制、电流环PR控制4个simulink模型 三相永磁同步电机矢量控制Matlab Simulink仿真模型,带有各部分

    永磁同步电机FOC矢量控制4种方法模型:双闭环PI控制、电流滞环控制、转速环滑模控制、电流环PR控制4个simulink模型 三相永磁同步电机矢量控制Matlab Simulink仿真模型,带有各部分模块详细介绍文档及参考文献17篇。 内容非常全面,说明文档从转速电流双闭环PI控制开始介绍,同时含滞环电流控制、滑模速度控制、静止坐标系下电流PR控制的原理介绍、模型介绍、参数计算步骤、模块结构介绍和仿真波形分析。 方便对比加深理解,以及改进丰富内容。 总共含4个矢量控制(FOC)的Simulink仿真模型,清单如下: (1)一般矢量控制即转速环、电流环均采用PI调节器,则对应仿真模型PMSM_FOC_PI.slx文件。 (2)在(1)的基础上把电流环PI控制器成滞环控制,则对应仿真模型PMSM_Zhihuan.slx文件。 (3)把转速环PI控制器成滑模控制,则对应仿真模型PMSM_SMC.slx文件。 (4)若电流控制中不采用坐标变,把电流环PI控制器成PR控制器,则对应仿真模型PMSM_PR.slx。 Matlab2015b以上都能正常运行,参数已调好,可直接运行。 内含资料,对Si

    数据结构与算法中的回文串:马拉车算法与中心扩展法的Python实现及其应用

    内容概要:本文详细介绍了关于寻找最长回文子串的相关知识,包括前置理论、不同求解方法的具体操作及其优势。首先,阐述了回文串这一特殊结构的概念及其特性——正序逆序完全一致。紧接着,围绕中心扩展法和马拉车算法展开叙述。前者基于字符逐一检查周边字符的方法,在每一点向外延伸探索最长相同序列。而后者利用预处理阶段将字符间隔用特殊符号填充形成全新字符串形式,并建立相应的辅助工具(如回文半径数组)用于跟踪回文中点位置与范围变动情况,再经由巧妙规则判定并逐步推进搜索进度,从而大大降低了运行成本。最后还提到了两种常规方法——动态规划与中心扩展的具体思路以及它们各自适用的情况和局限性。 适合人群:正在研究或学习数据结构和算法特别是字符串处理相关领域的技术人员和爱好者。 使用场景及目标:帮助开发者针对字符串匹配类的问题,尤其是回文判定和查找场景,掌握更多高效的解决方案,优化程序性能。具体应用场景如文本编辑器、搜索引擎中的关键字检索等方面可能会涉及到这类算法的应用。

    录屏软件亲测可用哦,非常好用

    录屏

    C语言实践作业飞机大战.zip

    C语言实践作业飞机大战.zip

    人机对话意图识别数据集

    人机对话意图识别数据集

    瑞幸咖啡企业微信群话术及人设搭建SOP.xlsx

    瑞幸咖啡企业微信群话术及人设搭建SOP.xlsx

    基于java的居家养老健康管理系统设计与实现.docx

    基于java的居家养老健康管理系统设计与实现.docx

    基于java的在线租房招聘平台设计与实现.docx

    基于java的在线租房招聘平台设计与实现.docx

    基于java的企业信息管理系统设计与实现.docx

    基于java的企业信息管理系统设计与实现.docx

Global site tag (gtag.js) - Google Analytics