本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
龙儿筝 -
第3名
青否云后端云 - wallimn
- vipbooks
- gashero
- wy_19921005
- benladeng5225
- fantaxy025025
- zysnba
- e_e
- javashop
- sam123456gz
- tanling8334
- arpenker
- kaizi1992
- xpenxpen
- xiangjie88
- lemonhandsome
- ganxueyun
- xyuma
- sichunli_030
- wangchen.ily
- jh108020
- johnsmith9th
- Xeden
- zxq_2017
- jbosscn
- zhanjia
- forestqqqq
- luxurioust
- lzyfn123
- ajinn
- wjianwei666
- daizj
- ranbuijj
- 喧嚣求静
- silverend
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- jveqi
- java-007
- sunj
- yeluowuhen
- ssydxa219
- lerf
- lstcyzj
- flashsing123
最新文章列表
SVM实战之垃圾邮件过滤
SVM作为机器学习里面的经典算法在实际中一直被广泛采用,而且其准确性也是非常之高,特别是在引入了核函数之后对识别性能变得非常高。
说明:本文不打算就SVM原理就深入分析,虽然对其原理略懂一二,但是对于SMO算法的理解确实比较浅,所以也不打算班门弄斧,略微介绍,本文重点在于SVM的应用,也就是对垃圾邮件的文本分类
关于支持向量机的原理性分析在CSDN上有July大神的博客 :http:/ ...
Matlab 支持向量机(SVM)实现多分类
1、首先,你需要安装完成Matlab。
2、将libsvm-3.17.zip和drtoolbox.tar文件解压到:libsvm-3.17文件夹和drtoolbox,并放到MATLAB的工具箱安装目录下,
例如:C:\Program Files\MATLAB\R2014a\toolbox目录下。
3、启动Matlab。
4、单击File菜单下的Set Path...菜单项,打开Set Path对话框 ...
libsvm 常见问题
转自:http://dly0205.blog.sohu.com/54750954.html
这里是libsvm的FQA :
问: 我在那里能够找到libsvm的文件 ?
软件包中有一个 README 文件,里面详细说明了所有参数选项、数据格式以及库函数的调用。在python目录下,模型选择工具和python界面的libsvm各有一个README文件。 初学者可以通过A ...
【转】SVM入门(十)将SVM用于多类分类
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/26/262113.html
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正 ...
【转】文本分类入门(十一)特征选择方法之信息增益
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特 ...
【转】SVM入门(九)松弛变量(续)
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/17/260315.html
接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:
注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视 ...
【转】SVM入门(八)松弛变量
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/15/259786.html
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样:
圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集 ...
【转】SVM入门(七)为何需要核函数
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html
生存?还是毁灭?——哈姆雷特
可分?还是不可分?——支持向量机
之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。 ...
【转】SVM入门(六)线性分类器的求解——问题的转化,直观角度
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/03/01/257237.html
让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图,
圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维 ...
【转】SVM入门(五)线性分类器的求解——问题的描述Part2
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/02/14/254630.html
从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示:
(式1)
约束条件用函数c来表示,就是constrai ...
【转】SVM入门(四)线性分类器的求解——问题的描述Part1
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的 ...
【转】SVM入门(一)至(三)Refresh
本文转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html
(一)SVM的八股简介
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出 ...
文本分类入门(十一)特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息, ...
SVM入门(十)将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。
还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个 ...