锁定老帖子 主题:特征选择技术导论——以SVM-RFE为例
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-07-18
一直觉得基于机器学习的数据挖掘技术是很有意思的东西,尤其是以统计学习理论为基础的SVM技术更是让人觉得充满科学的创意。在一位优秀老师的指导下学习了一些这方面的皮毛,于是总想动笔写下一点东西,算是与大家分享我的体会。就从我觉得最有意思的特征选择开始吧,说不定慢慢就写成一篇不错的review了。内容会有些学术,有些偏理论,我也会尽力的列出参考文献。鉴于我也是菜鸟,有错误的话还请大家拍砖。
特征选择(feature selection)是一种很有实用价值的技术,本质上来说是一种为数据挖掘消除数据噪声的技术。但我们对某件事务进行判断时,我们会根据以往的经验根据某些信息,而不是所有的信息做出判断。比如,判断一辆车的品牌,我们会去看车头车尾的标志,更细致一点会去看车的铭牌,因为这是最权威,也是最容易判断车辆品牌的信息。如果根据车的外形去判断车辆的品牌就有可能把QQ当作Spark,把F3当作花冠;如果根据车的价格去判断,也会把奥迪和大奔弄混。也就是说,人做判断时会选择出最有效的信息来做出自己的抉择。
计算机在面对类似问题的却无法根据已有的经验去选择最有效的信息,而大量无效信息对于计算机来说就是噪声,反而会影响计算机的判断结果。如果是前面对车辆品牌进行判断的例子,还可以人工的选择出最有效的信息。但是如果面对的是DNA序列、复杂的图片,那就只能依靠计算机了。于是这就诞生了特征选择技术,选出与结果最相关的特征,从而提高判断的准确率。
先列个提纲,有时间再来慢慢写。欢迎拍砖,不屑于拍砖的也欢迎~~~
1. 什么是特征选择? 1.1 特征选择的起源 1.2 特征选择的发展历史 1.3 特征选择的研究现状
2. 特征选择的分类及基本原理
3. SVM以及SVM-RFE的基本原理 3.1 统计学习和SVM 3.2 SVM-RFE的基本原理
4. SVM-RFE的应用实例 3.1 SVM-RFE的实现 3.2 数据的编码和预处理 3.3 参数的选择和二重交叉验证
5. 特征选择的缺陷 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-07-19
这里好像没多少人会对这个感兴趣的吧
|
|
返回顶楼 | |
发表时间:2008-07-19
shellkk 写道 这里好像没多少人会对这个感兴趣的吧
做企业软件对这个不会有兴趣,做互联网的就不一定了,出色的互联网服务几乎都离不开深度数据挖掘 |
|
返回顶楼 | |
发表时间:2008-07-19
这个,除非你能提出新的算法,常用的机器学习算法都有成熟的库了。
Java : Weka. Python: Orange. |
|
返回顶楼 | |
发表时间:2008-07-20
weka的效率实在是够低的,算法倒是柔和了一大堆,不过很多都不是最新的成果了。Orange没用过。
而且我想讨论的也不是分类、关联分析等基本算法,而是我觉得比较有意思的特征选择。比如,给出一些含有两万个特征的样本和它们的分类结果,如何知道哪些特征是最重要的?我觉得挺有意思的,所以想跟大家分享一下:) |
|
返回顶楼 | |
发表时间:2008-07-21
shellkk 写道 这里好像没多少人会对这个感兴趣的吧
不是不感兴趣,而是从lz写的东西里看不出什么来,所以我们能说什么呢 to shellkk =--------------------------------------------------------------- 不好意思,看错了,道歉 |
|
返回顶楼 | |
发表时间:2008-07-21
ahuaxuan 写道 shellkk 写道 这里好像没多少人会对这个感兴趣的吧
不是不感兴趣,而是从你写的东西里看不出什么来,所以我们能说什么呢 什么时候变成我写的东西了? |
|
返回顶楼 | |
发表时间:2008-07-21
oldbeggar 写道 weka的效率实在是够低的,算法倒是柔和了一大堆,不过很多都不是最新的成果了。Orange没用过。
而且我想讨论的也不是分类、关联分析等基本算法,而是我觉得比较有意思的特征选择。比如,给出一些含有两万个特征的样本和它们的分类结果,如何知道哪些特征是最重要的?我觉得挺有意思的,所以想跟大家分享一下:) 套用赤壁里的,阵法不在过不过时,而在运用得当;算法也不在于它本身,而在于它背后的理论和思想,无招胜有招 |
|
返回顶楼 | |
发表时间:2008-10-06
还有下文吗?应该是一篇不错的论文
|
|
返回顶楼 | |
浏览 7519 次