`

SVM笔记--要点

阅读更多
0、心得




本文是从LIBSVM的guide中抽出来的要点:http://www.csie.ntu.edu.tw/~cjlin/libsvm/
1、简介

2、数据预处理
  • ①特征较少时用one-hot code表示,也即有加入分RGB三种颜色,不要R用1,G用2,B用3表示,而是应该用三维向量 (1,0,0), (0,1,0), (0,0,1)表示这三种颜色。
  • ②特征的scaling问题:建议将特征缩放到区间[-1,1]或[0, 1] (线性地缩放)


3、核函数的选择
  • 一般径向基函数(RBF)比较好;
  • 特征维度很高时最好采用Linear kernal


4、参数选择--交叉验证和grid搜索

目标:在测试数据上取得高的正确率(而非在训练数据上!)
k-fold 交叉验证(cross validation):将训练集分为k份,1份做验证,其他k-1份做训练。如此,可以训练k、验证k次,求取平均正确率作为衡量标准。 这样可以有效防止过拟合。

对于参数C和径向基函数的参数γ,可以采用由粗到精的搜索策略。
如先在C=2^-3, 2^-2,..., 2^10;   γ=2^-7, ... 2^-3的网格上搜索最优值,
再在其附近的网格内细分网格进行搜索。  (可以并行~~~)

对于大数据集,一个策略是先随机选一部分在粗网格上选取最优参数,再在细化最优参数时对整个训练集进行参数的网格搜索。

选取到最优参数后,再用这组参数重新利用整个训练集进行训练。


5、适于使用linear核函数而非径向基函数的情况
  • 样本数<<特征维数,
  • 样本数和特征维数都很大,适于使用LIBLINEAR工具箱(比LIBSVM快很多)。
  • 样本数>>特征维数,适于使用LIBLINEAR工具箱。

LIBLinear工具箱:http://www.csie.ntu.edu.tw/~cjlin/index.html
分享到:
评论

相关推荐

    机器学习课程笔记【KCBJ-JQXX-WED-003】

    笔记中讨论了SVM的核心概念,包括优化目标、核函数,以及如何使用SVM进行分类。 聚类(Clustering)是一种无监督学习方法,旨在将数据集划分为多个类别。笔记中介绍了K均值聚类算法,并讨论了其应用场景。 降维...

    Coursera机器学习笔记

    ### 监督学习与无监督学习 #### 一、监督学习 ...以上是对吴恩达教授的Coursera机器学习课程笔记的主要知识点概览,这些内容涵盖了从基础概念到高级技术的广泛领域,为初学者提供了全面的学习路径。

    [笔记]机器学习&深度学习要点小梳理.pdf

    机器学习与深度学习是当前人工智能领域中的两个核心学科,它们涉及到众多的算法...希望本笔记能够为读者提供一个系统的复习资料,帮助读者更好地把握机器学习与深度学习的核心知识,为未来的学习和工作打下坚实的基础。

    【MIT Machine Learning】 MIT机器学习课程PPT 01

    本课程将介绍线性分类器的基本原理,包括支持向量机(SVM)、逻辑回归等经典模型,并探讨如何通过梯度下降等优化算法求解最优解。此外,还将讨论如何评估模型性能,比如使用准确率、召回率等指标。 ### 五、课程学习...

    个人机器学习学习整理的考研冲刺经验总结,分享给有需要的人,仅供参考

    监督学习涉及线性回归、逻辑回归、支持向量机(SVM)、决策树与随机森林、k-近邻(k-NN)、朴素贝叶斯等,而无监督学习则包括聚类算法如K-means、层次聚类和降维技术如PCA、t-SNE等。深度学习部分需要理解神经网络基础、...

Global site tag (gtag.js) - Google Analytics