【写在前面】
这两天因为工程需要,用到svm,好奇之下,也自学一下,顺便记些笔记。
理论部分,主要参考的是网友Jasper的网文《svm入门》系列,原帖子见http://www.blogjava.net/zhenandaci/MyPosts.html。
既然人家都写了,为啥我还要写?不是写给别人看得,是写给自己的。主要是理清自己的思路,毕竟svm的理论这么深厚,稍不留神,就不知道“走”到哪儿了,就不知道为什么“到这儿了”,我主要是记录自己思路的足迹;另外,也就是备忘,《svm入门》毕竟是按人家的思路写的,有些我知道的,看起来觉得啰嗦,而我不太了解的,似乎又写得比较少。总之,开动了,至于能走到哪儿,我就不知道了。
【svm基础理论学习思路】
主要是理清主体思路。
问题:分类问题,即基于一些特征把某些样本分到若干个类别之中。这是模式识别、机器学习的经典问题。
分类问题可以分为两类:1. 线性可分问题;2. 线性不可分问题。
1. 线性可分问题
线性可分问题 --> 结构风险最小化 --> 最小误分次数 --> 最大几何间隔分类面 --> 最小化平面法向量|w| --> 带条件约束的凸二次规划 --> 加入拉格朗日乘子转成对偶问题 --> 解析解 or 数值解
2. 线性不可分问题
线性不可分问题 --> 线性可分问题
(1)向高维空间映射,使得大部分样本线性可分,核函数
(2)松弛变量,对于某些少数不可分的样本点,一定程度上忽略(程度大小,取决于惩罚因子C)
以上1和2是svm的核心理论部分。当然,还有一些外围部分的知识,主要是面临一些实际问题,如:1. 如何处理多类问题;2. 时空复杂度等。
【结构风险】
说结构风险之前,必须要说经验风险。
经验风险,是用样本定义的风险;对于分类问题,就是错误率;对于回归问题,就是平方训练误差;对于概率密度估计,经验风险等同于极大似然估计。
期望风险,是指真实风险,是我们能够永远逼近,但是无法达到的度量,代表模型的真实性能。
结构风险,是在经验风险的基础上,考虑到模型复杂度因素,对期望风险的一个逼近,逼近公式如下:
R(f) <= Remp(f) + Theta (h/n)
这里面不方便输入公式,我就用文字代替了。上面公式中的字母,R表示Risk,风险;Remp表示经验风险,Risk-empirical;Theta就是那个希腊字母;n表示训练样本数目;h表示模型复杂度,有个特定的名称,叫做“VC维”。可以看到,后面的那一项,与训练样本数目成反比(样本数目越多,模型越精确,风险越小),与模型的复杂度成正比(模型越复杂,泛化能力越小,对未知样本的风险就越大)。
“VC维”的物理意义:
如果有h个训练样本,这些样本被分为两类,这两类的划分方法有2^h种(很简单,对于每个样本,都可以有两种选择,到第一类或者到第二类,那h个样本,就是那么多选择)。如果对于任意一种分法,训练出的模型都能够正确的将h个训练样本分类,则就说这个模型能将h个训练样本“打散”,“VC维”就是模型能够打散的样本的最大个数。
以上只是直观的介绍“VC维”的物理意义。平时,只要记住他表示的是模型的复杂度就行了。
分享到:
相关推荐
其次,"新建 文本文档.txt"可能包含的是SVM的学习笔记、示例代码或者算法解释。文本文件通常用于记录学习过程中的关键点,可能包括SVM的基本概念,如最大间隔、核函数、拉格朗日乘子等,也可能包含如何使用SVM解决...
OpenCV(开源计算机视觉...在"opencv学习笔记"中,你将找到关于这些主题的详细讲解,包括理论知识、实例代码和实践技巧,帮助你逐步掌握OpenCV并运用到实际项目中。无论是初学者还是有经验的开发者,都能从中受益匪浅。
通过深入理解SVM的理论基础,熟练掌握核函数的选择和参数调整,我们可以灵活地应用SVM解决实际问题,提高预测和分类的准确性和效率。这份笔记旨在提供一个全面而详细的SVM算法流程指南,帮助读者更好地理解和运用这...
本笔记将深入探讨机器学习的基础理论、算法和应用。首先,我们需要理解机器学习的基本类型:监督学习、无监督学习和半监督学习。在监督学习中,我们有标记的训练数据,模型通过学习这些数据的关系来预测未知数据。无...
《吴恩达机器学习笔记》是一份详尽的教程,主要涵盖了机器学习的基础概念、算法原理及其应用。作为全球知名的计算机科学家和人工智能专家,吴恩达的机器学习课程深受全球学习者的欢迎。这份笔记旨在帮助读者理解并...
这份压缩包文件“斯坦福大学机器学习课程个人笔记完整版 (1).zip”包含了学习斯坦福大学机器学习课程的一份详尽的个人笔记。这份笔记是作者在深入研究该课程后整理而成,旨在帮助读者全面理解和掌握机器学习的核心...
### SVM基础 1. **间隔与最大间隔**:SVM的核心思想是构建一个具有最大边距的决策边界,这个边界被称为最大间隔超平面。间隔是指从最近的训练样本到超平面的距离,最大化间隔有助于提高模型的泛化能力。 2. **线性...
在提供的文档“SVM资料下载汇编.doc”中,可能包含了关于SVM的基础理论、实战案例、代码示例以及相关的学习资源链接。而“huangbo929.blog.edu.cn.txt”可能是某个博客或教育资源的链接,可能提供了作者的学习笔记、...
通过学习这门课程的笔记,你可以掌握SVM的理论基础,了解如何选择和调整核函数,以及如何利用SVM进行实际的预测任务。无论是对机器学习初学者还是经验丰富的从业者,深入理解和支持向量机都能为解决复杂问题提供强大...
《机器学习笔记》是...这些笔记全面覆盖了机器学习的基础理论和应用,从基本的回归分析到复杂的SVM、聚类和概率模型,对理解并实践机器学习有着极大的帮助。无论是初学者还是有一定经验的学习者,都能从中受益匪浅。
这本书全面介绍了模式识别和机器学习的基础理论、算法以及实践应用,对于学习和研究人工智能领域的专业人士来说,是不可或缺的参考资料。本资源包含中文版和英文版电子档,以及学习笔记和习题解答,对于自学者或教师...
《麻省理工机器学习笔记》是一份专为初学者设计的教程,涵盖了机器学习领域的基础知识以及一系列重要算法,包括感知机和支持向量机等。这篇笔记深入浅出地讲解了机器学习的核心概念,旨在帮助读者建立起坚实的理论...
在这个部分,我们将会关注机器学习的基础理论、模型和算法。 首先,我们要理解机器学习的分类。根据是否需要人类标注数据,机器学习可以分为监督学习、无监督学习和半监督学习。监督学习是最常见的形式,包括回归和...
首先,我们来看《机器学习学习笔记》系列,这些PDF可能涵盖了从基础理论到实践应用的广泛内容。机器学习是人工智能的一个分支,其目标是让计算机通过数据学习和改进,而无需显式编程。B0017机器学习学习笔记.pdf和B...
【机器学习笔记作者黄海广】是一份详细记录了斯坦福大学2014年机器学习课程精华内容的学习笔记,由作者黄海广精心整理而成。这份笔记旨在帮助读者深入理解机器学习的基本概念、理论与实践,是学习者掌握机器学习知识...
《个人机器学习笔记》 ...总结,这份个人机器学习笔记全面覆盖了从基础理论到实际应用的知识点,对于初学者和进阶者来说都是宝贵的学习资源。通过深入理解和实践,我们可以更好地驾驭这个充满无限可能的领域。
学习支持向量机(SVM)可以通过以下步骤进行: 基础知识: 学习基础的线性代数、概率论和统计学知识。 熟悉机器学习的基本概念,如监督学习、分类、回归等。 理论学习: 阅读关于SVM的理论介绍,理解其基本原理,如...
《机器学习训练营》的学习笔记涵盖了...通过《机器学习训练营》的学习笔记,读者可以系统地学习机器学习,从基础到进阶,从理论到实践,逐步提升自己的机器学习能力,为今后的数据分析和智能系统开发打下坚实的基础。