`

[转载]简单的美才是真的美——浅议结构风险最小化和经验风险最小化

SRM 
阅读更多

 

以下为转载,出处:http://blog.sina.com.cn/s/blog_4c7c2dad010007qi.html 作者:天道酬勤

什么是统计学习?看起来高深莫测,其实就是在这干这么一件事情:就是给你看一堆东西,你想办法给一个解释,然后拿着这个解释去判断其它的东西。不过,和物理学不一样,在那里,解释是人想出来的,在统计学习里,解释是机器构造出来的。

    在许多问题里面,对象是非常复杂的,要用成百上千,甚至更多的数字去表示一个东西。当统计学家们遇到了这些问题,他们终于从对在一维和二维空间建立起来的基于概率密度的完美的数学体系的沉迷中惊醒了——经典的统计体系在“维数灾难”的洪水猛兽面前竟然不堪一击。统计学的定理告诉我们,当样本足够多的时候,估计可以足够准确,可是对于高维空间,无情的现实用两个理由断然拒绝了统计学家们的渴求——不可能有那么多的样本,也不可能在这么多的样本上面进行计算。

    有限的样本意味着什么呢?很多本来能很好地建模的问题变成不适定的了(ill-posed)。通俗地说,就是给你的这么些样本,你可以用这个模型解释,也可以用那个模型解释,大家都解释得非常完美。那么究竟哪个是真的解释呢?令人沮丧的是,无论是这些样本还是那些美妙的统计学理论都无法给出答案——我们只能被告知,这些模型是不可被识别出谁对谁错的(unidentifiable)——在哲学上,有个深奥的名词,叫做不可证伪性。

    噢,既然都很完美,那么我们都接受好了。可是,别忘了,我们的目标不是守着这些解释度过余生,而是用它们帮我们干后面的事情——要是一个东西干不好事情的,就算再完美,还是呆在一边凉快去吧。想象一个也许很多大学生,乃至中学生都会的例子——曲线拟合。我们看到100个点,在一个抛物线附近震荡。我们首先拿一根直线去拟,怎么都不好;于是我们用二次曲线,嗯,看起来不错,好多了。于是我们开始兴奋起来——看起来,增加曲线的次数是个好主意。次数在一点点的加,到了100的时候,大家欢呼起来——太完美了,没有一点误差!于是大家拿着这个100次曲线模型信心十足地去套别的点,傻眼了,错的一塌糊涂!那个差强人意的二次曲线反而在这里工作的不错。

    这个深刻的教训告诉我们:一个在已有数据中很完美的模型,在新的数据面前不一定最好的。Perfect很可能只是由于over-fitting产生的illusion。后来统计学家研究了这个问题,告诫我们除了有追求perfect的热情,还要锻造一把Occam的剃刀:除了让模型在已知的例子中很好的工作,还要把模型“剃”得简单一点——简单的美才是真的美。

     在这个原理的基础上,统计数学家Vapnik通过严密的数学推理建立了结构风险最小化(Structure Risk Minimization)的理论,把模型复杂性融入到优化目标当中,以取代单纯追求在已知数据上的令人陶醉的完美的经验风险最小化(Empirical Risk Minimization),并且提出了现在风靡全球的支持向量机 (Support Vector Machines)。

    其实,统计学家在这个事情上是落后了,从古希腊的哲学家和数学家,到近代的物理学家,所孜孜以求的不就是对这个世界的一个简单而完美的解释吗?对于许多伟大的科学家来说,支持其科学探索的并不是建立一套复杂得令人望而生畏的体系来描述我们的世界,相反,他们穷毕生精力所探索的正是存在于宇宙中的简单和和谐。回到刚才那个两个模型的抉择问题,简单性的信念支持着我们做这样的决定:选简单的那个。

    反思我们过去的处事方式,确实感到惭愧:在干很多事情的时候,总是试图通过建立复杂的东西来获得成就感,并且向别人炫耀自己的多才多艺的实力——文章越长越好,程序越复杂越好,公式越深奥越好。可是,回想起来,这些当时在班级和同伴里轰动一时的东西——上百页的实验报告,上万行的程序,以及长篇小说一样的文章,最后给自己留下了什么。很多时候我们在创造复杂的东西,往往代表着我们还缺乏足够的能力去找出深藏于complexity和diversity背后的core simplicity——这才是在历史长河中亘古不衰的。

    现代的社会是复杂的和多姿多彩的,但这是“简单”在变化中孕育的,在这个复杂的世界中游刃有余的最好方法就是把握根本的简单性。这就是简单和复杂的矛盾。

    宇宙很美——因为它很简单。

分享到:
评论

相关推荐

    【少儿综合素质训练】自编简单可爱动物故事【五篇】.doc

    这个故事强调了外貌并不是衡量一个人价值的标准,心灵美才是真的美,同时倡导感恩和自我反省。 故事四是断尾狐狸的故事。狐狸试图说服其他狐狸放弃尾巴,结果遭到了讽刺。这个故事告诫孩子们不要试图改变自己的本质...

    【必备】消防安全作文(20篇).docx

    再者,文章中的“自然美才是真的美”这一观点,强调了尊重事物的本质和自然规律的重要性。在IT领域,追求简洁和自然的设计原则也是至关重要的,如编写清晰易读的代码、遵循设计模式等,这些都能使软件系统更健康、更...

    《白雪公主》读书笔记心得感受.docx

    1. 心灵美才是真的美 故事中的白雪公主以其纯真和善良赢得了人们的喜爱,即使她的继母皇后有着美丽的外貌,但内心的邪恶让她变得丑陋。这强调了心灵美远胜于外在美,善良和宽容才是衡量一个人价值的重要标准。 2. ...

    《白雪公主》读书笔记心得感受_2.docx

    1. **心灵美才是真的美**:白雪公主以其纯洁的心灵和美丽的外貌赢得了人们的喜爱。故事强调了内在美的重要性,表明一个人的品质和善良的心灵远比外在的容貌更重要。 2. **嫉妒的危害**:继母皇后因为嫉妒白雪公主的...

    《白雪公主》读书笔记心得感受_1.docx

    1. 心灵美才是真的美:白雪公主的美丽不仅在于外表,更在于她纯洁善良的心灵。她的继母虽然外表美丽,但内心充满嫉妒和恶意,这使得她的美丽变得空洞无物。故事教导我们,人们应该注重内心的修养和善良,而不是过分...

    __高二语文上学期第三次月考试题含解析 试题.doc

    【标题】和【描述】提到的是高二语文上学期第三次月考试题,主要涉及的是中学语文的考试内容,包括选择题和非选择题部分,强调了答题规则和注意事项。 【部分内容】展示了试题的部分文本,包括《孝经》的引用,以及...

    Asp前台后台数据库

    5. **错误处理**:使用Try-Catch-Finally结构捕获并处理可能出现的异常,确保程序的健壮性。 6. **安全性**:为防止SQL注入攻击,应使用参数化查询或存储过程,避免直接拼接SQL语句。此外,对敏感信息(如密码)进行...

Global site tag (gtag.js) - Google Analytics