阅读更多

0顶
0踩

企业架构

翻译新闻 几种监督式学习算法的比较

2015-03-19 11:10 by 副主编 mengyidan1988 评论(1) 有4954人浏览
【编者按】本文的作者是计算机工程师Kevin Markham;热衷烹饪,痴迷戏剧,偶尔参加铁人三项运动;为 General Assembly 讲授为期11周的数据科学课程,在 SlideRule 指导学生学习数据科学,还是约翰·霍普金斯大学数据科学Coursera专项课程 的社区教学助理(CTA);业余时间制作 视频教程 参加 Kaggle 的比赛。日前他撰文谈及了几种监督式学习算法的比较,值得一看。

以下为正文:
我所讲授的数据科学课程涵盖了该领域大部分内容,但尤其关注机器学习(machine learning)。除了讲授模型的评估过程和度量方法以外,很明显,我们还讲算法本身,主要是监督式学习(supervised learning)算法。

在为期11周的课程接近尾声的时候,我们花了几个小时检查所用的课程资料。我们希望学生能够逐渐理解他们所学的东西。要掌握的技能之一就是在解决机器学习的问题时,有能力在不同的监督式学习算法中做出明智的选择。虽然使用“蛮力”(把每种情况都试一遍,看看哪种最好)的方法有其价值所在,但比这价值大得多的是能够在不同算法之间做出权衡利弊的选择。

我决定为学生们组织一场比赛。我给他们一张空白的表格,列出所讲的监督式学习算法,让学生从几个不同维度对这些算法进行比较。我在网上找到了这样的表格,自己先弄一张再说!下面就是,一起看看:



上图为表格部分截图,中文版下载请点击这里

贡献出这张表格,有两个原因:

  • 其一,它可以用来讲课或者学习( 下载 下来拿去用吧)。
  • 其二,这张表格需要完善,人多力量大!

这张表格是集鄙人经验与研究的产物,在任何这些算法的领域,我都称不上是专家。如果你有能够改进表格的建议,给我留言哟!

  • 是否在我的这些评估中存在误导或错误?(当然啦,有些比较维度本身就带有主观性。)
  • 是否存在应该添加到表格中的其他“重要的”对比维度?
  • 是否还有其他你希望加入到这张表格的算法?(目前,表格中只有我所讲授的算法。)
  • 我意识到每种算法的特征及相应的评价都可以基于数据的具体情况(以及数据的调优程度)发生变化。因此有人会认为试图做“客观”的比较是欠考虑的。然而,我认为作为监督式学习算法入门的一般性参考,这张表仍然有其价值所在。
  • Duang~Duang~Duang~!
    学习资源

    Choosing a Machine Learning Classifier:Edwin Chen所做的概述,短小易懂,可读性强。
    scikit-learn的“机器学习导图”:选择“正确”的估计器(estimator)。
    Machine Learning Done Wrong:深思熟虑的建议,避免在机器学习中掉进常见的坑,有些建议涉及算法的选择。
    Practical machine learning tricks from the KDD 2011 best industry paper:较上一项更高级的建议。
    An Empirical Comparison of Supervised Learning Algorithms :发表于2006年的研究论文。
    查看所有来自Data School关于机器学习的帖子
    补充说明:转发到Tweet, 请点击这里 ,还可以来Kaggle和DataTau讨论!

    原文链接:Comparing supervised learning algorithms(译者/白华 责编/钱曙光)
    • 大小: 230.9 KB
    0
    0
    评论 共 1 条 请登录后发表评论
    1 楼 wbbcz4426493 2015-03-20 18:25
                         

    发表评论

    您还没有登录,请您登录后再发表评论

    相关推荐

    • 【机器学习】几种常见的有监督学习算法

      本文是作者阅读《图解机器学习算法》([日] 秋庭伸也、杉山阿圣、寺田学)的相关读书笔记。读完的感受是:如果作为机器学习的入门书籍,行文和内容有点突兀,初学者通过几幅图也并不一定能懂多少。稍微有一点机器...

    • 几种半监督学习算法

      1、生成模型算法(Generate semi-supervised models) 思想如下:假设一个模型,其分布...半监督学习方法可以对同时含有已标记的和未标记的数据集进行聚类,然后通过聚类结果中,每一类中所含有的任何一个已标记数据...

    • 9种有监督与3种无监督机器学习算法

      9种有监督与3种无监督机器学习算法

    • 监督学习最常见的四种算法

      所有的回归算法和分类算法都属于监督学习。回归(Regression)和分类(Classification)的算法区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 以下是...

    • 主流监督式机器学习分类算法

      本文采比较了目前监督式学习中几种主流的分类算法(决策树、SVM、贝叶斯、KNN、随机森林、AdaBoost)对UCI波形数据集的分类效果。利用Python的Skilearn开源包搭建分类器,以UCI波形数据集中的前3000个样本作为训练集...

    • 半监督学习深度学习算法

      该文章主体摘自知乎糯米稻谷的文章,对一些细节添加了自己的理解 ...半监督支持向量机半监督深度学习算法1.无标签数据预训练,有标签数据微调2.利用从网络得到的深度特征来做半监督算法3.让网络 work in semi-supervi

    • 几种典型的半监督学习方法

      几种半监督方法

    • 机器学习(十三)无监督学习:聚类算法

      首先复习了无监督学习的内容以及聚类算法的应用。其次从直观上介绍了 K 均值算法,以及该算法的规范表达和具体的应用(分离不佳的簇)。在优化目标的部分提到了失真代价函数,同时也对 K 均值算法进行了补充。随机...

    • 机器学习-算法-半监督学习:半监督学习(Semi-supervised Learning)算法

      一、半监督学习算法提出的背景 1、监督学习 监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射,使其能够预测...

    • 机器学习之应用监督式学习

      监督式学习算法接受已知的输入数据集合(训练集)和已知的对数据的响应(输出),然后训练一个模型,为新输入数据的响应生成合理的预测。如果你尝试去预测现有数据的输出,则使用监督式学习。 监督学习技术有哪些...

    • 机器学习入门(九):非监督学习:5种聚类算法+2种评估模型

      聚类算法(Clustering Algorithms)常用于进行非监督学习(unsupervised learning),即它处理的是没有事先标记分类的...在了解聚类算法如何实现之前,需要先了解几种常见的距离计算公式,因为聚类算法会通过距离判断两...

    • 一文搞懂,监督式/无监督式学习,批量学习/在线学习

      根据训练期间接受的监督数量和监督类型, 可以将机器学习系统分为以下四个主要类别: 监督式学习、 无监督式学习、 半监督式学习和强化学习。 监督式学习 在监督式学习中,所有数据被打了标签或标记。 分类任务...

    • 机器学习算法分类---监督式、无监督、半监督、强化学习

      1、监督式学习(Supervised learning) 监督式学习是拥有一个输入变量(自变量)和一个输出变量(因变量),使用某种算法去学习从输入到输出之间的映射函数。目标是得到足够好的近似映射函数,当输入新的变量时可以...

    • 机器学习非监督机器学习算法有哪些

      非监督机器学习可以分为以下几类 (1)聚类:K-均值聚类、谱聚类、DBSCAN聚类、模糊聚类、GMM聚类、层次聚类等 (2)降维:PCA、t-SNE、MDS等 (3)其它:PageRank、SOM等 详细介绍可以参考图书:The Elements of ...

    • 机器学习有监督-分类算法

      本文是我整理归纳各位前辈的学习笔记,挑出了一些每个算法最应该记住的点,旨在帮助记忆,机器学习有很多算法,学习新的同时也要记忆学过的那些基本算法。

    • 机器学习:监督学习、无监督学习、半监督学习、强化学习

      机器学习是一种人工智能领域的技术,它旨在...机器学习分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)、强化学习(Reinforcement Learning)四种

    • 8.1 有监督学习算法

      有监督学习算法0. 机器学习理论基础根据酒精浓度、颜色深度判断红酒类别常用机器学习算法体系 0. 机器学习理论基础 根据酒精浓度、颜色深度判断红酒类别 常用机器学习算法体系 机器学习的方法是基于数据产生的"模型...

    • 几种常用回归算法的比较

      原理:是一种常用的监督学习方法,给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。 判定方法: (1)在分类任务中的可使用“投票法”,即...

    • 基于springboot大学生就业信息管理系统源码数据库文档.zip

      基于springboot大学生就业信息管理系统源码数据库文档.zip

    Global site tag (gtag.js) - Google Analytics