阅读更多
【编者按】拓扑数据分析(TDA)和机器学习(ML)的区别与联系让不熟悉TDA的人扑朔迷离,本文通过两个定义,解释了TDA和ML的不同,以及TDA和ML如何相互促进,为何会相互促进,并通过一个设备故障分析的案例(5000个样本,复杂度适中,48个连续特征)来进行证明。

对拓扑数据分析(TDA)不熟悉的人,经常会问及一些类似的问题:“机器学习和TDA两者之间的区别?”,这种问题的确难以回答,部分原因在于你眼中的机器学习(ML)是什么。

下面是维基百科关于机器学习的说明:
引用

机器学习研究算法学习和构造,能从数据中进行学习并做出预测。这种算法通过从输入实例中建立模型,目的是根据数据做出预测或决策,而不是严格地遵循静态程序指令。

大多数人可能会认为TDA是机器学习的一种形式,但我觉得,在这些领域工作的人可能都不会赞成这一说法。

机器学习的具体实例比任何一个TDA的例子更像机器学习。同样,TDA的实例比任何一个机器学习的例子看起来更像是TDA。

为了解释TDA和ML两者的不同,更重要的是证明TDA和ML是如何相互促进以及为何会相互促进,我将给出两个非常简单的定义,然后用一个真实的实例进行说明。
  • 定义ML:假定一个数据参数模型,并根据数据来学习模型参数的任意方法。
  • 定义TDA:只把数据点间的“相似性”概念用来构建数据模型的任意方法。

在这种观点中,ML模型更加具体和详细,而且模型的成功取决于它对未知数据的拟合程度。它的优势是,当数据能很好的拟合模型时,其结果尤为突出——几乎能够完美的理解那些有明显噪声的数据。

TDA的优点是它的通用性。

对于TDA,任何相似性概念都可以拿来使用。相反,对于ML,你需要一个(或更多)强化的相似性概念,与其它任何方法一起发挥作用。

例如,给你一长串的名字,你是无法根据它来预测出身高和体重。你需要更多的信息。

主要因素是拓扑算法对小误差的容忍度很大——即便你的相似性概念在某种程度上存在缺陷,只要它存在“几分相似”,TDA算法一般就会产生一些有用的东西。

TDA方法的通用性还有另一个优于ML技术的地方,当ML方法拟合效果很好的时候,TDA方法仍然有效——即ML方法经常创建详细的能生成相似性概念的内部状态,使TDA和ML能够更深层次的洞悉数据。

听起来还不错,但是这通常会走向极端(或者如果你觉得小误差的容忍度偏低,或是模糊度不够),这意味着一切都有可能发生。

那么,来举个特例吧。

随机森林分类器是一个组合学习方法,在训练过程中,建立大量的决策树并在这些“森林”(决策树集合)的基础上使用“多数规则”对非训练数据进行分类。

尽管建立树的过程相当有趣并且也很灵活,但它们没有相关的细节。对于随机森林,你只要记住,它通过把一系列决策树的集合应用到已知数据点上,然后返回一系列的“叶节点”(决策树中,到输入"下落"的叶子)。

在正常的操作下,每棵树的每个叶子节点都有一个相关的类别C,可以解释为“当一个数据点位于树的该节点时,在很大程度上它就属于该类别C”。随机森林分类器通过从每棵树上统计“叶节点类别投票总数”来选出胜出者。尽管在大规模的数据类型上高度有效,但该过程会丢掉大量的信息。

如果你关心的是对数据类别的最佳猜测,那么你不会想看到额外的信息,但有时候你会需要更多的信息。这种“无关的”信息可以转换成一个距离函数,通过把两个数据点之间的距离定义为它们各自“叶节点”之间差异的倍数。

两个数据点的距离函数是一个很好的度量(事实上,是在转换后的数据集上的汉明距离),而且这样我们可以把TDA应用到上面。

例如,让我们来看看从下面链接的样本中随机选取的5000个样本点:https://archive.ics.uci.edu/ml/datasets/Dataset+for+Sensorless+Drive+Diagnosis.

该数据集复杂度适中,有48个连续特征,这些特征似乎是硬盘驱动中无法解释的电流信号。数据还包括一个类别列,它有11个可能的取值,描述的是光盘驱动组件不同的状况(故障模式,也许吧?)。很明显可以在特征列上计算欧几里得距离,然后通过类来给图形着色。由于我们对于特征项一无所知,所以首先要尝试的事情就是查看邻近晶状体情况。其结果是一个普通的斑点。



这让人有些失望!

接着,使用一些内部的调试功能,我看到邻近晶状体的一个散点图,我知道为什么如此糟糕了——它看起来像是一颗圣诞树。



很显然,在欧氏度量中没有类的定位。

然而,如果你在数据集上建立一个随机森林,分类器会有一个非常小的out-of-bag误差,这强烈的表明了分类器性能的可靠性。

因此,我尝试使用随机森林的汉明距离来作图,这种度量下的邻近晶状体如下图所示:



这看起来很不错。只要确定我们也看到了邻近晶状体的散点图就行,上图的结果表明:



很明显,从线图和散点图可以看出,随机森林“看”复杂结构的能力要低于分类的标准水平,并被TDA给证实了。原因就是RF没有充分使用“不相关的”数据——而TDA充分的利用了这些数据并且从这些信息中得到了大量的好处

然而,一些人可能会说,这种结构是虚构的——这也许是我们在系统的某处使用算法人工生成的?在这种数据集下,我们不能真正识别它,因为对于该类别的其它信息我们一无所知。

不过,基于设备老化时收集的数据,我们在消费者数据上使用随机森林来度量分析成千上万的复杂设备可能的故障模式。类别是基于设备因为不同的原因(并不是所有的原因都是由故障导致的)而返厂的事后分析完成的。

在这个例子中,我们发现随机森林度量标准在故障识别层面做的很好,并且我们得到的图片特征和上面这些也相似。更重要的是,我们发现在给定的故障模式中的特定组,有时有不同的原因。

在这些情况下得出的结论是:我们在使用TDA和RF时没有做进一步的空间分解,这些原因可能会更难发现。

我们刚才看到的例子表明,TDA与机器学习可以一起使用,并且得到的效果比使用单个技术更好。

这就是我们所说的ML&TDA:同时使用更好

原文链接:How TDA and Machine Learning Enhance Each Other(译者/刘帝伟 审校/刘翔宇、朱正贵、李子健 责编/仲浩)
  • 大小: 44 KB
  • 大小: 44.4 KB
  • 大小: 18.4 KB
  • 大小: 15.4 KB
0
0
评论 共 2 条 请登录后发表评论
2 楼 qzy927513 2015-10-12 10:48
qzy927513 写道

1 楼 qzy927513 2015-10-12 10:47

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 何恺明:从高考状元到CV领域年轻翘楚,靠“去雾算法”成为“CVPR最佳论文”首位华人得主…

    根据科学研究,人类大脑皮层的70%活动都在处理视觉信息。如果人工智能赋予机器能够像人类一样思考、处理事情的能力,计算机视觉将承担巨大作用。作为一门研究如何使机器“看”的科学,计算机视觉已成为人工智能的重要分支,等同于人工智能的大门。 提到计算机视觉研究,就不得不提起近年来一个冉冉升起的“学术新星”——何恺明。从高考满分状元到“CVPR最佳论文奖”第一位华人得主,再到“深度残差网络”在ImageNet比赛中击败谷歌等公司夺得第一……“80后”的他早已众多光环加身。在学界,他被视为天才少年,也被称为“大神”,不断地为学界提供着诸多有分量的研究成果。 何恺明 从小就成为“别人家的孩子” 用“年少

  • 人工智能大神何凯明往事与风华岁月

    机器视觉牛人何凯明的小传

  • 回归学术圈,何恺明MIT第一堂AI课

    这篇论文是2019年、2020年和2021年Google Scholar Metrics中被引用次数最多的论文,同时也构建了现代深度学习模型的基本组成部分(例如在Transformers、AlphaGo Zero和AlphaFold等领域的应用)。2016年,何恺明凭借ResNet再次荣获CVPR的最佳论文奖,此外,他的另一篇论文入围了CVPR2021的最佳论文候选。大家好,3月7日,麻省理工学院电气工程与计算机科学系副教授·何恺明,迈上讲台,并成功地进行了他人生中的首堂教学课程。而助教的人数高达17人!

  • 何恺明目前的学术成果是否够得上计算机视觉领域历史第一人?

    链接:https://www.zhihu.com/question/424149824编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:远处群山https://www.zhihu.com/question/424149824/answer/1508320686计算机视觉的历史第一人既不是何恺明,也不是Thomas Huang,而是David Marr,计算机视觉的最高奖就叫Marr奖。评价一...

  • 何恺明新工作!加入MIT的首篇论文!打破自回归图像生成瓶颈,奥赛金牌得主参与!...

    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信:CVer5555,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研,强烈推荐!转载自:夕小瑶科技说 作者:21#近日,深度学习领域的杰出研究者何恺明及其团队又放了个大招,...

  • 何恺明在招实习生和博士后!

    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【CV算法和求职】交流群扫描下方二维码,加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!何恺明(Kaiming He)在个人主页上官宣招收研究实习生和博士后,将于2024年春天/夏天入职!感兴趣(且足够自信的)的同学可以去试试哈~主页:ht...

  • 论文总引用量破50万,​何恺明大神最新论文:剑指AI生成领域!

    何恺明(Kaiming He)谷歌学术被引用量已突破50万!目前是 Computer Vision 领域被引用量最高的人!计算机视觉领域引用量排名:而在(谷歌学术上)最大的AI领域Machine Learning,何恺明引用量排名第三!仅次于Geoffrey Hinton、Yoshua Bengio两位巨佬!PS:这两位老爷子的引用量均突破70万,太恐怖了!何恺明自2024年加入麻省理工学院(MI...

  • 这是一份数据量达41.7万开源表格数据集

    点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后1天,请扫码咨询 ↑↑↑本文转载自微软研究院AI头条(ID:MSRAsia)近年来,自然语言处理...

  • CV大神何恺明正在招收博士后和实习生!

    夕小瑶科技说 原创作者:谢年年想必大家都知道,CV大神何恺明将在24年加入MIT EECS(电子工程和计算机科学系),而就在近日,何恺明在个人主页上官宣招收研究实习生和博士后,打算为团队注入新的血液。个人主页链接:https://kaiminghe.github.io/未来三年研究重点:视觉自监督学习检索何恺明近两年发表的论文可以看到,多为表示学习、自监督学习、自编码器等方向。何恺明也在个人主页...

  • 探索数据宝藏:TableBank - 智能表格识别新里程碑

    探索数据宝藏:TableBank - 智能表格识别新里程碑 TableBankTableBank: A Benchmark Dataset for Table Detection and Recognition项目地址:https://gitcode.com/gh_mirrors/ta/TableBank 在数字化时代,表格是信息传递的重要载体,但自动化处理这些表格的挑战依然存在。为此,我们引入...

  • 何恺明一作MAE收录CVPR 2022 Oral!高达87.8%准确率!自监督领域新代表作

    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达作者:happy |转载自:极市平台导读何恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders。所提MAE极为简单:对输入图像进行块随机mask并对遗失像素进行重建。该方案使得所得高精度模型具有很好的泛化性能:仅需ImageNet-1K,ViT-Huge取得了8...

  • 何恺明霸榜!近10年里的具有影响力的一作(年轻)AI学者大盘点!谷歌机构排名第一!...

    点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达作者 |维克多编辑 | 岑峰转载自:AI科技评论过去十年,哪些学者为人工智能(AI)领域作出了突出贡献?今日,清华...

  • 何恺明新作品:VITDet

    论文复现:VITDet:目标检测的视觉Transformer主干网络

  • 基于40万表格数据集TableBank,用MaskRCNN做表格检测

    向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayxTableBank:高质量的标注表格数据集虽然人类在视觉上可以很容易地判断出一个表格...

  • 【今日CV 计算机视觉论文速览】 6 Mar 2019

    今日CS.CV计算机视觉论文速览 Wed, 6 Mar 2019 Totally 34 papers Daily Computer Vision Papers [1] Title: TableBank: Table Benchmark for Image-based Table Detection and Recognition Authors:Minghao Li, Lei Cui, ...

  • Banknote Dataset(钞票数据集)介绍

    Banknote Dataset(钞票数据集)介绍

  • 微软亚洲研究院4人团队完成视觉识别里程碑式突破

    一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期,微软亚洲研究院实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet1000挑战中首次超越了人类进行对象识别分类的能力。 该研究团队是微软亚洲研究院视觉计算组,他们开发了一个计算机视觉系统,该

  • 人工智能数据集(资源篇)(更新于2020.11.27)

    记录机器学习、计算机视觉、自然语言处理、无人驾驶、医疗、金融、政府领域开源的数据集

  • stanfordSentimentTreebank数据集下载

    链接:https://pan.baidu.com/s/19_CqrQDLcIIlf3e2jeyXaA 提取码:ivcb

  • 个人整理的数据集(手写中文数据、发票数据、快递单数据、车牌数据)

    本人在工作生活中收集了各个方面比较多的真实的数据集如下: 一、手写中文数据集 1、档案类数据: 此数据集为手写档案数据,数量较大,大约128G,图像均未标注。 ex: 2、手写作文数据: 此数据集为手写作文数据,是大约800M左右,图像按行提供位置和内容标注,十分珍贵。 ex: 二、发票数据集: 1、增值税发票 此数据集包含了大量真实的增值税发票数据,大约9G,标注了发票位置数据,未提供详细标注。 ex: 2、购车发票 此数据集未提供标注。

Global site tag (gtag.js) - Google Analytics