阅读更多

0顶
0踩

操作系统

转载新闻 如何研究学习一个机器学习算法

2014-12-09 09:55 by 正式编辑 cao345657340 评论(0) 有4064人浏览
机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。

机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。

在这篇文章中,你将会知道怎么研究学习一个机器学习算法。你将会学到5个简单步骤,你可以用来设计和完成你的第一个机器学习算法实验

你会发现机器学习实验不光是学者们的专利,你也可以;你也会知道实验是通往精通的必经之路,因为你可以从经验中学到因果关系的知识, 这是其它地方学不到的。

什么是研究机器学习算法

当研究一个机器学习算法的时候,你的目标是找到可得到好结果的机器算法行为,这些结果是可以推广到多个问题或者多个类型的问题上。

你通过对算法状态做系统研究来研究学习机器学习算法。这项工作通过设计和运行可控实验来完成

一旦你完成了一项实验,你可以对结论作出解释和提交。这些结论会让你得以管窥在算法变化中因果关系。这就是算法行为和你获得的结论间的关系。

怎样研究学习机器学习算法

在这一部分,我们将学到5个简单的步骤,你可以通过它来研究学习一个机器算法

1.选择一个算法

选择一个你有疑问的算法

这个算法可能是你正在某个问题上应用的,或者你发现在其他环境中表现很好,将来你想使用

就实验的意图来说,使用现成的算法是有帮助的。这会给你一个底线:存在bug几率最低

自己实现一个算法可能是了解算法过程的一个好的方式,但是,实验期间,会引入额外的变量,比如bug,和大量必须为算法所做的微观决策

2.确定一个问题

你必须有一个你试图寻找答案的研究问题。问题越明确,问题越有用

给出的示例问题包括以下几个方面:

KNN算法中,作为样本空间中的一部分的K值在增大时有什么影响?

在SVM算法中,选择不同的核函数在二分类问题上有什么影响 ?

在二分类问题中,逻辑回归上的不同参数的缩放有什么影响 ?

在随机森林模型中,在训练集上增加任意属性对在分类准确性上有什么影响?

针对算法,设计你想回答的问题。仔细考虑,然后列出5个逐渐演变的问题,并且深入推敲那个最精确的

3.设计实验

从你的问题中挑选出关键元素然后组成你的实验内容。 例如,拿上面的示例问题为例:“二元分类问题中逻辑回归上的不同的参数缩放有什么影响?”

你从这个问题中挑出来用来设计实验的元素是:

属性缩放法:你可以采用像正态化、标准化,将某一属性提升至乘方、取对数等方法

逻辑回归:你想使用哪种已经实现的逻辑回归。

二元分类问题:存在数值属性不同的二分类问题标准。需要准备多种问题,其中一些问题的规模是相同的(像电离层),然而其他一些问题的属性有不同的缩放值(像糖尿病问题)。

性能: 类似分类准确性的模型性能分数是需要的

花时间仔细挑选你问题中的组成元素以便为你的问题给出最佳解答。

4. 进行试验并且报告你的结论

完成你的实验

如果算法是随机的,你需要多次重复实验操作并且记录一个平均数和标准偏差

如果你试图寻找在不同实验(比如带有不同的参数)之间结果的差异,你可能想要使用一种统计工具来标明差异是否统计上显著的(就像学生的t检验)

一些工具像R和scikit-learn/SciPy完成这些类型的实验,但是你需要把它们组合在一起,并且为实验写脚本。其他工具像Weka带有图形用户界面,你所使用的工具不要影响问题和你实验设计的严密

总结你的实验结论。你可能想使用图表。单独呈现结果是不够的,他们只是数字。你必须将数字和问题联系起来,并且通过你的实验设计提取出它们的意义

对实验问题来说,实验结果又暗示着什么呢?

保持怀疑的态度。你的结论上有留什么样的漏洞和局限呢。不要逃避这一部分。知道局限性和知道实验结果一样重要

5. 重复

重复操作

继续研究你选择的算法。你甚至想要重复带有不同参数或者不同的测试数据集的同一个实验。你可能想要处理你试验中的局限性

不要只停留在一个算法上,开始建立知识体系和对算法的直觉

通过使用一些简单工具,提出好的问题,保持严谨和怀疑的态度,你对机器算法行为的理解很快就会到达世界级的水平

研究学习算法不仅仅是学者才能做的

你也可以学习研究机器学习算法。

你不需要一个很高的学位,你不需要用研究的方式训练,你也不需要成为一名学者

对每个拥有计算机和浓厚兴趣的人来说,机器学习算法的系统研究学习是开放的。事实上,如果你主修机器学习,你一定会适应机器学习算法的系统研究。知识根本不会自己出来,你需要靠自己的经验去得到

当谈论你的发现的适用性时,你需要保持怀疑和谨慎

你不一定提出独一无二的问题。通过研究一般的问题,你也将会收获很多,例如根据一些一般的标准数据集总结出一个参数的普遍影响。你保不住会发现某些具有最优方法的常例的局限性甚至反例。

行动步骤

在本篇文章中,通过可控实验你知道了研究学习机器学习算法行为的重要性。你掌握了简单的5个步骤,你可以在一个机器学习算法上设计和运行你的第一项实验

采取行动。使用你在这篇博文中学到的步骤,来完成你的第一个机器学习实验。一旦你完成了一个,甚至是很小的一个,你将会获得自信,工具、能力来完成第二个以及更多
来自: 伯乐在线
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 机器学习介绍+算法

    机器学习算法就是企图从大量历史数据中挖掘出其中隐含的规律,并用于回归(预测)或者分类。从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法;但从实践的意义上来说,...

  • 【机器学习算法】线性回归算法

    文章目录线性回归回归问题回归和分类预测未来机器学习实现预测的流程线性方程权值调整最简单的回归问题——线性回归问题利用线性回归进行预测的极速入门线性回归的算法原理拟合线性回归算法的数学解析1. 假设函数的...

  • 机器学习算法——线性回归(超级详细且通俗)

    这是一个来自统计学的概念。回归分析是指一种预测性的建模技术,主要是研究自变量和因变量的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。 例如,存在以下数据 然后我们拟合一条...

  • 【建议收藏】图解十大经典机器学习算法——带你入门机器学习

    机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的...

  • 基于机器学习的推荐算法研究与实现

    推荐系统是一种利用计算机技术、机器学习算法等技术为用户提供个性化推荐服务的系统。其目的是通过对用户行为和偏好的分析,推荐用户可能感兴趣的商品、服务、信息等,以提高用户满意度和体验。在当前互联网和移动...

  • 机器学习中的七种分类算法

    2 分类算法如何工作 为了解决分类问题,我们使用称为机器学习分类算法的数学模型。他们的任务是找出目标变量如何与输入特征 xi 和输出值 yi 相关联。在数学方面,估计函数 f(xi) 通过将相关特征作为输入来预测输出...

  • 机器学习的分类与主要算法

    机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合...

  • 机器学习入门之算法研究

    可以这样说,当前工业界所使用的绝大部分机器学习算法都不是深度学习算法。深度学习不一定总是解决问题的正确工具:有时没有足够的数据,深度学习不适用;有时用其他算法可以更好地解决问题。如果你第一次接触的机器...

  • 机器学习实验——分类学习算法

    机器学习实验,分类学习算法 1、理解监督学习和分类学习的基本概念。 2、掌握分类学习五种算法的算法流程。 3、学会编写分类学习五种算法的Python编程方法。 4、会使用分类学习评价方法测评不同的算法性能

  • 浅析机器学习算法的应用场景!

    本文约3200字,建议阅读10分钟 本篇文章介绍了机器学习算法的应用场景。在学习算法的过程里,难免有疑问:k近邻、贝叶斯、决策树、svm、逻辑斯蒂回归和最大熵模型、隐马尔科夫、条件随机场、...

  • 机器学习算法(三十):强化学习(Reinforcement Learning)

    3强化学习算法归类 3.1 Value Based 3.2Policy Based 3.3 Actor-Critic 3.4 其他分类 4EE(Explore & Exploit)探索与利用 5 强化学习实际开展中的难点 6 强化学习的实际应用 6.1 自动驾驶 6.2 游戏 ...

  • 机器学习中的数学——遗传算法(Genetic Algorithm)

    遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。它最初由美国密歇根大学J.Holland教授于1975年首先提出来的,...

  • 常用的机器学习与深度学习算法简介

    常用的机器学习与深度学习算法简介1、机器学习1.1 决策树与随机森林1.2 支持向量机(SVM)1.3 k-最近邻算法1.4 朴素贝叶斯分类器2、深度学习2.1 人工神经网络2.2 深度神经网络2.3 卷积神经网络2.4 循环神经网络2.5 自...

  • Opencv学习笔记 - OpenCV 4机器学习算法简介

    在机器学习中,一些比较流行方法的包括:支持向量机...OpenCV实现了其中的八种机器学习算法,所有这些算法都继承自StatModel类,这八种算法是: ·人工神经网络 ·随机树 ·期望最大化 ·k-最近邻 ·............

  • 图解机器学习算法(1) | 机器学习基础知识(机器学习通关指南·完结)

    本文覆盖机器学习常见知识要点,包括机器学习流程、算法分类(监督学习、无监督学习、强化学习)、依托的问题场景(分类、回归、聚类、降维)、机器学习模型评估与选择等。

  • 机器学习算法 综述(入门)

    学习了一个学期机器学习算法,从什么都不懂到对十个机器学习算法有一定的了解,下面总结一下十大机器学习算法,从算法的概念、原理、优点、缺点、应用等方面来总结,如果有错误的地方,欢迎指出。 目录 1.决策树...

  • 机器学习十大算法

    机器学习十大算法 http://www.52cs.org/?p=1835   作者 James Le ,译者 尚剑 , 本文转载自infoQ 毫无疑问,机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而...

  • 【机器学习】优化算法

    参考:机器学习常见的优化算法比较 最全的机器学习中的优化算法介绍 目录 1. 梯度下降算法 1.1 随机梯度下降(SGD) 1.2 动量优化法 Momentum 1.3 批量梯度下降(mini-batch SGD) 2. AdaGrad算法 3. ...

  • 机器学习:支持向量机(SVM)

    支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在...

  • 机器学习前沿算法介绍

    机器学习算法回顾 机器学习的本质就是寻找一个函数,它根据某种统计意义来预测现实中已发生或即将发生的现象,这个函数可以相当复杂,它也许具有上千万个参数,以至于根本没有人能够把这个函数的数学表达式给手写...

Global site tag (gtag.js) - Google Analytics