`

机器学习方法概述

阅读更多

KNN k临近算法

遍历所有训练样本,求距离最近的点的结论,作为最后的预测结果

MR版:map求样本距离(key:样本,value:距离),combine求的最小值,是过滤功能,reduce就有一个求得距离最小值

 

贝叶斯:

贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)

贝叶斯将在属性条件下的结论的概率转为:在结论条件下属性的概率的乘积*结论的概率

求得样本属性的在结论上的出现次数,样本结论的次数,商就是P(B|A)

MR版:map求拼接keyvalue(key:属性-结论  |结论,value:1)

              combine 求和(key:属性-结论  |结论,value:count)

              reduce和combine相同

 

决策树:

id3

香农熵 

 根据香农熵最大的来选择分裂特征,香农熵中的p(x)是在结论ci下xi的概率, 可以写成p(x,c|c);

 

c4.5

信息增益

p(c|c)-p(x,c|c)

信息增益率

p(c|c) - p(x,c|c) / p(x|x)

 

CART

 cart的决策树是二叉树,每次取特征值得规则是使得信息杂质最少

方法一:GINI 1- pow(yi/y,2)-pow(yi/y,2)

方法二:方差 pow(e-yi,2)+pow(e-yi,2)

 

 

 

SVM:

 SVM的原理是用超平面分割数据,不同分类在超平面的两侧;使得超平面离样本几何距离最大;

 使用对偶和梯度上升,调整超平面的参数W向量,使得所有样本都满足kkt条件

wx+b = 0 为超平面,wx+b=1和wx+b=-1为两类边界

 

 

 

logistic回归分类

是将y = 0|x<a;y=1|x>a 线性化为函数sigmod f(x) = 1/[1+e^(-x)]

 

使用坐标梯度上升求得参数w向量,求导后w := w + a(y-h(x))x ,其中a是每次梯度上升的步长,x是属性向量,h(x) = sigmod f(wx),不断循环进行梯队上升,知道w稳定或最大循环次数 

 

 

数值预测

线性回归

回归函数的确定,y=f(x) , 使得y-h(x)最小

方法一:使用梯度下降,求得w,同上

方法二:使用最小二阶乘

 

bagging 是用多个独立的分类器

 

boosting 是用多个分类器,分类器之间会有影响,后面的分类器会加重对前面分类错误的样本进行分类 

 

adaboost

是基于boosting,使用多个弱分类器,每个样本有权重D,每个弱分类器也有权重a

a = 正确分类的样本/所有样本

d = d*e^-a/sum(d) 正确的样本

d = d*e^a/sum(d) 错误的样本

 

随机森林

进行行抽取,和列抽取

行抽取用可放回的抽取 m ,列抽数量是远远小于数据特征n<<N

 

聚类方法: 

kmeans

1.随机选择k个中心点

2.遍历所有训练样本,将样本分给距离最近的k点

3.遍历结束后更新k点,使其为所属样本的中心点

重复2,3步,知道k稳定,或循环次数到达阈值

 

二分kmeans

1.让所有样本属于一个集簇,求得中心点

2.用中心点二分所有样本,重新计算各自的中心点,选择误差最大的集簇作为下一个二分的数据集

重复 2操作,知道k点到达预期数,或误差到达阈值

 

canopy

canopy不是硬分类器,他有t1,t2,detal三个值,t1>t2

随机取一个样本为canopy,当d<t1时,样本在canopy中,并删除所有d<t2的样本,再进行循环

在mahout中,canopy不是删除样本这样实现的,mahout的mapper和reduce的操作一样,都是添加canopy中心点,当d<t1时,属于canopy中心点,当d>t2则新生成canopy中心点

 

mean shift

中心点漂移,有着梯度上升思想,不断优化中心点

mahout算法中用canopy修改,当d<t1时,属于canopy中心点,并记录此样本在canopy中,在reduce中增加一个操作,是跟新canopy属性,用canopy记录的样本去计算canopy中心点

 

fp-growth:

求频繁集合的算法,只用遍历数据集两次,就可建立fp树

遍历集合,求最小项集的出现次数

给所有样本内部排序,并且过滤掉出现次数小于阈值的项集

用排序好的数据建立fp树,树是字典树,节点是频繁集合的路径,值是路径出现次数

fp树建好后,使用header链表,自底向上获得频繁项

mahout的分布式fp:

第一次遍历样本一样,求最小项集的出现次数

根据排序的最小项集,分割项集,如a,b,c,d,e,f,g, 分割数据a,b,c,d,e,f,g;  c,d,e,f,g;  e f g; 这样频繁集合不会应为分片而丢失(可以理解为fp树从顶向下分割数据)

 

 基于项目的推荐算法

计算人-物

计算物-物

获得物和物的相似矩阵

在用相似矩阵 * 人-物 ,就是人和其他物品的关联度

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    机器学习方法概论讲义

    从给定的文件信息来看,我们可以了解到这是一份关于“机器学习方法概论”的讲义。虽然文件信息中存在重复的内容和OCR识别的错误,但我们还是可以从中提取一些有关机器学习方法的关键知识点。 首先,标题中提到的...

    01统计机器学习方法概论1

    在本篇文章中,我们将深入探讨统计机器学习的基本概念、核心思想以及常用方法。 统计机器学习的核心在于其数据驱动的特性。它首先要求我们收集到足够丰富的数据,这些数据可以是结构化的,如表格形式的数据,也可以...

    机器学习课件概论-概念

    本文将基于给定的文件信息,深入探讨机器学习的概念、应用领域、研究方法及其重要性,旨在为读者提供全面而深入的理解。 ### 一、机器学习的重要性与原因 机器学习的重要性源于它解决的问题本质——使计算机能够从...

    工业物联网中基于机器学习方法的预测技术.pdf

    本文概述了工业物联网中基于机器学习方法的预测技术,讨论了机器学习在工业智能系统预测技术中的应用。随着工业物联网技术的发展,机器学习方法将发挥着越来越重要的作用。本文主要探索了学习方法在工业互联网系统...

    人工智能和机器学习概述.md

    人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md人工智能和机器学习概述.md...

    人工智能背景下量子机器学习算法的概论.pdf

    人工智能背景下量子机器学习算法概论 本文总结了量子机器学习的最新算法知识,并介绍了人工智能、量子计算以及机器学习算法的基本概念。同时,对量子机器学习算法与传统机器学习算法的区别和联系进行了比较和分析。...

    机器学习课程课件

    最后,"机器学习方法概论9.pdf"可能是整个课程的概述,介绍机器学习的基本概念、分类、回归、聚类等主要任务,以及常用的学习策略,如监督学习、无监督学习和强化学习。 总的来说,这个机器学习课程课件覆盖了从...

    机器学习算法概述、原理及应用.pdf

    机器学习是人工智能领域的一个重要分支,它致力于研究如何通过计算的手段,让计算机系统能够模拟、实现甚至超越人类的学习行为,从而获取新的知识或技能,并不断完善自身的性能。机器学习算法是实现这一目标的核心...

    机器学习——统计方法概论思维导图

    机器学习——统计方法概论思维导图 本资源摘要信息是关于机器学习和统计方法的概论思维导图,涵盖了机器学习和统计学习的基本概念、方法和技术。 机器学习和统计学习的区别 机器学习和统计学习都是研究如何从数据...

    chap-机器学习概述.pptx

    机器学习概述 机器学习是人工智能领域中一个重要的分支,它涉及到计算机科学、数学、统计学、信息论等多个领域。机器学习的核心思想是让计算机系统自动地从数据中学习和提高性能,不断地改进和自我完善。 机器学习...

    机器学习入门教程详细攻略 机器学习概述总结

    一、机器学习概述 二、监督学习 三、无监督学习 四、强化学习 五、特征工程与数据预处理 六、模型选择与评估 七、深度学习基础 八、常用机器学习库与工具 九、实战案例分析 十、机器学习伦理与未来趋势 一、机器...

    基于机器学习的文字识别方法 (1).pdf

    一、基于机器学习的文字识别方法概述 基于机器学习的文字识别方法是通过机器学习算法来实现文字识别的过程。该方法可以通过训练大量的文字数据来学习文字的特征,从而实现文字识别。该方法可以应用于各种文字识别...

    机器学习测试填空题与答案1

    机器学习是一种人工智能领域的核心方法,它允许计算机通过学习数据中的模式和规律来预测未知数据的输出。本题涉及了机器学习的基本概念、监督学习、无监督学习、模型拟合、正则化、Python编程基础等内容。 1. 监督...

    基于机器学习的农作物产量预测研究综述.pdf

    一、机器学习概述 机器学习是人工智能的一个分支,通过数据分析和算法实现自动学习和改进的能力。机器学习的主要应用包括图像识别、自然语言处理、植物病害检测等领域。在农业领域,机器学习的应用主要集中在农作物...

    机器学习实验报告

    实验三探讨了梯度下降算法,这是一种优化方法,常用于求解损失函数最小值,以训练机器学习模型。实验内容包括设置初始参数、执行迭代过程和观察学习曲线。实验结果分析了梯度下降在不同学习率下的收敛速度和最终解的...

    水声被动定位中的机器学习方法研究进展综述.pdf

    水声被动定位是一种重要的...以上是对水声被动定位中机器学习方法研究进展的概述,涵盖了噪声处理、目标识别、定位估计等多个方面。结合相关参考文献,读者可以深入理解这一领域的最新发展,并为实际应用提供理论指导。

    基于机器学习的入侵检测技术概述.pdf

    基于机器学习的入侵检测技术概述 机器学习在入侵检测技术中的应用是网络安全领域的一个热门话题。随着网络攻击的日益频繁和复杂,传统的入侵检测方法已经无法满足对网络安全的需求。基于机器学习的入侵检测技术正是...

    基于主成分机器学习算法的慢性肝病的智能预测新方法.pdf

    本文概述了一种基于主成分机器学习算法的慢性肝病智能预测新方法。该方法通过将慢性肝病的多项指标属性项降维处理,结合神经网络学习,构建了慢性肝病预测模型。实验结果表明,本方法可以提高慢性肝病的诊断率,且...

    基于核机器学习的油气管道焊缝检测方法初探.pdf

    本文概述了基于核机器学习的油气管道焊缝检测方法的研究成果。该方法结合了机器学习技术和图像处理技术,旨在解决传统的x射线检测技术中的缺陷检测和跟踪系统问题。文章首先介绍了油气管道焊缝检测的重要性和挑战,...

Global site tag (gtag.js) - Google Analytics