摘自: 《数据挖掘-实用机器学习技术》
一、推断基本规则,1规则(1-rule)
定义:建立一个只对单个属性进行测试的规则,并进行不同的分支。
,每一个分支对应一个不同的属性值。
过程为:
对每个属性
对每个属性值,建立如下一条规则
计算每个类别(属性值-结果)出现的频率,找出出现最频繁的类别,建立规则,将 这个类别赋予这个属性值(如outlook sunny-no 2/5 overcast-yes 0/4 rainy-yes 2/5)
计算规则的误差率(这个属性未覆盖的实例/实例数 2/5 0/4 2/5)
选择误差率最小的规则(如(2+0+2)/(5+4+5))
1.解决残缺值,是把残缺值作为一个属性值
2.对于名词属性,对每个属性值类别非常简单,对于数值,需要进行划分法
如:
64 65 68 69 70 71 72 72 75 80 81 83 85
y n y y y y y y y n y y n
根据结果y,n划分区间,(避免属性过度拟合overfitting(如身份证,编码等对应结果都是一一对应,会导致分类也是一个一个分类),可以设置最小分类数,如3为最小分类树64 65 68 69 70 71 72 72 75就是一类n<75 y n>80 n)
二、统计建模
使用所有的属性,并认为属性是独立且平等的,一起决定结果。
方法:列出所有的属性值,属性结果值,结论值,以及所有的属性结果百分比,结论百分比。对于新的实例,将属性对应的结果百分比相乘 再与所要结论百分比相乘,符合贝叶斯规则。
贝叶斯规则
Pr[H|E] = Pr[E|H]Pr[H]/Pr[E]
Pr[yes|E] = Pr[E1|yes]* Pr[E2|yes]* Pr[E2|yes]* Pr[E2|yes]*Pr[yes]/Pr[E]
Pr[A]指事件A发生的概率
Pr[A|B]是基于B发生,A发生的概率
贝叶斯规则在结合属性选择(排除冗余属性,会造成属性非独立)后,用于建模
(注意,在当一个属性未绝对概率时,如天气sunny为100%,需要补一,如有10个实例,两种属性值,则10+1/10+2,1/10+2为新的概率,这种技术成为拉普拉斯估计器
2+up1 4+up2 3+up3 /9+u & p1+p2+p3=1)
1.解决残缺值,是忽略残缺值,因为统计模型用比例值,所以不会印象比例总和
2.处理数值,名词需要求出概念,数值需要求平均值,和标准差,并且假设他们拥有正态或者高斯的概率分布。
σ标准差 方差的平方根 方差sum((x-u)^2)/(num – 1)
3.文档分类的贝叶斯模型
采用多项朴素贝叶斯模型,前提是单词出现的次序和位置都不重要。那么文档E可以看做一袋子单词(单词在袋子中的顺序不考虑)
<!--[if !supportLists]-->例子, <!--[endif]-->如{yellow,yellow,yellow}E Pr[yellow|H]=75% Pr[blue|H]=25%
则Pr[{yellow,yellow,yellow}|H]=3! * 0.75^3/3! * 0.25^0/0! = 27/64
4.贝叶斯模型缺点
很显然会发现,贝叶斯模型默认属性独立,则在许多有冗余属性上会导致属性权重不一。对于数值来说,必须是正太分布。
相关推荐
机器学习非参数方法是机器学习领域中的一种重要方法,在这篇文章中,我们将详细介绍非参数方法的基本概念、特点和应用。 一、非参数方法的定义 非参数方法是机器学习中的一种方法,它不需要对数据进行参数假设,...
机器学习期末复习试卷 ...机器学习期末复习试卷涵盖了机器学习的基本概念、机器学习算法、模型评估方法、模型选择标准、应用实践等知识点。通过掌握这些知识点,可以更好地理解和应用机器学习技术。
在具备了Python基础之后,可以开始学习机器学习的基本概念和技巧。机器学习是一门涉及统计学、概率论和优化算法的学科,旨在让计算机通过数据学习并做出预测。不必一开始就深入理论,而是应该关注实践中常用的算法,...
这些资料旨在帮助初学者快速掌握机器学习的基本概念和常见方法,同时深入理解无监督学习和监督学习在实际中的应用。 首先,“机器人学习简介”可能会介绍机器学习的定义和历史,它是人工智能的一个分支,通过让...
### 一、机器学习第四章部分答案解析 #### 知识点1:函数的表示与比较 在给定的内容中提到了两个函数 `O(A)` 和 `O(B)` 的表达式: - **O(A)** = 1 + 2 * x1 + x2 - **O(B)** = 2 * x1 + x2 通过比较这两个函数...
这份压缩包包含了四个精心设计的实战项目,每个项目都提供了清晰、简洁的代码,并附有详尽的注释,确保读者能够在实践中逐步掌握机器学习的核心技术。 首先,我们要明白机器学习是人工智能的一个分支,它让计算机...
作者在学习过程中使用Scikit-learn处理了与股票投资相关的机器学习问题,并意识到编写脚本来从文件中抓取数据或爬取网络数据是一项基本技能。这些技能对于机器学习的实践至关重要,因为没有良好的数据,机器学习模型...
在机器学习领域,监督学习是一种基本的学习方式,其特点是利用带有标签的训练数据集来训练模型,然后使用模型对新的输入数据进行预测。监督学习技术主要分为分类和回归两种。分类技术用于预测离散的响应,比如判断...
可以说对国内网络上参差不齐的简单机器学习股票预测做了一个复现整理。这对我的机器学习知识有一定帮助,也希望能帮助到需要它的人。 全部为jupterbook格式,代码注释全面且执行效果都在。 适合个人学习、课程团队...
这个课程深入浅出地讲解了这一领域的核心概念和技术,旨在帮助学生掌握机器学习的基本方法,并能将其应用于实际问题中。下面将根据提供的文件名,详细解析其中可能涵盖的机器学习知识点。 1. **第一讲**:通常会...
《邹博小象机器学习全套代码讲义》是一份深入探讨机器学习的宝贵资源,它涵盖了从基础到高级的各种机器学习算法,旨在帮助学习者掌握实际应用中的编程技巧。这份讲义以线性回归和分类算法为重点,是理解并实践机器...
支持向量机(Support Vector Machine,SVM)是一种在机器学习领域广泛应用的监督学习模型,尤其在分类和回归任务中表现出色。SVM的核心思想是找到一个最优的超平面,这个超平面能够最大化数据集中的样本到超平面的...
《Machine Learning in Action》是一本经典的机器学习入门书籍,它不仅介绍了机器学习的基本概念和算法原理,更重要的是通过具体的案例演示了如何使用Python来实现这些算法。该书内容覆盖了多种机器学习方法,包括...
机器学习的发展史可以分为四个时期。第一阶段是在50年代中叶到60年代中叶,属于热烈时期。第二阶段是在60年代中叶至70年代中叶,被称为机器学习的冷静时期。第三阶段是从70年代中叶至80年代中叶,称为复兴时期。机器...
二、预测电影评分的机器学习方法 1. 协同过滤:这是一种基于用户行为的推荐技术,通过分析用户历史评分来预测他们对未评分电影的兴趣。可以分为用户-用户协同过滤和物品-物品协同过滤,前者找到具有相似评分历史的...
### 项目九 认识机器学习—任务1掌握机器学习的基本概念 #### 一、引言 本项目旨在介绍机器学习的基本概念及其应用场景。通过一个生动的故事引入机器学习的概念,并结合实际生活中的例子来帮助理解机器学习的工作...
机器学习是人工智能领域的一个重要分支,旨在通过算法和模型来提高计算机的智能能力。本文将对机器学习的基本概念、模型评估、选择泛化误差、超参数调整、性能度量、模型选择、比较检验、偏差与方差、监督学习、决策...
《斯坦福机器学习教案》是一份著名的机器学习入门学习资源,专为那些具有基本线性代数、概率论和最优化知识的初学者设计。这份教程深入浅出地介绍了机器学习的基本概念、算法和实践应用,是提升机器学习技能的理想...
在本文中,我们将深入探讨书中涉及的一些关键概念和理论,旨在为读者提供一个全面的机器学习入门指南。 一、机器学习概述 机器学习是人工智能的一个分支,主要研究计算机如何通过经验自动改进其性能。它分为监督...
通过阅读《机器学习 andrew 讲义》,学习者不仅可以掌握机器学习的基本概念和常用算法,还能了解到实际应用中的一些策略和技巧,这对于想要在机器学习领域深化研究或者实际应用的人而言,无疑是一份宝贵的资源。