`
ocre
  • 浏览: 58096 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

朴素贝叶斯分类的M估计推导

 
阅读更多

      在使用朴素贝叶斯方法进行文本分类时,如果待分类的文本包含某个属性值在训练样本中不存在,则类条件概率为0,

这时候算出的所有类别的后验概率都是0,导致无法对文本分类。一般可采用M估计(M-Estimate)来平滑类条件概率的计算,从而得到非0的可比较的近似概率值,达到分类的目的。

 

      设 文本由一个属性向量x=(x1,x2,x3,...xn)表示,给定分类集合Y={yj|yj 属于Y}

      求 文本向量的一个属性xi 对于分类yj的类条件概率P(xi|yj)。

      首先假设Nyj 是分类yj的样本总数,Nxi是包含属性xi且属于分类yj的样本数。

      由概率知识得到:

             P(xi|yj) = Nxi / Nyj                                    ------公式1

      如果采用M-Estimate,得到的公式是

             P(xi|yj) = (Nxi + mp) / (Nyj + m)               ------公式2

      其中p是 P(xi|yj) 的近似值,即有 Nxi / Nyj  ~= p

 

      由公式1和p逐步推导出公式2的过程如下:

             为简化起见,设 a = Nyj, b = Nxi, 则 p ~= b / a, 可得:

             P(xi | yj) = b / a

                           = b(a+m) / a(a+m)    

                           = (ba + bm) / a(a+m)

                           = (b + m*(b/a)) / (a+m)

                           ~= (b + mp) / (a+m)                   -------- 用 p ~= b / a 代入。

                           = (Nxi + mp) / (Nyj + m)

       得证。

 

      M估计的实际应用:

       1. 多项式模型:

            m = |V|,p = 1/|V|, 这里|V|为样本空间V的词库大小。

       2. 伯努利模型:

            m = 2, p = 1/2

           至于为什么m取2,我还没弄懂,期待有知道的朋友分享一下。

 

分享到:
评论

相关推荐

    朴素贝叶斯分类PPT学习教案.pptx

    朴素贝叶斯分类PPT学习教案 本文主要讲解了朴素贝叶斯分类的基本...通过学习朴素贝叶斯分类的基本概念、定义、公式推导和应用实例,我们可以更好地理解和应用朴素贝叶斯分类算法,提高我们的机器学习和数据分析能力。

    朴素贝叶斯伪代码

    朴素贝叶斯分类器是一种基于概率理论的监督学习方法,广泛应用于文本分类、情感分析、垃圾邮件过滤等领域。它假设特征之间相互独立,这使得计算变得简单高效。尽管“朴素”假设在实际应用中往往不成立,但朴素贝叶斯...

    test_bayes.zip_朴素贝叶斯_朴素贝叶斯分类 matlab

    在这个“test_bayes.zip”压缩包中,包含了一个名为“test_bayes.m”的MATLAB文件,这应该是一个实现朴素贝叶斯分类算法的脚本或函数。MATLAB是一种广泛用于数值计算、图像处理和科学建模的编程语言,非常适合进行...

    朴素贝叶斯算法学习笔记1

    二、朴素贝叶斯分类方法--数学推导 贝叶斯公式:Pr(Y| X) = Pr(X | Y) x Pr(Y)/Pr(X) 是朴素贝叶斯算法的基础。贝叶斯公式可以用来计算某一对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。 ...

    机器学习之朴素贝叶斯简介

    当你看到一个穿着裤子的学生时,你可以使用朴素贝叶斯算法来估计这个学生是男生还是女生。 根据题目中的数据,我们可以列出以下信息: - 男生中穿裤子的人数占比为:\(0.6 * 1.0 = 0.6\) (因为男生总是穿裤子)。 - ...

    基于概率论的分类方法:朴素贝叶斯.docx

    总结来说,朴素贝叶斯分类器是一种基于概率模型的分类方法,利用贝叶斯定理和条件独立假设,通过对特征条件概率的估计,预测未知样本的类别。虽然它的“朴素”假设在实际问题中可能过于简化,但在许多情况下,朴素...

    基于朴素贝叶斯算法的文本分类器

    ### 基于朴素贝叶斯算法的文本分类器 #### 贝叶斯原理及其在文本分类中的应用 **1.1 贝叶斯公式** 在介绍朴素贝叶斯算法之前,我们首先需要理解贝叶斯公式的基础概念。设A、B是两个事件,且P(A)>0,那么在事件A...

    贝叶斯分类器(公式推导+举例应用)

    贝叶斯分类器(公式推导+举例应用)

    数据分析经典模型:朴素贝叶斯.pdf

    1. 分类问题:朴素贝叶斯概率模型可以用于解决分类问题,例如 spam 邮件分类、文本分类等。 2. 推荐系统:朴素贝叶斯概率模型可以用于推荐系统,例如根据用户行为推荐产品。 3. 预测问题:朴素贝叶斯概率模型可以...

    全套清华大学数据分析 统计学 系列课程 04 第四章 朴素贝叶斯法 (共17页).pptx

    首先,朴素贝叶斯法的学习与分类基于贝叶斯定理,它通过训练数据集来学习联合概率分布P(X,Y),并进一步推导出先验概率P(Y)和条件概率P(X|Y)。在这一过程中,关键假设是特征之间相互独立,即所谓的“朴素”假设,虽然...

    贝叶斯分类器经典讲解.ppt

    在提供的训练数据集上,朴素贝叶斯分类器会估计各种天气状况下打网球的响应(Yes或No)的概率,例如,通过计算每个天气特征在Yes和No类别下的出现频率来估计条件概率。然后,对于新的天气状况,分类器将使用这些概率...

    基于贝叶斯的网络学习与理论推导

    树扩展朴素贝叶斯分类器(TANC)是对朴素贝叶斯分类器的一种改进,它允许属性变量之间存在某种依赖关系。而贝叶斯网络分类器(BNC)则是一种更为通用的分类器,它能够学习并利用属性变量间的复杂关系。 在贝叶斯...

    贝叶斯模型.docx

    而生成模型如隐马尔科夫模型(HMM)、朴素贝叶斯(NB)、高斯混合模型(GMM)则学习联合概率P(x, y),再通过贝叶斯定理推导出条件概率P(y|x)。判别模型通常更关注性能,而生成模型能提供更多的关于数据生成过程的...

    从朴素贝叶斯到N-gram语言模型_CodingPark

    从朴素贝叶斯到N-gram语言模型 文章介绍 在本文中你将会学到朴素贝叶斯是什么、朴素贝叶斯有什么应用、实际工程上的小技巧等 N-grame是什么、它比朴素贝叶斯好在哪里等 目录 朴素贝叶斯 N-gram语言模型 两个实例代码...

    企业行业分类-贝叶斯算法解决方案

    朴素贝叶斯分类算法基于概率论中的贝叶斯定理,该定理描述了两个条件概率之间的关系,例如P(A|B)和P(B|A)。根据乘法规则,我们可以推导出以下公式: \[ P(A \cap B) = P(A) \cdot P(B|A) = P(B) \cdot P(A|B) \] ...

Global site tag (gtag.js) - Google Analytics