贝叶斯推断及其互联网应用：过滤垃圾邮件 -

Horsemen

浏览: 151100 次

最近访客更多访客>>

zihai367

serisboy

bingjava

yujie020

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

贝叶斯推断及其互联网应用：过滤垃圾邮件

博客分类：

algorithms

贝叶斯

引用一篇文章:
贝叶斯推断及其互联网应用

1、什么是贝叶斯过滤器？
垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。
正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语；后者则是计算邮件文本的校验码，再与已知的垃圾邮件进行对比。它们的识别效果都不理想，而且很容易规避。
2002年，Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说，这样做的效果，好得不可思议。1000封垃圾邮件可以过滤掉995封，且没有一个误判。
另外，这种过滤器还具有自我学习的功能，会根据新收到的邮件，不断调整。收到的垃圾邮件越多，它的准确率就越高。

2、建立历史资料库
贝叶斯过滤器是一种统计学过滤器，建立在已有的统计结果之上。所以，我们必须预先提供两组已经识别好的邮件，一组是正常邮件，另一组是垃圾邮件。
我们用这两组邮件，对过滤器进行"训练"。这两组邮件的规模越大，训练效果就越好。Paul Graham使用的邮件规模，是正常邮件和垃圾邮件各4000封。
"训练"过程很简单。首先，解析所有邮件，提取每一个词。然后，计算每个词语在正常邮件和垃圾邮件中的出现频率。比如，我们假定"sex"这个词，在4000封垃圾邮件中，有200封包含这个词，那么它的出现频率就是5%；而在4000封正常邮件中，只有2封包含这个词，那么出现频率就是0.05%。（【注释】如果某个词只出现在垃圾邮件中，Paul Graham就假定，它在正常邮件的出现频率是1%，反之亦然。这样做是为了避免概率为0。随着邮件数量的增加，计算结果会自动调整。）
有了这个初步的统计结果，过滤器就可以投入使用了。

3、贝叶斯过滤器的使用过程
现在，我们收到了一封新邮件。在未经统计分析之前，我们假定它是垃圾邮件的概率为50%。（【注释】有研究表明，用户收到的电子邮件中，80%是垃圾邮件。但是，这里仍然假定垃圾邮件的"先验概率"为50%。）
我们用S表示垃圾邮件（spam），H表示正常邮件（healthy）。因此，P(S)和P(H)的先验概率，都是50%。

然后，对这封邮件进行解析，发现其中包含了sex这个词，请问这封邮件属于垃圾邮件的概率有多高？
我们用W表示"sex"这个词，那么问题就变成了如何计算P(S|W)的值，即在某个词语（W）已经存在的条件下，垃圾邮件（S）的概率有多大。
根据条件概率公式，马上可以写出

公式中，P(W|S)和P(W|H)的含义是，这个词语在垃圾邮件和正常邮件中，分别出现的概率。这两个值可以从历史资料库中得到，对sex这个词来说，上文假定它们分别等于5%和0.05%。另外，P(S)和P(H)的值，前面说过都等于50%。所以，马上可以计算P(S|W)的值：

因此，这封新邮件是垃圾邮件的概率等于99%。这说明，sex这个词的推断能力很强，将50%的"先验概率"一下子提高到了99%的"后验概率"。

4、联合概率的计算
做完上面一步，请问我们能否得出结论，这封新邮件就是垃圾邮件？
回答是不能。因为一封邮件包含很多词语，一些词语（比如sex）说这是垃圾邮件，另一些说这不是。你怎么知道以哪个词为准？
Paul Graham的做法是，选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）
所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。
在已知W1和W2的情况下，无非就是两种结果：垃圾邮件（事件E1）或正常邮件（事件E2）。

其中，W1、W2和垃圾邮件的概率分别如下：

如果假定所有事件都是独立事件（【注释】严格地说，这个假定不成立，但是这里可以忽略），那么就可以计算P(E1)和P(E2)：

又由于在W1和W2已经发生的情况下，垃圾邮件的概率等于下面的式子：

即

将P(S)等于0.5代入，得到

将P(S|W1)记为P1，P(S|W2)记为P2，公式就变成

这就是联合概率的计算公式。如果你不是很理解，点击这里查看更多的解释。

5、最终的计算公式
将上面的公式扩展到15个词的情况，就得到了最终的概率计算公式：

一封邮件是不是垃圾邮件，就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9，概率大于0.9，表示15个词联合认定，这封邮件有90%以上的可能属于垃圾邮件；概率小于0.9，就表示是正常邮件。
有了这个公式以后，一封正常的信件即使出现sex这个词，也不会被认定为垃圾邮件了。

实现代码:

/**
 * 
 * 描述: 推断概率.
 * @author
 *
 */
public class InferProbability {
    private static final double HALF_RATE = 0.5;
    
    /**
     * 计算条件概率.
     * P(S|W) = P(W|S)P(S)/(P(W|S)P(S) + P(W|H)P(H))
     * @param sRate 带判断类别的概率
     * @param hRate 另一个类别的概率
     * @return 概率
     */
    public static double calculateConditionProbability(double sRate, double hRate) {
        return sRate * HALF_RATE / (sRate * HALF_RATE + hRate * HALF_RATE);
    }
    
    /**
     * 计算联合概率.
     * 标记 P(S|W1) 为 P1 , 以此类推
     * P = P1P2...P5/(P1P2...P5 + (1-P1)(1-P2)...(1-P5))
     * @param array 数据列表
     * @param maxCnt 取数据从大到小个数
     * @return 概率
     */
    public static double calculateUnionProbability(Double[] array, int maxCnt) {
        double divisor = 0;
        double dividend = 0;
        for (int i = array.length - 1; i >= 0; i--) {
            if ((maxCnt - 1) < 0) {
                break;
            }

            if (divisor == 0) {
                divisor = array[i];
            } else {
                divisor *= array[i];
            }

            if (dividend == 0) {
                dividend = 1 - array[i];
            } else {
                dividend *= 1 - array[i];
            }
        }
        dividend += divisor;

        if (0 == dividend) {
            return 0;
        }

        return divisor / dividend;
    }
}

测试方法:

    // 获取垃圾的概率
    public double calculate(String content, int maxCnt, double maxRate, String sclazz, String hclazz) throws IOException {
        List<String> splitContent = this.ikAnalyzerHandle.getResult(content); // 获取content的分词结果
        Set<Double> lastSet = new TreeSet<Double>();
        for (String tmp : splitContent) {
            double sRate = 0.002; // 获取垃圾的概率
            double hRate = 0.0006; // 获取健康的概率
            if (0 == sRate) {
                lastSet.add(UNKNOWN_RATE_DEF);
            } else {
                lastSet.add(InferProbability.calculateConditionProbability(sRate, hRate));
            }
        }

        // last
        double union = -1;
        if (lastSet.size() > 0) {
            union = InferProbability.calculateUnionProbability(lastSet.toArray(new Double[0]), maxCnt);
        }

        return union;
    }

查看图片附件

分享到：

贝叶斯推断及其互联网应用: 已知推断未知概 ... | 汉明距离 Hamming Distance

2015-09-16 00:00
浏览 481
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

贝叶斯推断及其互联网应用.doc: 贝叶斯过滤器在互联网应用中，特别是在电子邮件过滤垃圾邮件方面，发挥了重要作用。垃圾邮件过滤器通过收集已知的垃圾邮件和非垃圾邮件，运用贝叶斯定理来计算新邮件是垃圾邮件的概率。每个单词被视为一个特征，过滤...

基于 OpenCV 的魔兽世界钓鱼机器人: 基于 OpenCV 的魔兽世界钓鱼机器人

供应链管理中信息共享问题的研究.docx: 供应链管理中信息共享问题的研究

青春文学中的爱情观呈现.doc: 青春文学中的爱情观呈现

分布式光伏储能系统的优化配置方法附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

Delphi 12.3 控件之XLSReadWriteII6.02.01.7z: XLSReadWriteII6.02.01.7z

图解系统-小林coding-v1.0.rar: 图解系统-小林coding-v1.0

【光伏功率预测】基于EMD-PCA-LSTM的光伏功率预测模型附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

漫画作品与乌托邦理想追求.doc: 漫画作品与乌托邦理想追求

江苏建筑消防设施维护保养规程.rar: 江苏建筑消防设施维护保养规程.rar

基于交互式可视化的Transformer模型注意机制探索工具-DODRIO及其应用: 内容概要：论文介绍了一款名为DODRIO的交互式可视化工具，帮助自然语言处理(NLP)研究人员和从业者解析基于转换器架构的语言模型内部工作机理。DODRIO整合了概述图与详尽视图，支持用户比较注意力权重与其输入文本的句法结构和语义特征。具体而言，它包含了依赖关系视图（Dependency View）、语义关注图（Semantic Attention Graph）以及注意力头概览（Attention Head Overview），并利用不同的图形展示方法使复杂的多层多头转换器模型中的注意力模式更容易理解和研究。适用人群：适用于从事深度学习、自然语言处理的研究人员和技术从业者；尤其适合对基于变换器架构的大规模预训练语言模型感兴趣的开发者们。使用场景及目标：DODRIO用于探索转换器模型各层级之间的联系、验证已有研究成果，同时激发新假设形成。具体使用时可以选择特定数据集中的句子作为样本输入，观察不同注意力机制如何响应文本内容的变化。此外，还可以用来对比精简版本DistilBERT的表现，评估其相对全量模型BERT的优势与不足。其他说明：DODRIO为开源项目，提供web端实施方式，使得

基于机器学习的疾病数据集分析: 该代码使用scikit-learn的乳腺癌数据集，完成分类模型训练与评估全流程。主要功能包括：数据标准化、三类模型（逻辑回归、随机森林、SVM）的训练、模型性能评估（分类报告、混淆矩阵、ROC曲线）、随机森林特征重要性分析及学习曲线可视化。通过`train_test_split`划分数据集，`StandardScaler`标准化特征，循环遍历模型进行统一训练和评估。关键实现细节包含：利用`classification_report`输出精确度/召回率等指标，绘制混淆矩阵和ROC曲线量化模型效果，随机森林的特征重要性通过柱状图展示，学习曲线分析模型随训练样本变化的拟合趋势。最终将原始数据和预测结果保存为CSV文件，便于后续分析，并通过matplotlib进行多维度可视化比较。代码结构清晰，实现了数据处理、模型训练、评估与可视化的整合，适用于乳腺癌分类任务的多模型对比分析。

数字化智慧园区建设实施PPT(43页).pptx: 在智慧城市建设的大潮中，智慧园区作为其中的璀璨明珠，正以其独特的魅力引领着产业园区的新一轮变革。想象一下，一个集绿色、高端、智能、创新于一体的未来园区，它不仅融合了科技研发、商业居住、办公文创等多种功能，更通过深度应用信息技术，实现了从传统到智慧的华丽转身。智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化，彻底颠覆了传统园区的管理模式。在这里，基础设施的数据收集与分析让管理变得更加主动和高效，从温湿度监控到烟雾报警，从消防水箱液位监测到消防栓防盗水装置，每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控，更是在节能降耗的同时，极大地提升了园区的运维效率。更令人兴奋的是，通过智慧监控、人流统计和自动访客系统等高科技手段，园区的安全防范能力得到了质的飞跃，让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。更令人瞩目的是，智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈，还是享受便捷的电商服务、法律咨询和融资支持，亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率，智慧园区都以其全面、专业、高效的服务，为企业的发展插上了腾飞的翅膀。而这一切的背后，是大数据、云计算、人工智能等前沿技术的深度融合与应用，它们如同智慧的大脑，让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区，就像踏入了一个充满无限可能的未来世界，这里不仅有科技的魅力，更有生活的温度，让人不禁对未来充满了无限的憧憬与期待。

Matlab实现BO贝叶斯优化-Transformer-GRU多特征分类预测的详细项目实例（含完整的程序，GUI设计和代码详解）: 内容概要：本文档介绍了基于MATLAB实现的贝叶斯优化（BO）、Transformer和GRU相结合的多特征分类预测项目实例，涵盖了详细的程序设计思路和具体代码实现。项目旨在应对数据的多样性与复杂性，提供一种更高效的多特征数据分类解决方案。文档主要内容包括：项目背景与意义，技术难点与解决方案，具体的实施流程如数据处理、模型构建与优化、超参数调优、性能评估以及精美的GUI设计；详细说明了Transformer和GRU在多特征数据分类中的应用及其与贝叶斯优化的有效结合，强调了其理论与实际应用中的价值。适合人群：具备一定机器学习和MATLAB编程基础的研发人员，特别是从事多维数据处理与预测工作的专业人士和技术爱好者。使用场景及目标：① 适用于金融、医疗、交通等行业，进行复杂的多维数据处理和预测任务；② 提升现有分类任务中复杂数据处理的准确度和效率，为各行业提供智能预测工具，如金融市场预测、患者病情发展跟踪、交通流量管理等。其他说明：本文档包含了丰富的实战案例和技术细节，不仅限于模型设计本身，还涉及到数据清洗、模型优化等方面的知识，帮助使用者深入理解每一步骤背后的原理与实现方法。通过完整的代码样例和GUI界面设计指导，读者可以从头到尾跟随文档搭建起一套成熟的分类预测系统。

Hive sql练习题，只是参考作用: 大数据的sql练习题，初级中级高级

基于自注意力机制的序列转换模型-Transformer的提出及其应用: 内容概要：论文介绍了名为Transformer的新网络架构，它完全基于自注意力机制，在不使用递归或卷积神经网络的情况下建模输入与输出之间的全局依赖关系，尤其适用于长文本处理。通过多头自注意力层和平行化的全连接前馈网络，使得在机器翻译任务上的表现优于当时最佳模型。具体地，作者用此方法实现了对英语-德语和英语-法语翻译、句法解析等任务的高度并行化计算，并取得显著效果。在实验方面，Transformer在较短训练时间内获得了高质量的翻译结果以及新的单一模型基准。除此之外，研究人员还探索了模型变体的效果及其对于不同参数变化时性能的变化。适用人群：从事自然语言处理领域的研究者、工程师、学生，熟悉深度学习概念尤其是编码器-解码器模型以及关注模型创新的人士。使用场景及目标：主要适用于序列到序列（seq2seq）转换任务如机器翻译、语法分析、阅读理解和总结等任务的研究和技术开发；目标在于提高计算效率、缩短训练时间的同时确保模型性能达到或超过现有技术。其他说明：本文不仅提出了一个新的模型思路，更重要的是展示了自注意力机制相较于传统LSTM或其他方式所拥有的优势，例如更好地捕捉远距离上下文关系的能力

【故障诊断】一种滚动体轴承或齿轮的重复瞬态提取方法研究附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

用于平抑可再生能源功率波动的储能电站建模及评价附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

使用 KTH 数据集进行人类行为识别附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

贝叶斯推断及其互联网应用：过滤垃圾邮件

评论

发表评论

相关推荐

一致性哈希算法

汉明距离 Hamming Distance

余弦相似性的应用: 自动提取关键词

余弦相似性的应用: 找出相似文章

比较两个地址相似程度

Levenshtein Distance 算法实现

simhash原理介绍

最近访客更多访客>>