`
txf2004
  • 浏览: 7065262 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

贝叶斯论坛垃圾帖屏蔽演示系统 Beta 1

阅读更多

介绍:

作为论坛的版主,肩负的任务之一就是维护论坛发言的质量,删除广告贴,灌水贴 垃圾贴等等.
本系统的开发目的就是为减轻版主的工作负担,自动识别垃圾贴的一个演示系统
理论依据是朴素贝叶斯原理.

使用的过程如下:
1、首先在多么乐注册帐号,登陆系统。
2、录入训练系统的原始数据,分两类垃圾贴 和 非垃圾贴。
3、录入需要检测的帖子,查看帖子是垃圾贴的百分比。

欢迎一起 讨论完善这个程序.

微软亚洲研究院-自然语言计算组

论文
  1. 信息检索的依存语言模型
    Jianfeng Gao, Jian-Yun Nie, Guangyuan Wu and Guihong Cao."Dependence language model for information retrieval", In SIGIR-2004. Sheffield, UK, July 25-29, 2004.
  2. 一种英-汉命名实体对齐的新方法
    Dong-Hui Feng, Ya-Juan Lv, Ming Zhou,"A New Approach for English-Chinese Named Entity Alignment", 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, Jul. 2004.
  3. 基于单语语料库的搭配翻译自动获取
    Ya-Juan Lv,Ming Zhou,"Collocation Translation Acquisition Using Monolingual Corpora", 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul. 2004.
  4. 可适应性的中文分词
    Jianfeng Gao, Andi Wu, Mu Li, Chang-Ning Huang, Hongqiao Li, Xinsong Xia and Haowei Qin."Adaptive Chinese word segmentation" , 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, Jul. 2004.
  5. 采用支持向量机识别中文新词
    Hongqiao Li, Chang-Ning Huang, Jianfeng Gao and Xiaozhong Fan, "The use of SVM for Chinese new word identification", In IJCNLP-04. Sanya City, Hainan Island, China, March 22-24, 2004.
  6. 语言模型中获取长距离依存的经验探讨
    Jianfeng Gao and Hisami Suzuki,"Capturing long distance dependency for language modeling: an empirical study", In IJCNLP-04. Sanya City, Hainan Island, China, March 22-24, 2004.
  7. Word Translation Disambiguation Using Bilingual Bootstrapping
    Hang Li and Cong Li," Word Translation Disambiguation Using Bilingual Bootstrapping", Computational Linguistics 30(1), 1-22, 2004.
  8. Text Classification Using Stochastic Keyword Generation
    Cong Li, Ji-Rong Wen, and Hang Li, "Text Classification Using Stochastic Keyword Generation", Proc. of ICML'03, 464-471.
  9. Uncertainty Reduction in Collaborative Bootstrapping: Measure and Algorithm
    Yunbo Cao, Hang Li, and Li Lian, "Uncertainty Reduction in Collaborative Bootstrapping: Measure and Algorithm", Proc. of ACL'03, 327-334.
  10. 改进的信源-信道模型在中文分词中的应用
    Ya-JJianfeng Gao, Mu Li and Chang-Ning Huang, "Improved Source-Channel Models for Chinese Word Segmentation", 41nd Annual Meeting of the Association for Computational Linguistics. Sapporo. Japan, July 7-12, 2003.
  11. Topic Analysis Using a Finite Mixture Model
    Hang Li and Kenji Yamanishi, "Topic Analysis Using a Finite Mixture Model", Information Processing & Management, 39(4), 521-541, (2003).
  12. Using Bilingual Web Data to Mine and Rank Translations
    Hang Li, Yunbo Cao, and Cong Li,"Using Bilingual Web Data to Mine and Rank Translations", IEEE Intelligent Systems, Vol. 18(4), 54-59, (2003)


分享到:
评论

相关推荐

    基于朴素贝叶斯的垃圾邮件分类

    在IT领域,文本分类是数据挖掘...通过合理地处理特征并调整参数,我们可以构建出高效且准确的垃圾邮件过滤系统。对于进一步的研究,可以探索如何结合其他机器学习方法,或者改进特征工程,以提高分类的精确性和鲁棒性。

    基于朴素贝叶斯算法的垃圾邮件分类方法研究

    朴素贝叶斯垃圾邮件分类方法研究 朴素贝叶斯算法是机器学习领域中的一种常用算法,近年来在垃圾邮件分类领域中的应用也逐渐增加。本研究论文详细介绍了基于朴素贝叶斯的垃圾邮件分类过程,并使用五折交叉验证法对...

    使用朴素贝叶斯过滤垃圾邮件数据集

    1. **贝叶斯定理**:根据贝叶斯定理,我们可以计算一个邮件属于某一类(垃圾邮件或非垃圾邮件)的概率。该定理指出,给定某些特征条件下,事件A发生的概率等于事件A发生且这些特征出现的先验概率,乘以这些特征出现...

    使用朴素贝叶斯过滤垃圾邮件样本

    在IT领域,机器学习是一种利用统计模型从数据中学习并进行预测或决策的热门技术。在实际应用中,朴素贝叶斯算法是机器学习中一个...在这个过程中,通过理解和应用这些概念,我们可以构建一个有效的垃圾邮件过滤系统。

    基于朴素贝叶斯的垃圾邮件分类(Matlab)

    【基于朴素贝叶斯的垃圾邮件分类(Matlab)】是一种常见的文本分类技术,用于识别和过滤掉电子邮件中的垃圾信息。朴素贝叶斯算法是基于概率理论的一种分类方法,其核心思想是假设特征之间相互独立,并且每个特征对...

    Python实现基于朴素贝叶斯的垃圾邮件过滤系统项目源码+操作说明(可用于毕设).zip

    基于python实现朴素贝叶斯的垃圾邮件过滤系统源码+操作说明.zip基于python实现朴素贝叶斯的垃圾邮件过滤系统源码+操作说明.zip基于python实现朴素贝叶斯的垃圾邮件过滤系统源码+操作说明.zip基于python实现朴素...

    朴素贝叶斯-垃圾邮件分类数据集

    每个样本可能是一封电子邮件的文本内容,而对应的标签(例如,0表示非垃圾邮件,1表示垃圾邮件)则用于训练朴素贝叶斯分类器。在Excel文件中,数据可能被组织成两列:一列是邮件文本,另一列是对应的类别标签。这样...

    基于python实现朴素贝叶斯的垃圾邮件识别过滤系统源码(95分以上大作业).zip

    基于python实现朴素贝叶斯的垃圾邮件识别过滤系统源码(95分以上大作业).zip 该项目是个人毕设项目源码,已获导师评审,评审分达到96分以上,都经过严格调试,确保可以运行!放心下载使用。 该项目资源主要针对...

    基于python实现朴素贝叶斯的垃圾邮件过滤系统源码+使用说明(高分项目).zip

    基于python实现朴素贝叶斯的垃圾邮件过滤系统源码+使用说明(高分项目).zip本资源中的源码都是经过本地编译过可运行的,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要...

    R语言朴素贝叶斯方法实现垃圾邮件的分类

    开发了针对文件按邮件的数据函数,以及手动实现了朴素贝叶斯分类方法,和最终结果的可视化。 数据中一共有6000多个邮件,其中三分之二为非垃圾邮件。 对R语言感兴趣的同学可以下载数据代码使用,数据处理部分...

    用python朴素贝叶斯实现垃圾邮件分类的数据集

    使用机器学习算法 用python朴素贝叶斯实现垃圾邮件分类的数据集

    python实现基于朴素贝叶斯的垃圾邮件过滤系统源码+使用说明(高分项目).zip

    python实现基于朴素贝叶斯的垃圾邮件过滤系统源码+使用说明(高分项目).zip本资源中的源码都是经过本地编译过可运行的,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要...

    机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类中的垃圾短信数据集

    机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类中的垃圾短信数据集。 朴素贝叶斯算法 输入:样本集合D={(x_1,y_1),(x_2,y_2)~(x_m,y_m); 待预测样本x; 样本标记的所有可能取值{c_1,c_...

    基于贝叶斯公式的垃圾邮件分类

    贝叶斯公式结合了先验概率(邮件是垃圾邮件的总体概率)和似然概率(给定单词出现时邮件是垃圾邮件的概率),从而计算出新邮件是垃圾邮件的概率。 R语言是一个强大的统计计算和图形生成工具,非常适合这种数据分析...

    贝叶斯垃圾邮件过滤

    **贝叶斯垃圾邮件过滤**是一种广泛应用于电子邮件系统的算法,其主要目的是通过分析邮件内容来判断是否为垃圾邮件。这种过滤方法基于统计学中的贝叶斯定理,它利用概率模型来识别邮件中的特征,从而决定邮件是否属于...

    贝叶斯垃圾邮件分类_垃圾邮件分类_

    总结来说,贝叶斯垃圾邮件分类是一种基于统计学原理的有效方法,通过Java编程可以实现一个高效且易于维护的分类系统。在实际应用中,可能还需要考虑其他因素,如动态更新概率模型、处理词汇变化和处理未知词汇等,以...

    朴素贝叶斯垃圾邮件代码

    朴素贝叶斯算法是一种基于概率的分类方法,广泛应用于文本分类,如垃圾邮件过滤。在这个项目中,我们看到的是一个使用朴素贝叶斯进行垃圾邮件识别的实例。下面将详细介绍这个过程及其涉及到的关键知识点。 首先,...

    朴素贝叶斯-垃圾邮件分类

    朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类的方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的...

Global site tag (gtag.js) - Google Analytics