最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.
对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBC)。决策树模型通过构造树来解决分类问题。
首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点,决策树便于使用,而且高效;根据决策树可以很容易地构造出规则,而规则通常易于解释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们单独处理。例如中文文本分类识别的时候,我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性,那么就单独处理。
这样做也符合贝叶斯概率原理,因为我们把一个词组看作一个单独的模式,例如英文文本处理一些长度不等的单词,也都作为单独独立的模式进行处理,这是自然语言与其他分类识别问题的不同点。
实际计算先验概率时候,因为这些模式都是作为概率被程序计算,而不是自然语言被人来理解,所以结果是一样的。
在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。但这点有待验证,因为具体的问题不同,算法得出的结果不同,同一个算法对于同一个问题,只要模式发生变化,也存在不同的识别性能。这点在很多国外论文中已经得到公认,在机器学习一书中也提到过算法对于属性的识别情况决定于很多因素,例如训练样本和测试样本的比例影响算法的性能。
决策树对于文本分类识别,要看具体情况。在属性相关性较小时,NBC模型的性能稍微良好。属性相关性较小的时候,其他的算法性能也很好,这是由于信息熵理论决定的。
朴素贝叶斯分类分为三个阶段:
第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。
原创不易,欢迎打赏,请认准正确地址,谨防假冒
相关推荐
自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感分类源代码自然语言处理中文情感...
本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科毕业设计——自然语言处理+NLP+中文文本分类实战——垃圾短信识别本科...
本科毕业设计项目——自然语言处理敏感文本识别与分类系统设计与实现 1.毕业设计 2.敏感文本分类程序实现 3.人工智能 自然语言处理技术 机器学习 4.训练数据通过 爬虫爬取 已存储于数据库中sample 表中 5.训练机器...
本项目是自然语言处理文本分类的一个实例---姓名性别分类。里面包含了原始数据,源代码,详细注释,可以通过有监督的学习通过读入数据,定义特征分类器,训练一个新的“朴素贝叶斯”分类器进行男女姓名的分类。具体...
Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论
总的来说,2018年的自然语言处理研究在文本分类和文本校对方面取得了显著进展,这得益于深度学习技术的广泛应用以及统计方法的不断深化。《统计自然语言处理》这本书则为理解这些进步提供了坚实的理论基础。通过阅读...
在这个特定的压缩包文件中,包含的是用于文本分类的训练数据集,这对于开发和优化自然语言处理模型至关重要。 首先,让我们详细了解一下这三个数据集: 1. **weibo_senti_100k.csv**:这个数据集来源于微博,一个...
4.2.2 基于自然语言处理分类新闻网站首页 12 4.2.3新闻中心界面 13 4.2.4用户管理界面的实现 13 4.2.5自然语言的分类使用 14 第5章 系统测试 16 5.1测试目的 16 5.2 测试的方法 16 5.3 测试结果 16
根据中国国家标准GB/T13745--92中的《学科分类与代码表》,计算语言学属于应用语言学的一个分支,而自然语言处理则属于计算机科学技术的范畴。这两个学科虽然在分类上有差异,但在研究对象和内容上有着紧密的联系。...
python自然语言处理结课项目,基于flask搭建的web系统 启蒙+提高 【 Anconda + python 3.7+mysql5.7 】,里面有 注册登录、主页面、新闻推荐、新闻分类、留言板、新闻问答系统、相似度计算和关系图、统计图、词云图等...
自然语言处理(NLP)是计算机科学领域的一个关键分支,主要涉及如何使计算机理解、解析、生成和操作人类语言。哈工大的智能技术与自然语言处理技术课程提供了一个全面的NLP学习路径,从基础到高级,涵盖了多个关键...
自然语言处理(Natural Language Processing, NLP)是计算机科学领域的一个重要分支,它涉及人工智能、计算机科学、语言学等多个学科,旨在使计算机能够理解和生成人类自然语言,从而实现人机之间的有效沟通。...
自然语言处理(NLP)是人工智能领域的关键技术之一,其核心目的是使人机交流变得更为自然、便捷。自然语言处理的发展历程可以概括为几个重要阶段:从20世纪50年代至70年代,自然语言处理的思想起源主要得益于图灵...
自然语言处理的基本任务包括分词、词性标注、句法分析、语义分析、机器翻译、自动摘要、文本分类、信息检索、自动问答、信息抽取和情感分析等。这些任务涵盖了语言理解的多个层次,从词汇层面到句子结构,再到篇章的...
在这个"自然语言处理课程设计--中文情感分类"项目中,我们将聚焦于一个核心任务——情感分析。情感分析是NLP中的一个重要应用,它的目标是从文本中提取出作者的情绪倾向,例如积极、消极或中性。 在这个项目中,...
【哈工大自然语言处理课件】是一份由著名教育家、哈工大博士生导师关毅教授精心编撰的自然语言处理(NLP)课程资料,涵盖了丰富的理论知识与实践应用,是NLP初学者乃至专业研究者的重要参考资料。这份课件在信息检索...
内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和...
这个压缩包“python自然语言处理实战pdf_dode.zip”包含了这本书的PDF文档以及与之配套的学习项目——"learning-nlp-master"目录,这是一个实际的NLP项目代码库。 自然语言处理(Natural Language Processing,简称...
《统计自然语言处理》是刘挺教授在哈尔滨工业大学讲授的一门课程,主要涉及的是自然语言处理(NLP)领域的核心理论与技术。NLP是计算机科学的一个分支,旨在理解和生成人类自然语言,使计算机能更好地与人类进行交互...