`
dengqsintyt
  • 浏览: 291243 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

数据挖掘-文本分类:特征选择方法总结

阅读更多

一、概念

二、特征选择方法总结

 

一、概念

   特征词选择和特征词权重

   1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

   常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

   

   2.特征词权重:每一个特征项的重要程度

   常见的算法:TF-IDF,TF的改进,信息熵的引用

 

   3.区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

 

二、特征选择方法总结

   1.文档频率

   词条的文档频率(document frequency)是指在预料中出现该词条的文档的数目。只有当某词条在较多的文档中出现时才被保留下来,DF值低于某个阈值的词条是低频词,将这样的词条从原始特征空间中移除,不但能够降低特征空间的维数,而且还有可能提高分类的精度。

    DF是一种最简单的词约简技术,由于具有相对于预料规模的线性复杂度,所以它能够容易地被用于大规模的语料特征选择中。

    缺点:对低文档频的特征项不可靠,而且不能说明词条和类别的相关性

   2.互信息

   在互信息算法中,采用计算特征词 t 和类别 c 之间的相关度:

   其中, A 为在类别 c 中特征词 t 出现的文档数; B 为在除了类别 c 的其他类别中特征词 t 出现的文档数; C 为在类别 c 中特征词 t 未出现的文档数; N 为所有类别中的文档数的总和。如果共有 m 个类别,那么每个特征词将得到 m 个相关度值,取这 m 个值的平均值作为每个特征词的权值,权值大的特征词被保留的可能性大。

    

   3. 信息增益

   信息增益 (IG) 是公认较好的特征选择方法,它刻画了一个词语在文本中出现与否对文本情感分类的影响,即一个词语在文本中出现前后的信息嫡之差。某个词语的信息增益值越大,说明它对分类的贡献就越大。信息增益的计算见公式:

   P(Ci) ,表示类别 Ci 出现的概率,其实只要用 1 除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去)。

   P(t) ,就是特征 t 出现的概率,只要用出现过 t 的文档数除以总文档数就可以了

   P(Ci|t) 表示出现 t 的时候,类别 Ci 出现的概率,只要用出现了 T 并且属于类别 Ci 的文档数除以出现了 T 的文档数就可以了

   缺点 :信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓 “ 全局 ” 的特征选择(指所有的类都使用相同的特征集合),而无法做 “ 本地 ” 的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

 

   4. 开方拟和检验方法 (CHI 统计 ) 

   开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否

 

   5. 潜在语义分析LSA

   LSA思想方法最初应用于文本信息检索领域有效地解决了同义词和多义词的问题,通过识别文本中的同义词, LSA将信息检索精度提高了10%--30%

   随着应用领域的不断拓展, LSI在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判断和预测等众多领域中得到了广泛的应用。(语义,降维)

 

  • 大小: 12 KB
  • 大小: 48.1 KB
  • 大小: 39.3 KB
分享到:
评论

相关推荐

    广东工业大学信工学院数据挖掘课件及复习资料.zip

    广东工业大学信息工程学院的这门数据挖掘课程显然涵盖了该领域的核心内容,旨在帮助学生掌握从海量数据中发现有价值信息的技术和方法。以下是根据提供的文件名推测出的课程知识点: 1. **第一章-引论(课件)** - ...

    大数据之数据挖掘课程:海量数据集挖掘 06-降维技术:SVD&CUR 共60页.pdf

    ### 大数据之数据挖掘课程知识点总结 #### 一、降维技术——SVD & CUR 在《大数据之数据挖掘课程》中,第6部分详细介绍了两种常用的降维技术:奇异值分解(SVD)与CUR分解。这些方法在处理大规模数据集时尤其有效...

    数据挖掘中的文本挖掘的分类算法综述.docx

    文本分类算法是文本分类的核心,常用的文本分类算法包括KNN文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法等。 本文首先对数据挖掘进行了概述,包括数据挖掘的常用方法、功能以及...

    文本特征选择方法

    文本特征选择方法在数据挖掘领域扮演着至关重要的角色。它是一种优化技术,旨在从大量原始文本数据中筛选出最有代表性和影响力的特征,以提高模型的性能和解释性。这一过程通常包括预处理、特征提取、特征筛选和评估...

    常用数据挖掘算法总结及Python实现pdf

    本资料"常用数据挖掘算法总结及Python实现pdf"是针对这一主题的深入探讨,旨在帮助读者理解和掌握各种常用的数据挖掘算法,并通过Python编程语言进行实际操作。 首先,我们要了解数据挖掘的常见步骤,包括数据...

    文本分类实验报告

    文本分类是数据挖掘领域的重要任务,它涉及到对文本数据的预处理、特征提取、模型训练以及性能评估等多个步骤。在本实验报告中,作者详细记录了进行文本分类实验的整个流程,包括数据获取、预处理、特征选择和模型...

    Python数据分析与可视化-教学大纲[6页].docx

    - 数据分析与数据挖掘的区别 - 机器学习与数据分析的关系 - 数据分析基本流程:数据收集、预处理、分析与知识发现、后处理 - Python在数据分析中的优势 2. **Python基础知识** - Python发展史 - Python安装与...

    Data-Mining.-Concepts-and-Techniques-3rd-Edition

    - **大数据挖掘**:随着数据量的增长,传统数据挖掘方法面临挑战。本书讨论了如何利用分布式计算框架(如Hadoop)和流式处理系统(如Spark Streaming)来处理大规模数据集。 - **文本挖掘**:针对非结构化文本数据的...

    SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

    - 特征选择与工程:选择合适的特征进行模型训练。 - 参数调优:找到最佳的模型参数配置。 - 实施与部署:将模型应用于实际环境中。 #### 各种机器学习算法总结 - **贝叶斯分类器**:基于概率理论的分类方法。 - **...

    sklearn实现基于TF-IDF的KNN新闻标题文本分类

    - Scikit-learn是Python中最受欢迎的机器学习库,提供了一系列高效、易于使用的数据挖掘和数据分析工具。 - 在这个项目中,`sklearn`被用于实现TF-IDF转换器以及KNN分类器。 3. **文本特征提取**: - 在文本分类...

    阿里巴巴交互设计实习生笔试题汇总.pdf

    根据给定的文件信息,我们可以总结出阿里巴巴交互设计实习生笔试题中的相关知识点: ### 自我介绍 - **重要性:**自我介绍是让面试官快速了解应聘者背景和个人特质的关键环节。 - **内容要点:** - 学校与学历:...

    大数据之数据挖掘课程:海量数据集挖掘 13-大规模机器学习 共59页.pdf

    根据给定的大数据挖掘课程资料,我们可以总结出以下关键知识点: ### 1. MapReduce - **定义**:一种编程模型及相应的实现框架,用于处理大规模数据集(通常是多TB甚至是PB级别的数据)。该模型利用分布式计算技术...

    数据挖掘--课程报告(关联规则、聚类等).docx

    这种方法简单有效,尤其适用于文本分类等应用场景。 在实验中,使用了J48(C4.5)和朴素贝叶斯两种算法进行比较。结果表明,在相同的样本数据上,两种方法的分类准确率都很高,但朴素贝叶斯在此实验中的表现...

    大数据实验报告总结体会-大数据挖掘流程及方法总结.pdf

    3. **数据挖掘**:根据数据的特性和挖掘目标,选择合适的挖掘算法,如神经网络、遗传算法、决策树、粗集方法等,对预处理后的数据进行分析。 4. **结果分析**:最后,对挖掘结果进行解释和评估,将其转化为用户能...

    数据挖掘与数据分析应用案例 数据挖掘算法实践 基于Python的卷积神经网络的文本分类.docx

    ### 数据挖掘与数据分析应用案例:基于Python的卷积神经网络文本分类 #### 一、文本分类概述 文本分类是自然语言处理(NLP)领域的一项重要技术,它涉及到将文本分配到预定义的类别中。这一过程对于信息检索、情感...

    人工智能学习算法分类.pdf

    - 文本挖掘中的LDA是一种主题模型,最大熵模型用于文本分类,关键词提取方法如tf-idf基于词频逆文档频率,其他方法如bm25、textrank、pagerank等也有类似功能。 - 词法分析涉及分词(如HMM、CRF)、词性标注和命名...

    数据仓库与数据挖掘实验报告-.docx

    #### 第四章 数据仓库和数据挖掘总结 **4.1 关联规则总结** 关联规则分析揭示了顾客购买行为之间的关联性,例如购买奶油的同时也倾向于购买面包。 **4.2 决策树总结** 决策树分析结果表明,兴趣、父母的文化程度...

    人工智能-数据挖掘-基于WEB日志的数据挖掘.pdf

    3. 数据挖掘:确定挖掘任务(如分类、聚类、关联规则或序列模式),并选择适合的算法。 4. 后处理:解释和评估发现的知识,将其转化为可操作的信息。 三、基于WEB日志的数据挖掘 WEB日志包含了用户访问网站的行为...

    数据挖掘-网页数据集

    数据挖掘在网页数据集的应用中,常见的技术包括自然语言处理(NLP)用于理解文本,链接分析用于理解网页之间的关系,以及聚类和分类算法用于将网页归类或发现隐藏的模式。此外,还可以运用机器学习方法,如决策树、...

Global site tag (gtag.js) - Google Analytics