`
lzj0470
  • 浏览: 1272696 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
阅读更多

文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。

文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。

目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)

特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。

随着网络知识组织、人工智能等学科的发展,文本特征提取将向着数字化、智能化、语义化的方向深入发展,在社会知识管理方面发挥更大的作用。

二、文本特征向量

经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,…Tn) 及其权值Wi 代表目标信息,在进行信息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。

D为一个包含m个文档的文档集合,Di为第i个文档的特征向量,则有

D={D1,D2,…,Dm}, Di=(di1,di2,…,din),i=1,2,…,m

其中dij(i=1,2,,m;j=1,2,,n)为文档Di中第j个词条tj的权值,它一般被定义为tjDi中出现的频率tij的函数,例如采用TFIDF函数,dij=tij*log(N/nj)其中,N是文档数据库中文档总数,nj是文档数据库含有词条tj的文档数目。假设用户给定的文档向量为Di,未知的文档向量为Dj,则两者的相似程度可用两向量的夹角余弦来度量,夹角越小说明相似度越高。相似度的计算公式如下:

通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。

三、 基于统计的特征提取方法(构造评估函数)

一、各种流行算法

这类型算法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定文本特征提取效果的主要因素是评估函数的质量。

 

1TF-IDF

单词权重最为有效的实现方法就是TF*IDF, 它是由Salton1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力。TF*IDF 的指导思想建立在这样一条基本假设之上: 在一个文本中出现很多次的单词, 在另一个同类文本中出现次数也会很多, 反之亦然。所以如果特征空间坐标系取TF 词频作为测度, 就可以体现同类文本的特点。另外还要考虑单词区别不同类别的能力, TF*IDF 法认为一个单词出现的文本频率越小, 它区别不同类别的能力就越大, 所以引入了逆文本频度IDF 的概念, TF IDF 的乘积作为特征空间坐标系的取值测度。

TFIDF 法是以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重,即

其中, Wi表示第i个特征词的权重,TFi(td)表示词t在文档d中的出现频率,N表示总的文档数,DF(t)表示包含t的文档数。用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其他文档中出现的次数越少,则表明该词对于表示这篇文档的区分能力越强,所以其权重值就应该越大。将所有词的权值排序, 根据需要可以有两种选择方式:( 1) 选择权值最大的某一固定数n 个关键词;( 2) 选择权值大于某一阈值的关键词。一些实验表示,人工选择关键词, 47 个比较合适, 机选关键词1015 通常具有最好的覆盖度和专指度。

TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TFIDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权 ,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。

此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

2、词频方法(Word Frequency)

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值的词删除,从而降低特征空间的维数。这个方法是基于这样一个假设,即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为,有时频率小的词含有更多的信息。因此,在特征选择的过程中不宜简单地根据词频大幅度删词。

3、文档频次方法(Document Frequency)

文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计一算它的文档频次,并且根据预先设定的阑值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集,计算复杂度较低,能够适用于任何语料,因此是特征降维的常用方法。

在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。DF 是最简单的特征项选取方法, 而且该方法的计算复杂度低, 能够胜任大规模的分类任务。

但如果某一稀有词条主要出现在某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,这样就会对分类精度有一定的影响。

4互信息(Mutual Information)

互信息衡量的是某个词和类别之间的统计独立关系,某个词t和某个类别Ci传统的互信息定义如下:

互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉嫡近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。

特征项和类别的互信息体现了特征项与类别的相关程度, 是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率, 这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,特征t的互信息越大,说明它与该主题的共现概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。

互信息计算的时间复杂度类似于信息增益, 互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。

实验数据显示,互信息分类效果最差,其次是文档频率、CC 统计,CHI 统计分类效果最好。

对互信息而言,提高分类精度的方法有:1) 可以增加特征空间的维数,以提取足够多的特征信息,这样就会带来了时间和空间上的额外开销;2) 根据互信息函数的定义,认为这些低频词携带着较为强烈的类别信息,从而对它们有不同程度的倚重. 当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3 ) 的词条,他们较低的文档频率导致了他们必然只属于少数类别. 但是从抽取出来的特征词观察发现,大多数为生僻词,很少一部分确实带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词.

5期望交叉熵(Expected Cross Entropy)

交叉嫡与信息量的定义近似,其公式为:

交叉嫡 ,也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离,词汇w的交叉嫡越大,对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关, P ( Ci | w )就大,P( Ci) 又很小的话,则说明该特征对分类的影响大。

交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。

6二次信息熵(QEMI)

将二次熵函数应用于互信息评估方法中,取代互信息中的Shannon熵,就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性,是一个

分享到:
评论

相关推荐

    新能源汽车课题研究.ppt

    1、选题的背景和意义 2、新能源汽车的概念 3、新能源汽车的种类 4、新能源汽车的发展前景 5、国内外研究成果

    如何申报课题,讲述课题的申报需要注意的事情

    - **研究背景与意义**:阐述课题产生的背景,分析其在学科发展和社会需求中的重要性。 - **研究内容与目标**:详细描述研究的具体内容,明确要解决的关键问题,设定可实现的目标。 - **研究方法与技术路线**...

    PLC课题设计

    #### 一、设计背景及目标 ##### 设计条件: 本课题设计基于单钩龙门式10吨起重机为基础,其动力电压为380V,控制电压为220V。系统需具备大车、小车控制以及必要的保护措施。 ##### 控制要求概述: 1. **大车行走...

    大商所研究中心合作课题申请书大商所研究中心合作课题申请书.docx

    3. **课题组成员简历**:列出每个成员的教育和工作背景,已发表的学术成果,以及他们之前主持或参与的项目,以证明团队的专业能力和经验。 通过这份申请书,大商所研究中心能够评估申请课题的科学性、创新性和可行...

    课题立项申请书范文格式样本模板.docx

    根据课题立项申请书的格式样本模板,我们可以将其分为九个部分:目录、课题背景与意义、国内外研究现状及发展趋势、研究目标与任务、研究内容与方法、预期成果与创新点、课题实施计划与进度安排、经费预算与使用计划...

    2012年XX市金融学会重点招标课题申报表(1).zip

    1. **课题简介**:这部分会概述拟投标课题的基本信息,包括课题名称、研究领域、主要研究内容、预期解决的问题等。 2. **研究背景与意义**:详细阐述课题研究的理论背景、实践意义,以及当前相关领域的研究现状和...

    研究课题报告ppt模板.rar

    3. 引言:简述研究课题的背景、目的和重要性,以便听众理解研究的必要性和目标。 4. 文献综述:概述前人在此领域的研究,分析其不足,为自己的研究提供理论基础。 5. 研究方法:详细介绍所采用的研究设计、实验...

    双减背景下中华优秀传统文化与学科教学深度融合的理论与实践研究课题开题报告.pdf

    【标签】中的"报告"、"开题"和"研究"表明这是一个关于教育研究的初期阶段,即开题报告,主要涉及对研究问题的定义、背景分析和现有研究的概述。 【部分内容】详细阐述了课题的各个方面: 1. **问题的提出**:随着...

    2012年XX市金融学会重点招标课题申报表.zip

    1. **课题概述**:包括课题的名称、研究背景、目标、意义以及预期成果。 2. **研究内容**:详细阐述拟研究的具体问题,涉及的金融理论和实践领域。 3. **研究方法**:介绍将采用的分析工具、数据来源、实证研究方法...

    海南省哲学社会科学规划课题申请书学科分类课题名称课题类别.docx

    4. **申请人(课题负责人)**:是项目实施和管理的主要负责人,需要具备相应的学术背景和研究能力。 5. **课题设计论证**: - **研究现状述评**:申请人需概述当前研究领域的最新进展,分析存在的问题和空白。 - ...

    历届创新大赛一等奖课题 (2).docx

    - **背景:**本课题针对香芋的种植技术进行研究。 - **关键点:** - 香芋的生长习性与需求。 - 不同栽培条件对香芋产量的影响。 - 提升香芋产量的方法和技术。 - **应用领域:**农业科学、作物栽培学。 - **...

    创新型课题QC小组成果报告模板.doc

    选择课题应简洁、明白,介绍课题背景、问题提出、课题提出等。 八、活动方案 活动方案是报告的方案部分,要求黑体、小三号。活动方案应简洁、明白,介绍小组活动方案与进度完成情况表等。 九、设定目标及目标可行...

    2020年省级课题开题报告.pdf

    【省级课题开题报告概述】 省级课题开题报告是学术研究的初始阶段,它涉及到对研究主题的深入探讨,明确研究目标,确定研究方法,并预估可能遇到的问题和解决方案。在2020年的陕西省教科研课题管理系统的设计与实现...

    八年级道德与法治备课组文山州中小学生研究性学习课题申请书.pdf

    研究性学习课题申请书概述 根据提供的文件信息,本文将对八年级道德与法治备课组文山州中小学生研究性学习课题申请书进行详细解析,并从中提取相关知识点。 一、研究性学习课题的基本概念 研究性学习是一种新的...

    市区级课题结题需交材料清单.doc

    中期报告是在课题进行到一定阶段时提交的,概述了前期工作进展,包括已取得的成果、遇到的问题、解决策略以及下一步的工作计划。它有助于监督和调整研究方向,确保课题按预期进行。 5、实施方案: 实施方案详细描述...

    课题申报书各模块撰写方法详解.doc

    选题价值分析时,理论价值需基于逻辑分析的理论背景,应用价值应揭示实践中亟待解决的问题。 3. **研究内容撰写** - 研究内容需明确研究对象、总体框架、重点、难点和主要目标。研究对象源自题目分析或选题领域...

    如何撰写科研课题结题报告.doc

    1. 课题提出的背景:这部分需要阐述选择该课题的理由,可以包含理论和实际的驱动力,以及当前研究领域的空白和创新点。 2. 课题研究的意义:强调课题研究的理论贡献和实践价值,这有助于证明研究的必要性。 3. ...

    常用的课题研究报告的基本方法.doc

    1. **背景**:背景部分需要概述当前教育领域内的发展趋势、新的教育理念和技术等,它们如何改变了现有的教育环境,以及为什么这些问题现在变得尤为重要。这部分应当指出研究课题是在怎样的大环境下提出的,比如信息...

    实践课题报告撰写规范

    - 第一章介绍课题背景、相关技术以及开发工具的选择。 - 第二章详细分析系统的需求,包括用户需求和功能性需求。 - 第三章阐述系统的设计方案,包括模块设计、数据库设计等。 - 第四章描述系统的实现过程,重点...

Global site tag (gtag.js) - Google Analytics