基于关键短语的文本分类研究
刘华
(暨南大学 华文学院/海外华语研究中心,广州 510610)
摘 要: 文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
关键词: 文本分类;关键短语;文本表示;特征项
Text Categorization Based on Key Phrases
Liuhua
(College of Chinese Language and Culture, Jinan University, Guangzhou, 510610)
Abstract: Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases' advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category.
Key words: text categorization; Key Phrases; text representation; feature
文本分类的理论研究比较成熟,而且也出现了一些初步的应用系统。文本分类的研究主要围绕算法方面进行,如特征提取、权重计算、分类模型的算法的分析与改进。相对来说,文本分类需要的资源方面研究的较少,如文本表示中特征项的粒度选择和获取,特别是概念、短语、词和字究竟哪个更适合作为文本表示的特征项的问题缺乏系统的研究。我们认为文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,文本分类的改进应该专注于提高特征项的完整独立程度。
相对于字、词和N元组,关键短语(Key Phrases)结构稳定、语义完整、统计意义较强,更有利于表达文本内容特征,提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理据;对关键短语进行了界定;通过抽取网页上专家标引的关键词构建了共32万词条的含关键短语的大词语表;实验证明在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
1 文本分类算法改进的分析
基于统计的分类算法是主流,主要包括以下几种分类模型:相似度模型(Rocchio、K-近邻)、概率模型(贝叶斯)、线性模型(LLSF、SVM)、非线性模型(决策树、神经网络)、组合模型。对于这些分类算法,国内外很多研究者进行了客观评测(Yang,1999;Joachims,1998;He,2000;Tsay,2000;庞剑锋,2001;王灏,2003;李保利,2003;周雪忠,2003)。
很多实验证明无论分类算法如何改进,分类效果总难以提高,而且众多分类算法在训练集充分的情况下,几乎没有什么区别。在周雪忠的实验中,统计数据表明词频特征表示的TFIDF/Rocchio的分类准确率在测试集相对充分时高于SVM,在特征表示和分类器相结合的实验中,TFIDF/Rocchio(W)取得了最好的效果,最后他得出结论,采用相对高维的特征表示(如词)和简单的分类方法(如TFIDF/Rocchio)即可达到理想的分类性能要求。另外,Yiming Yang和Xin Liu(1999)对五种文本分类方法进行了受限的统计显著性测试研究:支持向量机(SVM)、k-近邻(KNN), 神经网络(NNet)、线性最小平方拟合(LLSF)映射和朴素贝叶斯(NB)。结果表明当训练集平均,每个类中的正例数目较少时(少于10),SVM、KNN和LLSF比NNet、NB显然要好,而当处理大分类(超过300个正例样本)时所有的分类方法性能相当。这些都证明在算法改进提高分类效果的基础上,文本分类效果的进一步提高已经不能单纯依靠算法了。
在基于统计的文本分类方法中,向量空间模型基于这样一个关键假设:文章中词条出现的顺序是无关紧要的,他们对于文档的类别所起的作用是相互独立的。但实际上,句子中词条之间远不是独立的,同样的词条集合,组合顺序不同,其表达的含义也不同。由此,向量空间模型一个很大的缺陷在于它没有考虑文本上下文间的语义关系和潜在的概念结构(如词汇间的共现关系、同义关系等),特征项之间独立性不够,不能充分反映出文本总体面貌。在概率模型中,也存在类似的贝叶斯假设,即特征之间被假定为是相互条件独立的。
正是因为从根本上难以克服贝叶斯假设和向量空间模型的先天缺陷,因此,基于其之上的很多算法准确率都不高。最基本最有效的改进应该是从向量空间模型和概率模型的文本表示入手,提高特征项之间的独立性,比如用语义概念、词汇之间的互信息或搭配来满足特征项的独立性假设。例如,"医药"词语只会归类到"医药" 类,"板块" 词语则倾向于归入到"地理"类,"医药板块"短语语义更独立完整,更适合表示文本内容,可准确分到"经济_股市基金"类。
这在汉语中体现得尤为明显。由于汉语是语义型语言,和英语相比,更加讲究意合,形式化程度较低,符号之间的搭配受规则限制较少,位置灵活自由,受潜在语义的制约。因此,向量空间模型和贝叶斯假设的先天缺陷可能还要放大些,在英语中表现较好的统计方法在汉语可能还要打些折扣。
既然众多实验证明了文本分类改进的方向不在算法上,统计算法难以从根本上克服贝叶斯假设和向量空间模型的先天缺陷。因此,我们认为文本分类的改进应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项。文本分类的改进应该专注于提高特征项的完整独立程度。
目前,文本分类中表示文本特征的特征项包括字、词、N元串、短语和语义概念。从理论上来说,应该是长的短语(句法级)优于词(词语级),语义概念(语义级)优于短语。但由于目前自然语言处理水平的限制,多数信息处理的应用系统,如文本分类和信息检索系统,采用词作为特征,少见的系统采用N元组(n-gram)(戴保存,2000;宋枫溪,2004;周新栋,2005,王映,2005),目前的结论倾向于认为以N元组为特征项比以词为特征项的分类效果基本相近或有所下降。O.Zamir也通过实验说明了在英语中短语由于其"固定性"和"有序性"而优于固定长度的低价N元字符串;也有一些系统采用字作为特征(曹素丽,1999;王梦云,2004),但这只会提高速度,不会提高准确度;还有一些则利用语义词典(Hownet、Wordnet或同义词词林)进行特征的语义概念表示(战学刚等,2000;李莼,2003;党齐民,2004;徐建斌,2005)或进行潜在语义索引(林鸿飞,2000;曾雪强,2004)和语义SVM表示来改善分类效果(代六玲,2004),但语义资源获得较难,覆盖度不够,而且算法复杂度较高。
总的说来,相对于字、词和N元组,短语结构稳定,具有一定的凝固性;在大规模真实文本中具有一定的流通度,并非临时性的组合,可重用性强,具有统计上的意义;表意完整单一、所指明确,在意义上有一定的完整性和专指性。和语义概念相比,短语获得比较容易。因此,短语更适合作为文本分类的特征项,有利于表达文本内容特征。
2 短语优势的理据
在语言学、认知心理学和言语习得、计算语言学等方面,我们可以找到短语优势理论上的依据。
2.1 语言学上关于"词组本位"的论述
朱德熙先生明确提出了"词组本位"的思想,认为语素和词、短语、句子这三级语法单位中,语素、词、短语都是组成关系,即语素组成词,词组成短语,而短语和句子则是实现关系。汉语三级语法单位形式上存在连续性,没有天然分隔界限,在构造上基本采用相同模式。短语处于静态单位(语素、词)和动态单位(词和短语结合形成的小句和句子)的交接处(吕叔湘),在内部结构上,短语和词发生关系,在外部功能上则和句子关系密切。短语兼具结构单位和功能单位双重角色。选择短语作为语法描述系统的切入点,对词的属性判断可以直接在构成短语时得到检验,对句子的分析理解也可转化为对短语的层层剖析。短语本位语法体系以短语构造规律的研究辐射对词和句子性质的探求,理顺了三级语法单位间的关系。
2.2 计算语言学上的"短语方法"
乔姆斯基认为人的语言知识的基础部分包括语法规则和词典两个部分(Chomsky,1965)。近年来,计算语言学家认识到不能把语言知识严格地分为词典和语法规则两部分。(Wilensky,1984)提出了"短语方法",提出把短语和词一样放到词典中,Zernick和Dyer(1987)则主张把能产的和非能产的短语都放到词库中,甚至主张不要语法规则,用短语库代替语法规则。机器词典中除了收入普通的词之外,还需要收入一些较凝固的短语,如世界著名的机器翻译公司SYSTRAN的汉英机器翻译系统的词典规模达到60万,其中就收入了大量的短语(Yang,J. & Gerber,L.,1996)。
短语的"内部结构比较稳定,往往作为一个整体和句子中的其它成分发生作用,并且它的构造原则和句子的构造原则也基本一致"(周强,1997)。在计算语言学界,目前的一个主要领域是对短语的研究,比如短语的自动划分和标注或者组块分析。
2.3 认知心理学上的"语块"与"长串切分"
1956年Miller指出短时记忆的容量是7±2个单位,这就是记忆广度( chunk)。语块被看作是记忆的单位,它因人们认知结构和以往经验的不同而有大有小。虽然短时记忆容量很小,但人们可以借助自己的已有知识和经历对信息进行组块,大脑采取最大限度扩大存储单位的方法,即采用长串切分的方法,使得信息迅速、高效地编码,以语块形式储存的信息也便于日后检索和提取,这便是记忆的组块效应。
认知心理学家也从传统的语义学所定义的"词位"角度进行研究,认为语言中词和短语的整体性识别容易形成反应模式。Freeddle(1979)的研究证明,在模式反应中语言反应时间并不随单位的长度增加而增加。Osgood和Hoosain(1974)的研究也说明,熟悉的复合名词的识别速度与同样长度和频率的单词识别速度相同。因此,在相同反应时间控制下,加大识别单位的长度,更有利于语言理解过程的进行。
在言语习得中,"词汇短语" 是"一串作为整体储存在脑中的词,可以以预制板块的形式被提取和使用,其形式可以原封不动,或是稍作改变" (Willis,2000)。 研究发现,在母语学习者的言语表述中很大一部分是词汇短语,词汇短语对语言学习者语言的流利度和地道性起着重要作用(Skehan,1999;Pawley、Syder,1983;Widdowson,1989;Wong Fillmore,1976)。
3 关键短语的界定和获取
3.1 关键短语的界定
简单地说,关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。例如,常见的虚词性成分(如"总而言之")的文本表示功能较弱,而一些领域性强的体词性成分(如"封闭式基金")则文本表示功能较强。具体地说,可以从三个角度来界定关键短语:
[1] 结构上:
结构较稳定,具有一定的凝固性。
[2] 语义上:
表意完整单一、所指明确,在意义上有一定的完整性和专指性。
[3] 统计上:
在大规模真实文本中具有一定的流通度,并非临时性的组合,可重用性强,具有统计上的意义。
从关键短语的定义及其三个界定以及词与短语的界限模糊性来考虑,我们定义的关键短语是包括短语和词的,只不过由于"强文本表示功能"和"语义的完整性和专指性"的限定,词占的比例较小。
当然,上面三个界定还需具有可操作性,我们下文将会利用文本分类的特征提取方法提取和聚类关键短语,进一步对关键短语作出形式化与定量化的界定。
3.2 关键短语与短语
关键短语当然是短语。但通常所说的短语范围很广,包括三类:自由短语、固定短语和类固定短语(或半固定短语)。自由短语多是一些临时性的组合,如"群众的智慧、听不明白、讨论问题、所提的意见、开会前、这几个"等,通常也叫非固定短语。这些短语中的成分只要符合语义和句法上选择性的要求,即可自由替换,但在真实文本中的统计意义不强,用它们来表示文本特征显然并不适合,因此,自由短语首先被排除在关键短语之外。
固定短语的内部构成成分相对稳定而不能随意替换,也可看作是短语化了的词,主要是成语,还包括口语色彩较浓的惯用语,如"闭门羹、露马脚"。它们一般都收入进了词表。固定短语,如成语和惯用语,大多古已有之,多出自古代的作品、故事传说(走马观花、刻舟求剑)或现当代的固定搭配(百花齐放、力争上游、露马脚)。它们一般具有表意的双层性特点,其整体意义和字面意义不一致,使人产生联想,运用起来能收到生动、形象、言简意赅、耐人寻味的修辞效果。这显然也不符合关键短语的表意完整单一、所指明确的特点,基本上也被排除在外。
还有一些介于二者之间的,这些处于模糊地带的半固定短语,或者称之为词语搭配(collocation)或词汇化短语(lexical phrase),如"可视电话、社会效益、规章制度、浮动利率"等,这些组合有自己的语法结构,也可以用规则加以描述。它们在被翻译成另一种语言时,经常不能用词对词翻译的方式,说明这些短语在结构上具有一定的凝固性,在意义上有一定的完整性和专指性。
半固定短语正是我们需要重点关注的对象。和词、固定短语相比,半固定短语具有更强的语义单一性,往往语义结构稳定,没有歧义,能够更好地表达或指向语义概念。相反,词则灵活性更大,语义结构不够稳定,往往含有歧义。和自由短语、分句或句子相比,半固定短语又具有结构稳定的优势,而且具有统计学上的意义。半固定短语不仅具备自由短语、分句或句子所不具有的稳定性,而且具备词、固定短语所没有的语义单一性,很适合表达文本内容特征。
命名实体、本体、术语的基本特征都是领域相关性,语义专一完整、结构固定,它们都是关键短语的一部分。
在情报学上,主题词又称叙词(即正式主题词),是在标引与检索档案时,主题词表中规定用于表达档案主题概念的词语 。文献标引中关键词是指出现于论文标题,摘要或正文中,对表征论文主题内容具有实际意义的词语。关键词是一种非标准化的自然语言,是非正式主题词。从二者定义来看,它们的主要特征也是领域(主题)相关性。根据我们对关键短语的界定,也应该是关键短语的一部分。而且,文献标引中的关键词正因为其是一种非标准化的自然语言,与命名实体、本体、术语和主题词的严格科学性和固定来源不同,它来源很广,数量很多,将会是关键短语主要的构成来源。
3.3 关键短语的获取
目前国内外有许多基于规则、统计或规则统计结合的短语发现方法,如CHURCH、赵军、周强、孙宏林、孙茂松、黄昌宁、李素健等。主要用到的方法包括:类词语切分边界确定的,基于HOWNET、知识图、最大熵、SVM、决策树、神经元网络或隐马尔科夫模型的,统计与错误驱动相结合的,等等。在词语的关键程度计算(文本分类中的权重计算)方面也提出了一些算法,如Bootstrapping、互信息、TFIDF、最大熵,等等。
目前,我们主要通过大规模地抽取门户网站网页上专家标引的"关键词"来获得原始的关键短语。"关键词"是对一个网页主题的描述词语,是文本主题表示功能强的词语,多为短语,基本符合我们对关键短语的定义。一般一个网页约三个关键词,例如一篇题为《安然高官仍受调查 前主席秘书承认犯内部交易罪》网页的关键词为"安然 内部交易罪"。这些词语往往结构固定、语义完整,是领域中的关键短语,如"保修证明书、手机操作系统、精确轰炸"。
抽取时只针对网页中主题性的"关键词"链接,如"<meta name="keywords" content="安然 内部交易罪">",并非标题性的链接,如"<meta name=keywords content="萨达姆辩护律师借口伊拉克骚乱要求推迟复审">"(主题性和标题性的链接在网页中很容易区分,在网页的不同位置)。而且,抽取后还需利用"长度+频次"的方法进行排错处理,方法如下(以经济类抽取的关键词为例):在17058个词语中,词次大于或等于4的词语,由于是多次出现,避免了笔误、超常词语或标题性句子(如"虐人"、"萨达姆辩护律师借口伊拉克骚乱要求推迟复审")等偶尔出现的出错情况,百分之百正确。词次小于4特别是词次为1的词语,有一些是上面提到的笔误、超常词语或标题性句子,但比例很小,在4079个词语中总共发现了11个,大多是形如"萨达姆辩护律师借口伊拉克骚乱要求推迟复审"这样标题性的小句,词次都小于等于2(基本上为1)。因此,对从关键词中抽取的所有类的词语,我们只对词次小于等于2的词语进行了排错,结果表明错误率等于0.25%。
超大规模层级分类语料库时间跨度为4年(2002-2005),约60万个网页,6亿字, 15个大类,层级类别体系最深为四级,如"科技_数码_视频_数字电视",类目总共244个。从60万个的57万个网页中(3万为部分测试集)抽取出其中已标注的关键词,总共229237个词条,按原来网页的主题属性存储进词表,形成15个大类的领域词表(按层级小类形成244个领域词表)。
虽然这些"关键词"文本表示功能较强,但由于网站标引的非严格性,仍然需要结合关键短语的定义,利用文本分类中的特征选择方法进行进一步的筛选。
公式一:训练时,关键词在类中的权重计算公式(陈克利,2003)
其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数; ,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n >= 1。
由于无法进行召回率的计算,只计算了准确率。以经济领域为例,分别取聚类后(32万底表,n=3)的前1000、2000、3000、4000、5000个词语,人工进行评测,但这种人工评价方法主观性较强。评价结果如下表:
表1 准确率
领域 正确词数 抽取到的总词数 准确率
经济 962 1000 96.2%
1916 2000 95.8%
2870 3000 95.6%
3814 4000 95.3%
4737 5000 94.7%
4 基于关键短语的文本分类实现
4.1 分类算法选择
面对众多的分类算法,选择一个适合自己的算法是个必须考虑的问题。考虑到我们面对的是大规模实时更新的网页语料,分类算法的速度至关重要,简便快捷是其首要条件。
从上面第一节的分析可以看到,训练集充分和高维特征表示是分类高性能的关键(周雪忠,Yiming Yang、Xin Liu),文本分类的关键在于如何满足向量空间模型和概率模型的独立性假设。实际上,这都是文本表示的问题。相对于词,关键短语是复杂特征项,包含更丰富的语言学信息,如句法搭配、语义制约,自足性、独立性更强;充分的6亿字语料集(训练集5.7亿),则更能保证关键短语的出现及其出现语境,部分解决数据稀疏问题。二者都有助于文本表示的合理有效。
考虑到上面的因素,本文采用高维的关键短语特征项结合简单的VSM相似度计算的分类方法进行文本分类。VSM相似度判定采用夹角余弦法。
4.2 训练集、测试集和测试方法
语料来自上文提到的超大规模层级分类语料库,共6亿字,分为15个大类,244个层级小类,约60万篇XML文档。
表2 15类语料
类别 文件数 类别 文件数 类别 文件数 类别 文件数
游戏 22843 旅游 18471 汽车 21745 教育 24405
经济 40115 文艺 14248 体育 96120 生活男女 19382
科技 53126 时政_国际 59130 娱乐 23905 时政_社会 42559
房产 19573 时政_国内 119695 时政_军事 21743 总计 597060
训练集类别构成基本上同比例等于总语料类别,共约57万篇XML文档。
测试集源于同样的语料库,由于训练集太大,层级小类和兼类需要人工校对,工作量很大,也难以保证校对的客观性和一致性。因此,测试只采用了约3万篇,和训练集的比例约20:1。测试语料有部分已经人工校对,2862篇文档已标记兼类,约占总测试集的十分之一。分类产生兼类时,这二类往往都可以作为文档的类目,较少存在主次之分。
测试时采用如下方法打分:
表3 测试打分方法
专家分类 系统分类 得分 专家分类 系统分类 得分
K1 K1 1 K1,K2 K2 0.7
K1 K1,Kx 0.85 K1,K2 K1,Kx 0.7
K1 Kx,K1 0.7 K1,K2 Kx,K2 0.55
K1,K2 K1,K2 1 K1,K2 Kx,K1 0.4
K1,K2 K2,K1 0.85 K1,K2 K2,Kx 0.4
K1,K2 K1 0.85
其中,K1代表专家分类的第一个大类,K2代表专家分类的第二个大类,Kx代表分类系统产生的其它分类结果。
测试量化指标采用准确率(P)、召回率(R)、综合分类率(F1)及其微平均和宏平均的测试参数(限于篇幅,测试参数的详细解释及计算公式请参考SEWM2005公布的中文网页分类评测指南,网址:"http://www.cwirf.org/Evaluation/CCT.html")。
4.3 分类算法实现
本文采用高维特征项结合简单的VSM相似度计算的分类方法(下称为SIM)进行文本分类。分类时采用左向最大匹配法切分,未进行未登录词识别和消岐处理。词频统计时并未利用HTML位置标记进行加权,只对标题词语计数乘以3。
训练时,关键词在类中的权重计算公式采用公式一。
公式二:测试时,关键词在文档中的权重计算公式(陈克利,2003)
其中, , 是类 含有的所有词的次数之和, 是词i在类 出现的次数; , 表示文本d含有的所有词的次数之和, 是词i在文本d中出现的次数; ,其中m为类别数; 表示训练语料中出现词 的次数,N是训练语料中所有词出现次数之和;n >= 1。
公式三:相似度计算,采用夹角余弦法
5 基于关键短语的分类结果分析
如上文所述,本分类系统的主要特点是从向量空间模型和概率模型的文本表示入手,试图提高特征项之间的独立性,使用关键短语来满足特征项的独立性假设。
一般分词采用的底表是通用分词系统的底表(下称8万常用词语表),较少关键短语,或者没有专指性强区别度高的关键短语。我们构建的大词语表包含大量关键短语(下称32万词语表)。
我们分别采用8万常用词表和32万词语表对语料切分,根据第四节的方法训练得到各自的类特征向量。基于8万常用词表而构建的类特征向量的特征项主要是词,以词作为文本表示的特征;基于32万词语表而构建的类特征向量的特征项则主要是关键短语,以关键短语作为文本表示的特征。最后采用第四节的方法进行文本分类。
在该对比实验中,训练集和测试集、训练方法和测试方法、测试平台都一样,只有作为文本表示的特征项(词和关键短语)是变量,我们对比实验的目的也就是力图通过文本分类来证明关键短语比词更适合作为文本表示的特征。
下表是对比测试的结果。"大类"表示自动分类时只分到大类,"层级分类"表示自动分类时分到详细的小类,如"经济_证券资讯_外汇市场"。
表4 特征项(词、关键短语)对分类影响的总体比较
大类 层级分类
微平均 宏平均 微平均 宏平均
P=R=F P R F1 P=R=F P R F1
词(8万) 89.7 81.9 85.3 82.6 77.8 84.1 70.7 73.4
关键短语(32万) 92.8 88.6 88.7 88.1 92.8 89.6 78.1 81
差 3.1 6.7 3.4 5.5 15 5.5 7.4 7.6
从表中可以发现,大类分类效果微平均只提高了3.1%,宏平均F1值则提高了5.5%。但特征本身(词语表)对于层级小类的影响较大,其中宏平均F1值提高了7.6%,微平均则提高了15%。
对于大类和层级小类的提高幅度的差异,原因分析如下:
在进行大类训练时,训练集很大,而进行层级小类训练时,训练集则显著下降,类别之间也不均匀,有的类别训练文本数只有几十个。因此,大类训练时即使只是基于8万词语表切分结果,训练效果也影响不大;而层级小类训练时,由于受训练量和特征粒度的双重影响,因此差别较大。
当进行大类分类时,由于各大类之间的相似度较小,8万通用词表中的特征项(词)已经足以区别开大类了。例如,体育类特征项"球队、比赛、冠军……"和经济类的特征项"公司、市场、利润……"都是8万通用词表中的词,是领域通用词,多是词,已经足以区分开体育类和经济类。因此采用短语作为特征的分类结果提高幅度并不很大。
但在进行层级分类时,由于同一大类的层级小类之间相似度极大,例如:"体育_武术类_跆拳道"、"体育_武术类_拳击"、"体育_武术类_摔跤"和"体育_武术类_柔道",层级小类之间共享的特征词非常多,这些特征词往往只是8万词语表中的词,当进行大类分类时,由于大类之间的相似度较小,这些8万词语表中共享的特征词已经足以区别开大类了。但在进行层级小类分类时,真正能区分开这些层级小类的特征词往往是频率较低的专业领域词,即领域专类词,大多是关键短语,8万词语表中基本上没有。
参考文献:
1 LewisDD, RinguetteM. A comparison of two learning algorithms for text categorization. Proceedings of SIAIR94, 3rd annual symposium on document analysis and information retrieval. LasVegas, NV, 1994.81-93.
2 Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1999,1(1/2): 67-88.
3 Yiming Yang, Jan O. Pederson. A comparative study on feature selection in text categorization. Proceedings of ICML-97, 14th international conference on machine learning. Nashville, TN, 1997, 412-420.
4 Yiming Yang, Jan O. Pederson. A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
5 MIYAKE A. Working memory: The past, the present, and the future. In: Osaka N. The brain and working memory. Kyoto: Kyoto University Press, 2000: 311-329.
6 ENGLE R W. Working memory capacity as executive attention. Current Directions in Psychological Science, 2002, 11(1): 19-23.
7 刘华. 超大规模分类语料库构建. 现代图书情报技术,2006,1:71-73.
8 刘华. 基于语料库的领域词语聚类C#实现. 计算机工程与应用,2005,41(36):167-169
9 赵世奇等. 基于类别特征域的文本分类特征选择方法. 中文信息学报,2005,19(6):21-27
10 代六玲. 一种文本分类的在线SVM学习算法. 中文信息学报,2005,19(5):11-16
11 曹素丽等.基于汉字字频向量的中文文本自动分类系统.山西大学学报(自然科学版),1999,22(2):144-149.
12 陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
13 周雪忠.中文文本分类特征表示及分类方法比较研究[C].Advances in Computation of Oriental Languages.北京:清华大学出版社,2003.
刘华,暨南大学华文学院/海外华语研究中心,博士,讲师,主要研究领域为计算语言学,信息检索。
地址:广州市广园东路暨南大学华文学院华文教育系,邮编:510610。
电话:02035577201,13826432689。
E-mail:liuhua0461@sina.com,liuhua7586@blcu.edu.cn。
分享到:
相关推荐
《基于风险短语挖掘的知识聚合模型研究》这篇文章由唐晓波、谭明亮、李诗轩和顾娜共同撰写,发表在2020年情报理论与实践期刊的第43卷第8期。文章主要探讨了在大数据背景下,如何通过挖掘和聚合金融行业的风险知识,...
"textcat"是一个用Go编写的库,专门用于实现基于语法的文本分类,并且支持UTF-8编码和原始文本处理。本文将深入探讨这个库的特性和应用。 首先,让我们了解什么是基于语法的文本分类。与基于统计的方法(如深度学习...
总的来说,基于关键短语和LDA的军事舆情热点话题发现及推荐方法,通过增强模型对关键信息的敏感度,提高了话题挖掘的精确度和推荐的针对性,为军事舆情分析提供了一种更高效、更精准的工具。这种方法对于军事决策...
适合人群:自然语言处理研究人员、研究生以及对关键短语抽取感兴趣的开发者。 使用场景及目标:本研究适用于需要从长文本中自动提取关键概念的应用,如文本摘要、信息检索、主题建模等。通过改进传统方法的局限性,...
通过对文本表示、特征选择及分类器训练三个关键步骤的研究,本文成功实现了基于支持向量机的高效文本分类方法。未来的研究方向可以进一步探索如何结合深度学习技术以解决大规模文本分类问题,以及如何优化算法以适应...
这种计算方法不仅能够准确地反映文本之间的相似性,而且还能适应多种应用场景,如文本分类、聚类和信息检索等。未来的研究可以进一步探索该方法在大规模数据集上的表现,并尝试将其与其他自然语言处理技术相结合,以...
### 基于深度学习的文本分类研究进展 #### 一、引言 文本分类是一项关键技术,它涉及将文本集合自动归类到预定义类别中。这一技术在多个领域都有广泛应用,例如信息检索、垃圾邮件过滤、情感分析及舆情监测等。...
在本项目实践中,我们主要探讨了人工智能在文本处理领域的应用,特别是聚焦于文本分类和文本相似度计算。本文将深入解析这些关键知识点,并探讨如何利用自然语言处理(NLP)技术进行二分类、多标签分类以及数据增强...
总体而言,多文档关键短语提取的研究旨在提高信息处理的效率和准确性,对于搜索引擎优化、知识管理、智能推荐系统等领域具有重要价值。随着自然语言处理技术的不断发展,我们可以期待更高效、更准确的多文档关键短语...
本项目基于Python实现了一个CNN模型,用于中文文本分类,以下是对该算法及其实现的详细解析。 1. CNN在文本分类中的应用: 在文本分类中,CNN通过其特有的卷积层、池化层以及全连接层,能有效地捕捉到文本中的局部...
CNN在文本分类中的优势在于其能够通过卷积核提取局部特征,识别文本中的关键短语和模式。此外,CNN还具有结构简单、参数共享、训练效率高的特点。在文本分类中,CNN可以有效地捕捉词与词之间的局部关联性,例如n-...
本文探讨的“基于深度学习的录音文本分类方法”是这一领域的创新应用,旨在提高含有关联工单数据的录音文本的分类精度。该方法充分利用了深度学习技术,如词嵌入、卷积神经网络(CNN)、双向门限循环单元(GRU)以及...
**基于CNN的中文文本分类**是一种深度学习方法,用于对中文文本进行自动分类。这个项目是使用Python的深度学习框架PyTorch实现的,旨在帮助初学者和开发者更好地理解和应用卷积神经网络(CNN)在自然语言处理(NLP)...
特征选择是文本分类的关键步骤,目的是从原始文本中提取出最有代表性的特征,减少噪声和冗余信息,提高分类性能。TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的特征选择算法,它结合了词频和逆...
综上所述,"基于关键词表达式模型的文本自动分类系统的研究与实现"项目深入研究了文本分类的各个环节,从关键词提取到模型构建,再到分类器选择和系统实现,全面涵盖了文本自动分类的关键技术。该项目的成果对于提升...
### 文本分类研究进展 #### 一、引言 随着互联网技术的快速发展,特别是Internet的广泛应用,信息的数量呈现爆炸式增长。这种趋势不仅体现在互联网上,还包括企业内部网和电子图书馆等多个方面。面对如此庞大的...
文件中引用的六篇参考文献涉及中文文本情感分析的不同方面,包括基于HowNet的词汇语义倾向计算、基于语义理解的中文博文倾向性分析、监督学习方法在中文情感分类中的应用研究等。这些研究为该框架的设计和优化提供了...
总结来说,基于人工神经网络的文本分类研究与实现涉及了多个关键技术,从文本的预处理(分词、特征选择)到模型构建(使用BP神经网络),再到模型训练和评估,每个环节都对最终的分类效果至关重要。通过这样的方法,...
文本分类是一种关键的自然语言处理任务,它利用机器学习算法对大量文本数据进行自动分类,以便高效管理和检索信息。在互联网时代,随着信息量的爆发式增长,文本分类的重要性日益凸显。 1. 文本分类的发展历程 文本...
### 基于短语的统计机器翻译:理论与实践 #### 一、引言 在信息技术迅猛发展的背景下,统计机器翻译(Statistical Machine Translation,SMT)作为自然语言处理领域的重要分支,展现出了广泛的应用前景。特别是...