`
lzj0470
  • 浏览: 1272854 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

基于关键词表达式模型的文本自动分类系统的研究与实现

阅读更多

基于关键词表达式模型的文本自动分类系统的研究与实现

Research and Implementation of Text Categorization System Based on Keyword Expressions

常毅() 张鑫(   谭建龙(Tan jianlong)   白硕(Bai shuo)

(中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080

E-mail: changyi@ncic.ac.cn

中图法分类号              TP391

 

要:文本提出了一种新的基于关键词表达式模式的文本向量空间表示模型,在这个表示模型基础上实现了一个的自动分类系统。相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文描述了使用这种模型的自动文本分类系统。包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。

 

关键词:文本分类 中文信息处理 向量空间模型,关键词表示式,关键词匹配

 

AbstractIn recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results .

 

Key wordsText Categorization Chinese Information Processing Vector Space Model

1 引言

基于统计技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。

       本文主要探讨了新的文本表示模型和这种模型下的一个分类系统的实现,第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍,第三部分探讨了基于关键词表达式的文本表示模型,第四部分给出了我们实现的的文本分类系统,第五部分是该系统的实验结果和计算复杂度分析,第六部分总结和对将来工作的设想。

2问题描述

2.1 系统任务

       简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:

      

       文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。

2.2 评估方法

我们使用评估文本分类系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:

查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:   准确率和查全率反映了分类质量的两个不同方面,两者综合考虑的评估指标,F1 测试值,其数学公式如下:

2.3词语向量空间模型的文本表示

目前,在信息处理方向上,文本的表示主要采用向量空间模型 (VSM)。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,一种比较普遍的 TF-IDF 公式:

其中,  为词 t 在文本  中的权重,而  为词 t 在文本  中的词频,N 为训练文本的总数,  为训练文本集中出现 t 的文本数,分母为归一化因子。

2.42.3词语向量空间模型的训练方法和分类算法

训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵方法,最近 K 邻居方法和贝叶斯方法等等。

一般相似度定义公式为:

其中, 为不同的文本,M 为特征向量的维数,  为向量的第 K 维。

《支持向量机的公式》

3 关键词表达式向量空间的文本表示模型

3.1 关键词表达式

关键词表达式是大多数搜索引擎使用的查询语言。我们这里定义的关键词表达式(Keyword expression)为,

keyword expression := keyword [and keyword ] *

例如keyword expression=“大海” and “海鸥“  表示如果文本中同时出现“大海” 海鸥“,则这个文档满足关键词表达式。

3.2文本表示模型

定义P为可能关注的关键词集合为P|P|为关键词的个数。对于一般的分类系统|P|一般为10万左右。Pi为其中的一个关键词。关键词可以是一个有稳定的词语也可以是一个短语。

定义E表示可能关注的关键词表达式集合。 |P|为关键词表达式的个数. Ei是其中的一个表达式。同时保重出现在Ei的关键词一定在P中。

定义D表示全部文档集合。|D|为的文档个数. 是其中的一个文档。

定义l表示一个表达式必须出现在多少连续的句子中。一般定义为3个句子。则定义文档 当且仅当在文本dk..k+l中出现了关键词表达e的全部关键词。

定义  。则 表示表达式出现在文档的中的频率。

类似向量空间模型,我们定义表达式的权重

其中,  为词 e在文本  中的权重,N 为训练文本的总数,  为训练文本集中出现 t 的文本数,分母为归一化因子。

同理我们可以定义文本的相似度:

其中, 为不同的文本,M 为特征向量的维数,  为向量的第 K 维。

计算由于对于存在O(| |)的多关键词匹配算法,所以对关键词集合P可以在O(| |)计算出出现的关键词序列Q。由参考文献[2]使用的自动机算法可以在O(|Q|)时间内计算出全部出现的表达式集合。所以计算E集合中的全部 的时间复杂度为O(| |)

 

3.2 特征项的抽取

       构成文本的词汇,数量是相当大的,因此,表示文本的基于词向量空间的维数也相当大,可以达到几万维,我们限定关键词表达式的

4 系统的结构框架

       我们实现的文本分类系统,研究并结合了上述的关键技术,其结构如下图所示:

 

 

 

新文本

预处理

训练文本

预处理

特征项

抽取

训练文本

再处理

构造分类器

训练过程

分类过程

分类和输出

 

 

5 测试数据和实验结果

我们在一个具有2830篇中文文本的语料库上测试我们系统实现的分类算法,并对其效率和结果进行比较分析。

语料库中的文本都是新闻电讯稿,绝大部分采自新华社,还有200余篇采自中国新闻社和人民日报。所有的新闻稿都由领域专家事先进行分类,按照中图分类法分成政治、经济、军事等共38类。我们选择训练集和测试集的方法如下:将这些分好类的语料平均分成十份,选择其中一份作为开放测试集,剩余的九份作为训练集和封闭测试集。这样每一份都依次轮流作为开放测试集,运行分类算法,共执行10次分类操作,计算其平均值,实验结果如下表所示:

 

算法

封闭测试查全率

封闭测试准确率

封闭测试F1

开放测试查全率

开放测试准确率

开放测试F1

简单向量距离

87.08%

87.08%

87.08%

80.23%

80.23%

80.23%

贝叶斯

82.39%

83.78%

83.08%

76.17%

77.26%

76.71%

KNN

89.11%

91.42%

90.25%

83.29%

85.12%

84.20%

 

另外,从算法的时间花费考虑,假设系统的训练文本集包括 m 篇文本(向量),分别属于 k 个类,而抽取的特征项为 n 维,则这三种算法的时间花费分别为:

 

算法

训练算法

分类过程

简单向量距离

O (mn)

O (kn)

贝叶斯

O (mn)

O (kn)

KNN

O (km+nm)

 

因此,从测试结果看来,KNN 算法在分类效果上是最佳的,同时在训练过程中投入的时间最少,但是在分类过程中花费的时间最多,不利于文本的实时处理;而贝叶斯算法和简单向量距离算法的时间花费近似,其分类效果也近似,简单距离算法的效果略好。

6 将来的工作

       今后,我们在文本分类方向上的研究工作主要围绕三个方面展开:

1.         在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;

2.         目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统;

3.         新算法的研究及旧算法的改进

7 结束语

       本文探讨了文本分类系统的关键技术,比较和分析了三种训练和分类算法,并提出了文本分类系统的结构模型,同时给出了实验结果和分析,将来还将继续在层次分类体系中进行文本分类系统的进一步研究。

 

参考文献

1.         David D. Lewis: Feature selection and feature extraction for text categorization, In Proceedings of Speech and Natural Language Workshop, pp 212-217. Defense Advanced Research Projects Agency, Morgan Kaufmann, February 1992

2.         Yiming Yang: An evaluation of statistical approaches to text categorization, In Journal of Information Retrieval, 1999, Vol 1, No. 1/2, pp 67--88

3.         David D. Lewis and Marc Ringuette: A comparison of tow learning algorithms of text categorization , In Third Annual Symposium on Document Analysis and Information Retrieval, pp 81-93, Las Vegas, NV, April 11-13 1994. ISRI; Univ. of Nevada, Las Vegas

4.         Andrew McCallum and Kamal Nigam: A comparison of event models for naive bayes text categorization , AAAI-98 Workshop on "Learning for Text Categorization",1998

5.         Yiming Yang and Xin Liu: A re-examination of text categorization methods , Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp 42--49

6.         黄萱菁、吴立德:独立于语种的文本分类方法,2000 International Conference on Multilingual Information Processing , pp 37-43 , 2000

7.         鲁松、白硕等:文本中词语权重计算方法的改进,2000 International Conference on Multilingual Information Processing , pp 31-36 , 2000

8.         卜东波:聚类/分类理论研究及其在大规模文本挖掘中的应用,博士论文 2000 11

作者简介

庞剑锋:Pang Jianfeng 24 岁,男,硕士研究生,导师为李国杰院士,当前研究领域为网络信息处理和中文信息处理,现在中国科学院计算技术研究所软件研究室。通信地址:北京2704信箱软件研究室, 邮政编码100080,电话010-62587953

卜东波:Bu dongbo28岁,男,博士,当前研究领域文本挖掘,中国科学院计算技术研究所软件研究室。联系方式同上。

白硕:Bai shuo45 岁,男,研究员,中科院计算所首席科学家,当前研究领域网络安全和计算语言学。联系方式同上。

转载来源:http://www.searchforum.org.cn/seminar/members/tjl/keyExpr/%E5%9F%BA%E4%BA%8E%E5%85%B3%E9%94%AE%E8%AF%8D%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%96%87%E6%9C%AC%E8%87%AA%E5%8A%A8%E5%88%86%E7%B1%BB%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%A0%94%E7%A9%B6%E4%B8%8E%E5%AE%9E%E7%8E%B0.doc

分享到:
评论

相关推荐

    中文时间表达式识别研究

    2. 对基于机器学习的序列标注方法进行了研究,介绍了条件最大熵模型和条件随机场模型,并实现了基于这两种模型的中文时间表达式识别系统。 3. 对基于规则的方法进行了深入研究,包括构建人工规则库、基于训练语料...

    基于python的文本相似度计算系统源码数据库.docx

    本项目介绍了一个基于Python的文本相似度计算系统的设计与实现,旨在解决大规模文本数据的有效处理问题。 #### 技术背景 随着OpenAI的ChatGPT模型的推出,自然语言处理技术迎来了新的突破和发展机遇。文本相似度...

    基于用户评价的产品情感倾向分析系统设计与实现

    ### 基于用户评价的产品情感倾向分析系统设计与实现 #### 一、研究背景与意义 随着Web 2.0时代的到来,互联网已经成为人们获取信息的重要渠道之一。在这个时代,用户不仅仅是信息的消费者,同时也是内容的创造者。...

    基于状态转换的PLC程序模型构建方法.pdf

    关键词中提到了“工业控制系统安全”、“模型检测”、“NuSMV”、“程序分析”和“模型构建”,这些均是与PLC程序建模和模型检测紧密相关的概念。工业控制系统安全是确保工业自动化系统稳定运行的关键,而模型检测则...

    基于python模板的药品名称识别系统源码数据库论文.doc

    3. **关键词匹配**:利用Python的字符串匹配功能和正则表达式,系统会查找输入文本中与数据库中的药品名称相似或完全匹配的关键词,实现药品的自动识别。 4. **机器学习优化**:如果单纯的关键词匹配无法满足识别...

    哈尔滨工业大学的《信息检索模型》课件

    向量空间模型还支持自动的相关反馈机制,允许系统动态调整查询以更好地适应用户的意图。 #### 四、扩展的布尔模型 扩展的布尔模型结合了布尔模型和向量空间模型的优点,不仅保留了布尔逻辑的精确性,还引入了排序...

    一种基于BP神经网络的关键词抽取方法.pdf

    【标题】和【描述】提到的是“一种基于BP神经网络的关键词抽取方法”,这是一种利用神经网络技术来自动抽取文本中关键词的技术。关键词抽取是信息处理中的一个重要环节,它旨在从大量文本中识别出最具代表性的词语,...

    人工智能-搜索引擎-面向图像的垂直搜索引擎关键技术研究.pdf

    2. 基于图像内容检索技术:研究了基于图像分层分割的多特征融合方法,包括颜色、纹理和边缘特征的提取,并使用模糊支持向量机建立多关键词分配模型,实现图像自动转化为多个文本关键词描述。 在这个部分,论文使用...

    基于知识的自然语言问答发展综述

    本文综述了基于知识驱动的自然语言问答系统(Knowledge-based Question Answering Systems, KB-QA)的发展历程,重点探讨了问题理解这一核心环节的关键技术,包括问题分类、语义转化、关键词提取与查询扩展等方面。...

    应用编译原理实现基于文本编码通信协议消息的解析1

    综上所述,应用编译原理来解析基于文本编码的通信协议消息,是通过理解消息的结构,建立词法和语法模型,并利用自动化工具生成分析器代码来实现的。这种方法可以提高解析效率,降低开发成本,同时确保解析的准确性和...

    基于LDA模型的电商用户评价分析.pdf

    综上所述,本文基于LDA模型的电商用户评价分析,不仅为电商平台提供了一种有效的文本分析方法,也为电商用户和商家之间的信息交流提供了参考。通过对用户评价数据的智能分析,可以大幅降低用户浏览文本信息的时间...

    [新闻文章]自动新闻采集系统_webapps.rar

    2. **内容过滤与筛选**:抓取到的数据往往是原始且未经处理的,系统需要通过关键词匹配、主题模型等方法对新闻内容进行过滤和筛选,确保获取的是高质量、有价值的新闻。 3. **数据存储**:采集到的新闻数据需要存储...

    [新闻文章]自动新闻采集系统_webapps.zip

    【新闻文章】自动新闻采集系统是一个基于Java JSP技术构建的应用程序,主要用于帮助用户自动化地收集、整理和分析网络上的新闻信息。这个系统的出现,极大地便利了学生在毕业设计或论文研究过程中对大量数据的获取和...

    基于Python的农村土地流转新闻文本采集与分析.zip

    本项目“基于Python的农村土地流转新闻文本采集与分析”旨在利用Python编程语言来自动化收集农村土地流转相关的新闻文本,并对其进行深入的分析,以揭示其中蕴含的趋势和模式。以下将详细介绍这一过程涉及的主要知识...

    基于python搜索的目标站点内容监测系统源码数据库论文.docx

    基于Python的搜索目标站点内容监测系统设计是一种利用现代信息技术改进传统工作方式的实例,它结合了编程语言Python和数据库管理系统MYSQL,旨在实现高效、全面的网络内容监控。本设计主要探讨了如何运用Python技术...

    基于人工特征和机器特征融合的科技文献知识元抽取.docx

    【科技文献知识元抽取】是信息提取领域的重要研究方向,主要目标是从科技文献的文本内容中抽取出诸如研究背景、研究对象、研究方法、研究结论等关键知识单元。这一过程有助于理解和组织文献知识,便于后续的分析、...

    python基于启发式特征的钓鱼网站检测系统.zip

    5. 实时检测:将训练好的模型集成到实际的检测系统中,当新的网址请求发生时,系统会自动提取特征并进行预测,判断是否为钓鱼网站。 6. 更新与优化:定期更新训练数据,以适应不断变化的钓鱼手法,同时优化模型以...

    keywords-checking-system-master.tar.gz

    - **文本处理**:系统通常使用字符串处理技术,如正则表达式,来查找和匹配关键词。对于复杂的情况,可能会涉及到自然语言处理(NLP)技术,如词性标注、分词和语义理解。 - **数据结构**:关键词库可能以哈希表、...

Global site tag (gtag.js) - Google Analytics