- 浏览: 1272854 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (608)
- 数据结构 (2)
- AJAX (3)
- 设计模式 (3)
- java (117)
- js (14)
- css (9)
- jsp (10)
- 杂文 (49)
- htmlparser (6)
- 数据库 (29)
- 算法 (14)
- 数据挖掘 (11)
- 电脑杂症 (12)
- 网络爬虫 (7)
- 应用服务器 (9)
- PHP (2)
- C# (14)
- 测试 (3)
- WEB高性能开发 (3)
- swt (1)
- 搜索引擎 (16)
- HttpClient (4)
- Lite (1)
- EXT (1)
- python (1)
- lucene (4)
- sphinx (9)
- Xapian (0)
- linux (44)
- 问题归类 (1)
- Android (6)
- ubuntu (7)
- SEO (18)
- 数学 (0)
- 农业资讯 (12)
- 游戏 (3)
- nginx (1)
- TeamViewer (1)
- swing (1)
- Web前 端 (1)
- 主页 (0)
- 阿萨德发首发身份 (0)
- 软件设计师 (0)
- hibernate (5)
- spring3.0 (5)
- elastic (1)
- SSH (3)
- ff (0)
- oracle 10g (9)
- 神经网络 (1)
- struts2.0 (2)
- maven (1)
- nexus (1)
- 辅助工具 (3)
- Shiro (1)
- 联通项目 (0)
- 2014年专业选择 (0)
- freemarker (1)
- struts1.2 (8)
- adfasdfasfasf (0)
- TortoiseSVN (1)
- jstl (1)
- jquery (1)
- eclipse plugin (0)
- 游戏外挂 (1)
- 推广 (0)
- 按键精灵 (1)
- ibatis3.0 (1)
最新评论
-
水野哲也:
不不不, 这个您真错了!其实是你引用的那个jsp和本身的jsp ...
解析关于jsp页面指令冲突问题contentType="text/html;charset=UTF-8" -
caobo_cb:
import xx.cn.weibo.Util;
[ java版]新浪微博之ruquest_token篇 -
caobo_cb:
你好 Util包没有
[ java版]新浪微博之ruquest_token篇 -
小桔子:
你好!我遇到个问题 max_allowed_packet值总是 ...
mysql查询占用内存,优化的技巧 -
donghustone:
谢谢大神!
用JSmooth制作java jar文件的可执行exe文件教程(图文)
基于关键词表达式模型的文本自动分类系统的研究与实现
Research and Implementation of Text Categorization System Based on Keyword Expressions
常毅() 张鑫( 谭建龙(Tan jianlong) 白硕(Bai shuo)
(中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080)
E-mail: changyi@ncic.ac.cn
中图法分类号 TP391
摘 要:文本提出了一种新的基于关键词表达式模式的文本向量空间表示模型,在这个表示模型基础上实现了一个的自动分类系统。相对于只使用文本中词语的频率的文本向量空间模型,这种新的模型在可以计算的前提下,使用了词语之间的相对位置信息,从而可以解决部分词语向量空间模型表示的不足。本文描述了使用这种模型的自动文本分类系统。包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。
关键词:文本分类 中文信息处理 向量空间模型,关键词表示式,关键词匹配
Abstract:In recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results .
Key words:Text Categorization Chinese Information Processing Vector Space Model
1 引言
基于统计技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。
本文主要探讨了新的文本表示模型和这种模型下的一个分类系统的实现,第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍,第三部分探讨了基于关键词表达式的文本表示模型,第四部分给出了我们实现的的文本分类系统,第五部分是该系统的实验结果和计算复杂度分析,第六部分总结和对将来工作的设想。
2问题描述
2.1 系统任务
简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
2.2 评估方法
我们使用评估文本分类系统的两个指标:准确率和查全率。准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:
查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下: 。 准确率和查全率反映了分类质量的两个不同方面,两者综合考虑的评估指标,F1 测试值,其数学公式如下:
2.3词语向量空间模型的文本表示
目前,在信息处理方向上,文本的表示主要采用向量空间模型 (VSM)。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,一种比较普遍的 TF-IDF 公式:
其中, 为词 t 在文本 中的权重,而 为词 t 在文本 中的词频,N 为训练文本的总数, 为训练文本集中出现 t 的文本数,分母为归一化因子。
2.42.3词语向量空间模型的训练方法和分类算法
训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法,最大平均熵方法,最近 K 邻居方法和贝叶斯方法等等。
一般相似度定义公式为:
其中, , 为不同的文本,M 为特征向量的维数, 为向量的第 K 维。
《支持向量机的公式》
3 关键词表达式向量空间的文本表示模型
3.1 关键词表达式
关键词表达式是大多数搜索引擎使用的查询语言。我们这里定义的关键词表达式(Keyword expression)为,
keyword expression := keyword [and keyword ] *
例如keyword expression=“大海” and “海鸥“ 表示如果文本中同时出现“大海” 和 “海鸥“,则这个文档满足关键词表达式。
3.2文本表示模型
定义P为可能关注的关键词集合为P,|P|为关键词的个数。对于一般的分类系统|P|一般为10万左右。Pi为其中的一个关键词。关键词可以是一个有稳定的词语也可以是一个短语。
定义E表示可能关注的关键词表达式集合。 |P|为关键词表达式的个数. Ei是其中的一个表达式。同时保重出现在Ei的关键词一定在P中。
定义D表示全部文档集合。|D|为的文档个数. 是其中的一个文档。
定义l表示一个表达式必须出现在多少连续的句子中。一般定义为3个句子。则定义文档 当且仅当在文本dk..k+l中出现了关键词表达e的全部关键词。
定义 。则 表示表达式出现在文档的中的频率。
类似向量空间模型,我们定义表达式的权重
其中, 为词 e在文本 中的权重,N 为训练文本的总数, 为训练文本集中出现 t 的文本数,分母为归一化因子。
同理我们可以定义文本的相似度:
其中, , 为不同的文本,M 为特征向量的维数, 为向量的第 K 维。
计算由于对于存在O(| |)的多关键词匹配算法,所以对关键词集合P可以在O(| |)计算出出现的关键词序列Q。由参考文献[2]使用的自动机算法可以在O(|Q|)时间内计算出全部出现的表达式集合。所以计算E集合中的全部 的时间复杂度为O(| |)
3.2 特征项的抽取
构成文本的词汇,数量是相当大的,因此,表示文本的基于词向量空间的维数也相当大,可以达到几万维,我们限定关键词表达式的
4 系统的结构框架
我们实现的文本分类系统,研究并结合了上述的关键技术,其结构如下图所示:
|
新文本 预处理 |
训练文本 预处理 |
特征项 抽取 |
训练文本 再处理 |
构造分类器 |
训练过程 |
分类过程 |
分类和输出 |
5 测试数据和实验结果
我们在一个具有2830篇中文文本的语料库上测试我们系统实现的分类算法,并对其效率和结果进行比较分析。
语料库中的文本都是新闻电讯稿,绝大部分采自新华社,还有200余篇采自中国新闻社和人民日报。所有的新闻稿都由领域专家事先进行分类,按照中图分类法分成政治、经济、军事等共38类。我们选择训练集和测试集的方法如下:将这些分好类的语料平均分成十份,选择其中一份作为开放测试集,剩余的九份作为训练集和封闭测试集。这样每一份都依次轮流作为开放测试集,运行分类算法,共执行10次分类操作,计算其平均值,实验结果如下表所示:
算法 |
封闭测试查全率 |
封闭测试准确率 |
封闭测试F1值 |
开放测试查全率 |
开放测试准确率 |
开放测试F1值 |
简单向量距离 |
87.08% |
87.08% |
87.08% |
80.23% |
80.23% |
80.23% |
贝叶斯 |
82.39% |
83.78% |
83.08% |
76.17% |
77.26% |
76.71% |
KNN |
89.11% |
91.42% |
90.25% |
83.29% |
85.12% |
84.20% |
另外,从算法的时间花费考虑,假设系统的训练文本集包括 m 篇文本(向量),分别属于 k 个类,而抽取的特征项为 n 维,则这三种算法的时间花费分别为:
算法 |
训练算法 |
分类过程 |
简单向量距离 |
O (mn) |
O (kn) |
贝叶斯 |
O (mn) |
O (kn) |
KNN |
无 |
O (km+nm) |
因此,从测试结果看来,KNN 算法在分类效果上是最佳的,同时在训练过程中投入的时间最少,但是在分类过程中花费的时间最多,不利于文本的实时处理;而贝叶斯算法和简单向量距离算法的时间花费近似,其分类效果也近似,简单距离算法的效果略好。
6 将来的工作
今后,我们在文本分类方向上的研究工作主要围绕三个方面展开:
1. 在向量空间模型方面,结合计算语言学,使用概念空间代替词空间;
2. 目前的分类体系为平面体系,可以在层次分类体系中考虑文本分类系统;
3. 新算法的研究及旧算法的改进
7 结束语
本文探讨了文本分类系统的关键技术,比较和分析了三种训练和分类算法,并提出了文本分类系统的结构模型,同时给出了实验结果和分析,将来还将继续在层次分类体系中进行文本分类系统的进一步研究。
参考文献
1. David D. Lewis: Feature selection and feature extraction for text categorization, In Proceedings of Speech and Natural Language Workshop, pp 212-217. Defense Advanced Research Projects Agency, Morgan Kaufmann, February 1992
2. Yiming Yang: An evaluation of statistical approaches to text categorization, In Journal of Information Retrieval, 1999, Vol 1, No. 1/2, pp 67--88
3. David D. Lewis and Marc Ringuette: A comparison of tow learning algorithms of text categorization , In Third Annual Symposium on Document Analysis and Information Retrieval, pp 81-93, Las Vegas, NV, April 11-13 1994. ISRI; Univ. of Nevada, Las Vegas
4. Andrew McCallum and Kamal Nigam: A comparison of event models for naive bayes text categorization , AAAI-98 Workshop on "Learning for Text Categorization",1998
5. Yiming Yang and Xin Liu: A re-examination of text categorization methods , Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp 42--49
6. 黄萱菁、吴立德:独立于语种的文本分类方法,2000 International Conference on Multilingual Information Processing , pp 37-43 , 2000
7. 鲁松、白硕等:文本中词语权重计算方法的改进,2000 International Conference on Multilingual Information Processing , pp 31-36 , 2000
8. 卜东波:聚类/分类理论研究及其在大规模文本挖掘中的应用,博士论文 2000 11
作者简介
庞剑锋:Pang Jianfeng 24 岁,男,硕士研究生,导师为李国杰院士,当前研究领域为网络信息处理和中文信息处理,现在中国科学院计算技术研究所软件研究室。通信地址:北京2704信箱软件研究室, 邮政编码100080,电话010-62587953。
卜东波:Bu dongbo,28岁,男,博士,当前研究领域文本挖掘,中国科学院计算技术研究所软件研究室。联系方式同上。
白硕:Bai shuo,45 岁,男,研究员,中科院计算所首席科学家,当前研究领域网络安全和计算语言学。联系方式同上。
转载来源:http://www.searchforum.org.cn/seminar/members/tjl/keyExpr/%E5%9F%BA%E4%BA%8E%E5%85%B3%E9%94%AE%E8%AF%8D%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%96%87%E6%9C%AC%E8%87%AA%E5%8A%A8%E5%88%86%E7%B1%BB%E7%B3%BB%E7%BB%9F%E7%9A%84%E7%A0%94%E7%A9%B6%E4%B8%8E%E5%AE%9E%E7%8E%B0.doc
发表评论
-
如何提高和优化Lucene索引速度
2009-07-09 12:39 1692这篇文章主要介绍了如何提高Lucene的索引速度。介绍的大部分 ... -
如何提高和优化Lucene搜索速度
2009-07-09 12:37 1532这篇文章主要介绍了如何提高Lucene的搜索速度。介绍的大部分 ... -
用 Lucene 加速 Web 搜索应用程序的开发
2009-06-25 13:56 793Lucene 是基于 Java 的全文信息检索包,它目前是 A ... -
基于Sphinx+MySQL全文检索架构设计
2009-06-24 16:12 1649原文:http://blog.s135.com/read.ph ... -
lucene并行建索引解决方案
2009-06-23 20:20 1388写,线程2往build_index2,。。。依次类推,最后一个 ... -
文本分类入门(十一)特征选择方法之信息增益
2009-04-14 18:12 1867前文提到过,除了开方 ... -
文本分类入门(十)特征选择算法之开方检验
2009-04-14 18:10 2354前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也 ... -
文本分类入门(八)中英文文本分类的异同
2009-04-14 18:09 1545从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文, ... -
文本分类入门(七)相关概念总结
2009-04-14 18:09 1346学习方法:使用样例( ... -
文本分类入门(六)训练Part 3
2009-04-14 18:08 2322SVM算法 支持向量机(Support Vector M ... -
文本分类入门(五)训练Part 2
2009-04-14 18:06 1745将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“ ... -
文本分类入门(四)训练Part 1
2009-04-14 18:05 1925训练,顾名思义,就是t ... -
文本分类入门(三)统计学习方法
2009-04-14 18:04 1608前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人 ... -
文本分类入门(二)文本分类的方法
2009-04-14 18:04 1529文本分类问题与其它分 ... -
文本分类入门(一)文本分类问题的定义
2009-04-14 18:03 1655一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问 ...
相关推荐
2. 对基于机器学习的序列标注方法进行了研究,介绍了条件最大熵模型和条件随机场模型,并实现了基于这两种模型的中文时间表达式识别系统。 3. 对基于规则的方法进行了深入研究,包括构建人工规则库、基于训练语料...
本项目介绍了一个基于Python的文本相似度计算系统的设计与实现,旨在解决大规模文本数据的有效处理问题。 #### 技术背景 随着OpenAI的ChatGPT模型的推出,自然语言处理技术迎来了新的突破和发展机遇。文本相似度...
### 基于用户评价的产品情感倾向分析系统设计与实现 #### 一、研究背景与意义 随着Web 2.0时代的到来,互联网已经成为人们获取信息的重要渠道之一。在这个时代,用户不仅仅是信息的消费者,同时也是内容的创造者。...
关键词中提到了“工业控制系统安全”、“模型检测”、“NuSMV”、“程序分析”和“模型构建”,这些均是与PLC程序建模和模型检测紧密相关的概念。工业控制系统安全是确保工业自动化系统稳定运行的关键,而模型检测则...
3. **关键词匹配**:利用Python的字符串匹配功能和正则表达式,系统会查找输入文本中与数据库中的药品名称相似或完全匹配的关键词,实现药品的自动识别。 4. **机器学习优化**:如果单纯的关键词匹配无法满足识别...
向量空间模型还支持自动的相关反馈机制,允许系统动态调整查询以更好地适应用户的意图。 #### 四、扩展的布尔模型 扩展的布尔模型结合了布尔模型和向量空间模型的优点,不仅保留了布尔逻辑的精确性,还引入了排序...
【标题】和【描述】提到的是“一种基于BP神经网络的关键词抽取方法”,这是一种利用神经网络技术来自动抽取文本中关键词的技术。关键词抽取是信息处理中的一个重要环节,它旨在从大量文本中识别出最具代表性的词语,...
2. 基于图像内容检索技术:研究了基于图像分层分割的多特征融合方法,包括颜色、纹理和边缘特征的提取,并使用模糊支持向量机建立多关键词分配模型,实现图像自动转化为多个文本关键词描述。 在这个部分,论文使用...
本文综述了基于知识驱动的自然语言问答系统(Knowledge-based Question Answering Systems, KB-QA)的发展历程,重点探讨了问题理解这一核心环节的关键技术,包括问题分类、语义转化、关键词提取与查询扩展等方面。...
综上所述,应用编译原理来解析基于文本编码的通信协议消息,是通过理解消息的结构,建立词法和语法模型,并利用自动化工具生成分析器代码来实现的。这种方法可以提高解析效率,降低开发成本,同时确保解析的准确性和...
综上所述,本文基于LDA模型的电商用户评价分析,不仅为电商平台提供了一种有效的文本分析方法,也为电商用户和商家之间的信息交流提供了参考。通过对用户评价数据的智能分析,可以大幅降低用户浏览文本信息的时间...
2. **内容过滤与筛选**:抓取到的数据往往是原始且未经处理的,系统需要通过关键词匹配、主题模型等方法对新闻内容进行过滤和筛选,确保获取的是高质量、有价值的新闻。 3. **数据存储**:采集到的新闻数据需要存储...
【新闻文章】自动新闻采集系统是一个基于Java JSP技术构建的应用程序,主要用于帮助用户自动化地收集、整理和分析网络上的新闻信息。这个系统的出现,极大地便利了学生在毕业设计或论文研究过程中对大量数据的获取和...
本项目“基于Python的农村土地流转新闻文本采集与分析”旨在利用Python编程语言来自动化收集农村土地流转相关的新闻文本,并对其进行深入的分析,以揭示其中蕴含的趋势和模式。以下将详细介绍这一过程涉及的主要知识...
基于Python的搜索目标站点内容监测系统设计是一种利用现代信息技术改进传统工作方式的实例,它结合了编程语言Python和数据库管理系统MYSQL,旨在实现高效、全面的网络内容监控。本设计主要探讨了如何运用Python技术...
【科技文献知识元抽取】是信息提取领域的重要研究方向,主要目标是从科技文献的文本内容中抽取出诸如研究背景、研究对象、研究方法、研究结论等关键知识单元。这一过程有助于理解和组织文献知识,便于后续的分析、...
5. 实时检测:将训练好的模型集成到实际的检测系统中,当新的网址请求发生时,系统会自动提取特征并进行预测,判断是否为钓鱼网站。 6. 更新与优化:定期更新训练数据,以适应不断变化的钓鱼手法,同时优化模型以...
- **文本处理**:系统通常使用字符串处理技术,如正则表达式,来查找和匹配关键词。对于复杂的情况,可能会涉及到自然语言处理(NLP)技术,如词性标注、分词和语义理解。 - **数据结构**:关键词库可能以哈希表、...