一种快速高效的文本分类方法（一）

lzj0470

浏览: 1292067 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

算法

算法网络应用互联网数据挖掘 Web

随这互联网在全球的普及和应用的不断发展，Web上的文本资源近年来呈现爆炸式增长，如何充分有效地利用这些信息成为人们关注的焦点。文本分类通过自动为文本标注类别，可以有效地帮助人们组织管理文本信息，已经渐渐成为数据挖掘领域中一个重要的研究方向并且具有很高的商业价值。目前，文本分类已经被应用到许多领域中。包括：抽取符号知识，分发电子邮件，生成用户兴趣模式和邮件内容监控等等。

近年来，许多统计学习的方法和机器学习的方法被用于文本分类，包括：决策树、K近邻、Bayes方法、神经网络、符号规则学习、归纳学习算法和休眠专家方法等等。

在所有这些算法中，向量空间法是最简单快速的算法，但是它只适用于各个类之间差异比较明显的简单分类问题，而对于较复杂的情况，它的分类结果通常相对差一些，k近邻也是一个常用的算法，并且在许多领域（简单情况和复杂情况）都显出良好的性能。然而，在文本分类中，k近邻的一个弱点是它分类时的计算量较大，当它为一个末见实例分类时，它通常要遍历训练实例空间以找到查询实例的k个最近的邻居。尽管有许多的索引技术被引入提高最近邻的查询效率。但这些技术只在低维的实例空间有效。随着实例空间维数的提高，这些索引的性能急剧下降，以至于每次查询几乎都要遍历整个实例空间。可是许多应用（比如基于内容的电子邮件的监控，分发和垃圾邮件的过滤），既要较高的分类性能也需要较高的分类效率。为了实现这一目标，我们综合了向量空间法和k近邻方法的长处，提出一个新的算法，让它在相同类别的文档集聚的地方使用向量空间法而在不同类别的文档混杂的地方使用k近邻方法。从而利用较少的时间获得较高的分类精度。

分享到：

一种快速高效的文本分类方法（二） | htmlparser如何连接网络

2008-12-19 12:38
浏览 1720
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论