【转】mahout应用kmeans进行文本聚类2之——实例分析

jayghost

浏览: 446324 次
性别:
来自: 成都

最近访客更多访客>>

liangzai951

南方老牛

wanmbv

casiert123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Mahout

在Mahout_in_Action这本书中，给了一个文本的聚类实例，并提供了原始输入数据，下面结合例子说明

作为聚类算法的主要应用场景 - 文本分类，对文本信息的建模也是一个常见的问题。在信息检索研究领域已经有很好的建模方式，就是信息检索领域中最常用的向量空间模型

词频 - 逆向文本频率 (Term Frequency – Inverse Document Frequency, TF-IDF)：它是对 TF 方法的一种加强，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在所有文本中出现的频率成反比下降。举个例子，对于“高频无意义词汇”，因为它们大部分会出现在所有的文本中，所以它们的权重会大打折扣，这样就使得文本模型在描述文本特征上更加精确。在信息检索领域，TF-IDF 是对文本信息建模的最常用的方法。

对于文本信息的向量化，Mahout 已经提供了工具类，它基于 Lucene 给出了对文本信息进行分析，然后创建文本向量。下面给出了一个例子，分析的文本数据是路透提供的新闻数据。将数据集下载后，放在“src/test/input”目录下。数据集下载地址：http://www.daviddlewis.com/resources/testcollections/reuters21578/

1. 将路透的数据解压缩，Mahout 提供了专门的方法

File inputFolder = new File("src/test/input");   
File outputFolder = new File("src/test/input-extracted");   
ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);   
extractor.extract();

2. 将数据存储成 SequenceFile

mahout直接进供了seqdirectory方法来将字符文本转成SequenceFile，可以直接bin/mahout seqdirectory -h，查看一下这个命令的帮助，将输入和输出参数设好，这里的输入就直接用上一步提取出的文本，目录在"src/test/input-extracted"

3.将 SequenceFile 文件中的数据，基于 Lucene 的工具进行向量化

mahout直接提供了seq2sparse命令来转向量，可以直接bin/mahout seq2sparse -h，查看一下这个命令的帮助，输入为第二步的输出

生成的向量化文件的目录结构是这样的：

df-count 目录：保存着文本的频率信息
tf-vectors 目录：保存着以 TF 作为权值的文本向量
tfidf-vectors 目录：保存着以 TFIDF 作为权值的文本向量
tokenized-documents 目录：保存着分词过后的文本信息
wordcount 目录：保存着全局的词汇出现的次数
dictionary.file-0 目录：保存着这些文本的词汇表
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。

再用mahout kmeans进行聚类，输入参数为tf-vectors 目录下的文件，如果整个过程没错，就可以看到输出结果目录clusters-N

最后可以用mahout提供的结果查看命令mahout clusterdump来分析聚类结果

分享到：

Lucene的Field选项解释 | 【转】mahout应用kmeans进行文本聚类1之— ...

2012-05-13 22:47
浏览 1798
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论