lucene中的词频

mxdxm

浏览: 2056807 次
性别:
来自: 北京

最近访客更多访客>>

linxl2011

ningzong

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene

lucene Apache 全文检索 log4j 搜索引擎

lucene in action作为action系列，确实坚持了其实用性的特色。全书花了很大的篇幅来讲解查询的解析，结果的优化和lucene应用上。很适合要做全文检索的人学习使用。但是lucen的功能决不仅仅在做搜索引擎上。如果不是最近看到一篇介绍用lucene作词频，文档统计的文章的话，我可能到现在还在为寻找一种用于专业研究的工具而苦恼。其实lucene可以很轻松地实现信息检索课中提到的要求,例如：

* 统计，实现以下功能
* (1) 统计term在整个collection中的文档频度(document frequency, DF)；
(2) 统计term在整个collection中出现的词次(term frequency in whole collection)；
(3) 统计term在某个文档中出现的频度(term frequency, TF)；
(4) 列出term在某文档中出现的位置(position)；
(5) 整个collection中文档的个数；

下面是我参考那篇文章写的一个程序：

import java.util.Date;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.index.TermEnum;
import org.apache.lucene.index.TermPositions;

public class Statistic {
/*
* 统计，实现以下功能
* (1) 统计term在整个collection中的文档频度(document frequency, DF)；
(2) 统计term在整个collection中出现的词次(term frequency in whole collection)；
(3) 统计term在某个文档中出现的频度(term frequency, TF)；
(4) 列出term在某文档中出现的位置(position)；
(5) 整个collection中文档的个数；

* */
static final Log log = LogFactory.getLog(Statistic.class);

public static void printIndex(IndexReader reader) throws Exception{

   //显示document数
   log.debug(new Date()+"\n");
   log.debug(reader+"\t该索引共含 "+reader.numDocs()+"篇文档\n");

   for(int i=0;i<reader.numDocs();i++){
    log.debug("文档"+i+"："+reader.document(i)+"\n");
   }

   //枚举term，获得<document, term freq, position* >信息
   TermEnum termEnum=reader.terms();
   while(termEnum.next()){
    log.debug("\n"+termEnum.term().field()+"域中出现的词语："+termEnum.term().text());
    log.debug(" 出现改词的文档数="+termEnum.docFreq());

    TermPositions termPositions=reader.termPositions(termEnum.term());
    int i=0;
    int j=0;
    while(termPositions.next()){
     log.debug("\n"+(i++)+"->"+"    文章编号:"+termPositions.doc()+", 出现次数:"+termPositions.freq()+"    出现位置：");
     for(j=0;j<termPositions.freq();j++) log.debug("["+termPositions.nextPosition()+"]");
     log.debug("\n");
     }

    /*TermDocs termDocs=reader.termDocs(termEnum.term());
    while(termDocs.next()){
     log.debug((i++)+"->DocNo:"+termDocs.doc()+",Freq:"+termDocs.freq());
    }*/
   }

}

public static void main(String args[]) throws Exception{
   String index=ReadConfig.getPara("indexdir");
   IndexReader reader=IndexReader.open(index);
   printIndex(reader);

}
}

对资料《传记》进行统计，选取结果片断如下：

contents域中出现的词语：责任出现改词的文档数=9

0-> 文章编号:3, 出现次数:2 出现位置：[3150][3811]

1-> 文章编号:6, 出现次数:7 出现位置：[715][738][1046][1846][4437][6319][6463]

2-> 文章编号:7, 出现次数:2 出现位置：[4676][5856]

3-> 文章编号:8, 出现次数:1 出现位置：[5824]

4-> 文章编号:9, 出现次数:2 出现位置：[1840][8946]

5-> 文章编号:10, 出现次数:2 出现位置：[2275][3252]

6-> 文章编号:11, 出现次数:2 出现位置：[2456][6870]

7-> 文章编号:12, 出现次数:3 出现位置：[6062][8090][8124]

8-> 文章编号:15, 出现次数:3 出现位置：[100][1055][3078]

注：我使用的是log4j+commons logging作为输出方法（呵呵，感觉比BufferedWriter好用多了），中文分词方面选用的是基于词典的IK_CAnalyzer分词类,效果较好，基本可以满足使用。

分享到：

Lucene中的自定义排序功能 | lucene介绍

2011-04-07 10:46
浏览 8440
评论(3)
分类:编程语言
查看更多

3 楼 qq272936993 2013-06-04

你好..你这个功能貌似还是简单了点,不知道是否有Lucene自带的能多这些词语的过滤以及排序功能？（但获取词频的角度,不调用query）.谢谢！！

2 楼 linshouyi 2012-07-26

非常好，学习了，但是想问一下，对于给定的term，比如new Term("标题","中国"),能否得到指定id的document中的tf?而不是像你这里的用termDocs.next()遍历每一个document。不是遍历，而是通过document的id。不知道是否可以。

1 楼 zuoxiaofei123 2011-09-06

您好，我想问下，
String index=ReadConfig.getPara("indexdir");
IndexReader reader=IndexReader.open(index);
这段代码中，IndexReader的open方法能传入字符串做参数吗，好像是Directory类型的参数才能传入。
我修改之后，运行您写的程序还是报错，如下：
Exception in thread "main" org.apache.lucene.index.IndexNotFoundException: no segments* file found in org.apache.lucene.store.SimpleFSDirectory@E:\SogouC.reduced\Reduced\C000008 lockFactory=org.apache.lucene.store.NativeFSLockFactory
请问，这是什么原因呢？怎么解决？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论