<转>LUCENE3.0 自学吧 4 TermDocs -

yingbin920

浏览: 392802 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

<转>LUCENE3.0 自学吧 4 TermDocs

博客分类：

搜索

利用TermDocs也是可以得到一些有用的结果。。。代码如下

[java]view plaincopy
package com.fpi.lucene.studying.myfirstlucene;  
import java.io.File;  
import java.io.IOException;  
import org.apache.lucene.LucenePackage;  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.analysis.standard.StandardAnalyzer;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.index.CorruptIndexException;  
import org.apache.lucene.index.IndexFileNameFilter;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.index.Term;  
import org.apache.lucene.index.TermDocs;  
import org.apache.lucene.queryParser.ParseException;  
import org.apache.lucene.queryParser.QueryParser;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.Query;  
import org.apache.lucene.search.ScoreDoc;  
import org.apache.lucene.search.TopScoreDocCollector;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.util.Version;  
public class Searcher {  
    // 关键字，要搜查的对象  
    public static String key_word = "about";  
      
    public static String field = "contents";  
    public static void search() throws CorruptIndexException, IOException, ParseException{  
        //打开索引所在地  
        IndexSearcher sr = new IndexSearcher(FSDirectory.open(new File("d://test//myindex")),true);   
          
        //词法分析器  
        Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);  
          
        //解析器  
        QueryParser parser = new QueryParser(Version.LUCENE_30,field,analyzer);  
          
        //根据关键字查询  
        Query query = parser.parse(key_word);  
          
        TopScoreDocCollector collector = TopScoreDocCollector.create(100, false);  
          
        //将所搜寻出来的结果以特定的形式放在collector中  
        sr.search(query, collector);  
          
        /** 
         * topDocs():Returns the top docs that were collected by this collector.     
         *            返回的是由这个collector收集的顶级文档。 
         * .scoreDocs():The top hits for the query.  
         *              用于查询的最高命中。 
         */  
        ScoreDoc[] hits = collector.topDocs().scoreDocs;  
        System.out.println("搜索到符合标准的文档数目："+hits.length);  
          
        //检索，根据关键字在contents这个field里边找，本节关注点。  
        TermDocs temDocs = sr.getIndexReader().termDocs(new Term("contents",key_word));  
        while(temDocs.next()){  
            System.out.println("在文件"+sr.getIndexReader().document(temDocs.doc())+"中，" +  
                    "关键字出现了"+temDocs.freq()+"次。");  
        }  
          
        System.out.println("-----------------我是无敌的分割线----------------");  
          
        for (int i = 0; i < hits.length; i++) {  
           
            Document doc = sr.doc(hits[i].doc);      //依此遍历符合标准的文档  
            System.out.println(doc.getField("filename")+" ----  "+hits[i].toString()+" ---- ");  
        }  
        System.out.println("you have " + collector.getTotalHits() +  
                  " file matched query '" + key_word + "':");  
        System.out.println("Lucene's position is in:"+LucenePackage.get());  
    }  
      
      
    public static void main(String[] args) {  
        try {  
            search();  
        } catch (CorruptIndexException e) {  
            // TODO Auto-generated catch block  
            e.printStackTrace();  
        } catch (IOException e) {  
            // TODO Auto-generated catch block  
            e.printStackTrace();  
        } catch (ParseException e) {  
            // TODO Auto-generated catch block  
            e.printStackTrace();  
        }  
    }  
}  

要说明的是，如果将检索到的结果放在TopScoreDocCollector中那么他里边的顺序是按照相关度得分从大到小排序的，也即是说最大的排最前。而利用TermDocs：

[java]view plaincopy
TermDocs temDocs = sr.getIndexReader().termDocs(new Term("contents",key_word));  
while(temDocs.next()){  
    System.out.println("在文件"+sr.getIndexReader().document(temDocs.doc())+"中，" +  
            "关键字出现了"+temDocs.freq()+"次。");  
}  

他这个“容器”里边的数据是无序的。

还有说明Term的初始化，有2个，一般常用的是new Term(field名称，关键字)；

如果将 TermDocs temDocs = sr.getIndexReader().termDocs(new Term("contents",key_word));
错误的写成 TermDocs temDocs = sr.getIndexReader().termDocs();

也就是无参初始化，则得到的结果就是每个文件他的freq都会取到值是1.

原链：http://blog.csdn.net/sustbeckham/article/details/5809181

分享到：

Apache Solr schema.xml及solrconfig.xml文 ... | <转>Lucene里经常被聊到的几个话题

2012-06-07 22:13
浏览 1257
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>LUCENE3.0 自学吧 4 TermDocs

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>LUCENE3.0 自学吧 4 TermDocs

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

lucene 一些性能调优建议

<转>庖丁解牛分词之自定义词库[自定义词典]

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

<转>Solr Suggest实现搜索智能提示

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

Lucene架构简单分析

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>