lucene当中的各种query（三）

m635674608

浏览: 5060791 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎，爬虫
java

MultiTermQuery包含以下query：

FuzzyQuery, NumericRangeQuery, PrefixQuery, TermRangeQuery, WildcardQuery

FuzzyQuery是一种模糊查询，它可以简单地识别两个相近的词语。即相似度匹配

NumericRangeQuery数字形式的范围查询

PrefixQuery前缀搜索A Query that matches documents containing terms with a specified prefix. A PrefixQuery is built by QueryParser for input like app*.

TermRangeQuery：主要用于文本范围查找;

使用通配符查询，*代表0个或多个字母，?代表0个或1个字母。

Query query=new WildcardQuery(new Term("contents","?ild*"));

Hits hits=searcher.search(query);

使用QueryParser和wildcardQuery使用的是相同的语法。但使用QueryParser时，首个字母不能是通配符

SpanQuery按照词在文章中的距离或者查询几个相邻词的查询

SpanQuery包括以下几种：

SpanTermQuery：词距查询的基础，结果和TermQuery相似，只不过是增加了查询结果中单词的距离信息。

SpanFirstQuery：在指定距离可以找到第一个单词的查询。

SpanNearQuery：查询的几个语句之间保持者一定的距离。

SpanOrQuery：同时查询几个词句查询。

SpanNotQuery：从一个词距查询结果中，去除一个词距查询。

ConstantScoreQuery

A query that wraps a filter and simply returns a constant score equal to the query boost for every document in the filter

看了一下这个类的构造函数ConstantScoreQuery(Filter filter) ，我的理解就是通过构造filter来完成文档的过滤，并且返回一个复合当前过滤条件的文档的常量分数，这个分数等于为查询条件设置的boost

2、自定义评分一、根据文件大小来评分，文件越大，权重越低

[java]view plaincopy 
package util;  
  
import java.io.IOException;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.index.Term;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.Query;  
import org.apache.lucene.search.TermQuery;  
import org.apache.lucene.search.TopDocs;  
import org.apache.lucene.search.function.CustomScoreProvider;  
import org.apache.lucene.search.function.CustomScoreQuery;  
import org.apache.lucene.search.function.FieldScoreQuery;  
import org.apache.lucene.search.function.ValueSourceQuery;  
import org.apache.lucene.search.function.FieldScoreQuery.Type;  
  
public class MyScoreQuery1{  
      
    public void searchByScoreQuery() throws Exception{  
        IndexSearcher searcher = DocUtil.getSearcher();  
        Query query = new TermQuery(new Term("content","java"));  
          
        //1、创建评分域，如果Type是String类型，那么是Type.BYTE  
        //该域必须是数值型的，并且不能使用norms索引，以及每个文档中该域只能由一个语汇  
        //单元，通常可用Field.Index.not_analyzer_no_norms来进行创建索引  
        FieldScoreQuery fieldScoreQuery = new FieldScoreQuery("size",Type.INT);  
        //2、根据评分域和原有的Query创建自定义的Query对象  
        //query是原有的query，fieldScoreQuery是专门做评分的query  
        MyCustomScoreQuery customQuery = new MyCustomScoreQuery(query, fieldScoreQuery);  
          
        TopDocs topdoc = searcher.search(customQuery, 100);  
        DocUtil.printDocument(topdoc, searcher);  
        searcher.close();  
          
    }  
      
    @SuppressWarnings("serial")  
    private class MyCustomScoreQuery extends CustomScoreQuery{  
  
        public MyCustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery) {  
            super(subQuery, valSrcQuery);  
        }  
          
        /** 
         * 这里的reader是针对段的，意思是如果索引包含的段不止一个，那么搜索期间会多次调用 
         * 这个方法，强调这点是重要的，因为它使你的评分逻辑能够有效使用段reader来对域缓存 
         * 中的值进行检索 
         */  
        @Override  
        protected CustomScoreProvider getCustomScoreProvider(IndexReader reader)  
                throws IOException {  
            //默认情况实现的评分是通过原有的评分*传入进来的评分域所获取的评分来确定最终打分的  
            //为了根据不同的需求进行评分，需要自己进行评分的设定  
            /** 
             * 自定评分的步骤 
             * 创建一个类继承于CustomScoreProvider 
             * 覆盖customScore方法 
             */  
//          return super.getCustomScoreProvider(reader);  
            return new MyCustomScoreProvider(reader);  
        }  
          
          
    }  
      
    private class MyCustomScoreProvider extends CustomScoreProvider{  
  
        public MyCustomScoreProvider(IndexReader reader) {  
            super(reader);  
        }  
          
        /** 
         * subQueryScore表示默认文档的打分 
         * valSrcScore表示的评分域的打分 
         * 默认是subQueryScore*valSrcScore返回的 
         */  
        @Override  
        public float customScore(int doc, float subQueryScore, float valSrcScore)throws IOException {  
            System.out.println("Doc:"+doc);  
            System.out.println("subQueryScore:"+subQueryScore);  
            System.out.println("valSrcScore:"+valSrcScore);  
//          return super.customScore(doc, subQueryScore, valSrcScore);  
            return subQueryScore / valSrcScore;  
        }  
          
    }  
}  

3、根据特定的几个文件名来评分，选中的文件名权重变大

[java]view plaincopy 
package util;  
  
import java.io.IOException;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.index.Term;  
import org.apache.lucene.search.FieldCache;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.Query;  
import org.apache.lucene.search.TermQuery;  
import org.apache.lucene.search.TopDocs;  
import org.apache.lucene.search.function.CustomScoreProvider;  
import org.apache.lucene.search.function.CustomScoreQuery;  
/** 
 * 此类的功能是给特定的文件名加权，也就是加评分 
 * 也可以实现搜索书籍的时候把近一两年的出版的图书给增加权重 
 * @author user 
 */  
public class MyScoreQuery2 {  
    public void searchByFileScoreQuery() throws Exception{  
        IndexSearcher searcher = DocUtil.getSearcher();  
        Query query = new TermQuery(new Term("content","java"));  
          
        FilenameScoreQuery fieldScoreQuery = new FilenameScoreQuery(query);  
          
        TopDocs topdoc = searcher.search(fieldScoreQuery, 100);  
        DocUtil.printDocument(topdoc, searcher);  
        searcher.close();  
          
    }  
      
    @SuppressWarnings("serial")  
    private class FilenameScoreQuery extends CustomScoreQuery{  
  
        public FilenameScoreQuery(Query subQuery) {  
            super(subQuery);  
        }  
  
        @Override  
        protected CustomScoreProvider getCustomScoreProvider(IndexReader reader)  
                throws IOException {  
//          return super.getCustomScoreProvider(reader);  
            return new FilenameScoreProvider(reader);  
        }  
    }  
      
    private class FilenameScoreProvider extends CustomScoreProvider{  
        String[] filenames = null;  
        public FilenameScoreProvider(IndexReader reader) {  
            super(reader);  
            try {  
                filenames = FieldCache.DEFAULT.getStrings(reader, "filename");  
            } catch (IOException e) {e.printStackTrace();}  
        }  
  
        //如何根据doc获取相应的field的值  
        /* 
         * 在reader没有关闭之前，所有的数据会存储要一个域缓存中，可以通过域缓存获取很多有用 
         * 的信息filenames = FieldCache.DEFAULT.getStrings(reader, "filename");可以获取 
         * 所有的filename域的信息 
         */  
        @Override  
        public float customScore(int doc, float subQueryScore, float valSrcScore)  
                throws IOException {  
            String fileName = filenames[doc];  
            System.out.println(doc+":"+fileName);  
//          return super.customScore(doc, subQueryScore, valSrcScore);  
            if("9.txt".equals(fileName) || "4.txt".equals(fileName)) {  
                return subQueryScore*1.5f;  
            }  
            return subQueryScore/1.5f;  
        }  
          
    }  
}  

4、测试junit

[java]view plaincopy 
package test;  
import org.junit.Test;  
import util.MyScoreQuery1;  
import util.MyScoreQuery2;  
  
public class TestCustomScore {  
  
    @Test  
    public void test01() throws Exception {  
        MyScoreQuery1 msq = new MyScoreQuery1();  
        msq.searchByScoreQuery();  
    }  
      
    @Test  
    public void test02() throws Exception {  
        MyScoreQuery2 msq = new MyScoreQuery2();  
        msq.searchByFileScoreQuery();  
    }  
}  

5、文档操作的工具类

[java]view plaincopy 
package util;  
  
import java.io.File;  
import java.io.IOException;  
import java.text.SimpleDateFormat;  
import java.util.Date;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.index.CorruptIndexException;  
import org.apache.lucene.index.IndexReader;  
import org.apache.lucene.search.IndexSearcher;  
import org.apache.lucene.search.ScoreDoc;  
import org.apache.lucene.search.TopDocs;  
import org.apache.lucene.store.Directory;  
import org.apache.lucene.store.FSDirectory;  
  
public class DocUtil {  
    private static IndexReader reader;  
    //得到indexSearch对象  
    public static IndexSearcher getSearcher(){  
        try {  
            Directory directory = FSDirectory.open(new File("D:\\Workspaces\\customscore\\index"));  
            reader = IndexReader.open(directory);  
        } catch (CorruptIndexException e) {  
            e.printStackTrace();  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
        IndexSearcher searcher = new IndexSearcher(reader);  
        return searcher;  
    }  
      
    /** 
     * 打印文档信息 
     * @param topdoc 
     */  
    public static void printDocument(TopDocs topdoc,IndexSearcher searcher){  
        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd hh:mm:ss");  
        for(ScoreDoc scoredoc : topdoc.scoreDocs){  
            try {  
                Document doc = searcher.doc(scoredoc.doc);  
                System.out.println(scoredoc.doc+":("+scoredoc.score+")" +  
                        "["+doc.get("filename")+"【"+doc.get("path")+"】--->"+  
                        doc.get("size")+"-----"+sdf.format(new Date(Long.valueOf(doc.get("date"))))+"]");  
            } catch (CorruptIndexException e) {  
                e.printStackTrace();  
            } catch (IOException e) {  
                e.printStackTrace();  
            }  
        }  
    }  
}  

6、创建索引

[java]view plaincopy 
package index;  
import java.io.File;  
import java.io.IOException;  
import org.apache.commons.io.FileUtils;  
import org.apache.lucene.analysis.Analyzer;  
import org.apache.lucene.document.Document;  
import org.apache.lucene.document.Field;  
import org.apache.lucene.document.NumericField;  
import org.apache.lucene.index.CorruptIndexException;  
import org.apache.lucene.index.IndexWriter;  
import org.apache.lucene.index.IndexWriterConfig;  
import org.apache.lucene.store.Directory;  
import org.apache.lucene.store.FSDirectory;  
import org.apache.lucene.store.LockObtainFailedException;  
import org.apache.lucene.util.Version;  
import org.wltea.analyzer.lucene.IKAnalyzer;  
  
public class FileIndexUtils {  
    private static Directory directory = null;  
    private static Analyzer analyzer = new IKAnalyzer();  
    public static void main(String[] args) {  
        index(true);  
    }  
    static{  
        try {  
            directory = FSDirectory.open(new File("D:\\Workspaces\\customscore\\index"));  
        } catch (IOException e) {  
            e.printStackTrace();  
        }  
    }  
      
    public static Directory getDirectory() {  
        return directory;  
    }  
      
    public static void index(boolean hasNew) {  
        IndexWriter writer = null;  
        try {  
            writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, analyzer));  
            if(hasNew) {  
                writer.deleteAll();  
            }  
            File file = new File("D:\\Workspaces\\customscore\\resource");  
            Document doc = null;  
            for(File f:file.listFiles()) {  
                doc = new Document();  
                doc.add(new Field("content",FileUtils.readFileToString(f),Field.Store.YES,Field.Index.ANALYZED));  
                doc.add(new Field("filename",f.getName(),Field.Store.YES,Field.Index.ANALYZED));  
                doc.add(new Field("classid","5312",Field.Store.YES,Field.Index.ANALYZED));  
                doc.add(new Field("path",f.getAbsolutePath(),Field.Store.YES,Field.Index.ANALYZED));  
                doc.add(new NumericField("date",Field.Store.YES,true).setLongValue(f.lastModified()));  
                doc.add(new NumericField("size",Field.Store.YES,true).setIntValue((int)(f.length())));  
                writer.addDocument(doc);  
            }  
        } catch (CorruptIndexException e) {  
            e.printStackTrace();  
        } catch (LockObtainFailedException e) {  
            e.printStackTrace();  
        } catch (IOException e) {  
            e.printStackTrace();  
        } finally {  
            try {  
                if(writer!=null) writer.close();  
            } catch (CorruptIndexException e) {  
                e.printStackTrace();  
            } catch (IOException e) {  
                e.printStackTrace();  
            }  
        }  
    }  
}  

工程下载路径：http://download.csdn.net/detail/wxwzy738/5320772

http://blog.csdn.net/wxwzy738/article/details/8873094

分享到：

Mongodb在windows下的安装和启动 | 使用Maven构建项目

2015-08-20 09:44
浏览 2590
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论