Lucene 搜索

TRAMP_ZZY
浏览: 141834 次
最近访客更多访客>>

jateide
mjm13
dongguangming88
north0808
博主相关

博客
微博
相册
留言
关于我
文章分类

社区版块

存档分类

博客分类：
Lucene
lucene
/** 
 * Project Name:docsearch 
 * File Name:Search.java 
 * Package Name:cn.tramp.docsearch.search 
 * Date:2014年2月27日 下午6:40:58 
 * Copyright (c) 2014, zhangzhaoyu0524@163.com All Rights Reserved. 
 * 
*/  
  
package cn.tramp.docsearch.search;  

import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.Date;
import java.util.List;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.DateTools.Resolution;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.queryparser.classic.QueryParser.Operator;
import org.apache.lucene.queryparser.flexible.core.nodes.RangeQueryNode;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.ConstantScoreQuery;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.NumericRangeQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TermRangeQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;

import cn.tramp.docsearch.domain.DocumentInfo;
import cn.tramp.docsearch.index.Index;
import cn.tramp.docsearch.util.IndexPropertyUtil;
import cn.tramp.docsearch.util.Page;

/** 
 * ClassName:Search <br/> 
 * Function: Search. <br/> 
 * Reason:   Search. <br/> 
 * Date:     2014年2月27日 下午6:40:58 <br/> 
 * @author   zhangzhaoyu 
 * @version   
 * @since    JDK 1.7
 * @see       
 */
public class Search {

	private final static Log logger  = LogFactory.getLog(Index.class);
	
	public Directory directory;
	private String indexPath;
	private String docmentPath;
	
	private static IndexReader reader = null;
	
	public Search() {
		try {
			indexPath = IndexPropertyUtil.getKeyValueByName("indexPath");
			docmentPath = IndexPropertyUtil.getKeyValueByName("docmentPath");
			directory = FSDirectory.open(new File(indexPath));
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
	
	public IndexSearcher getIndexSearcher() {
		try {
			if (reader == null) {
				reader = DirectoryReader.open(directory);
			} 
			return new IndexSearcher(reader);
 		} catch (CorruptIndexException e) {
 			e.printStackTrace();
 		} catch (Exception ex) {
 			ex.printStackTrace();
 		}
		return null;
	}
	
	public List<DocumentInfo> queryForDocumentByPage(String field, String searchText, Page<DocumentInfo> page) {
		IndexReader reader = null;
		IndexSearcher searcher = null;
		try {
			reader = DirectoryReader.open(directory);
			searcher = new IndexSearcher(reader);
			QueryParser parser = new QueryParser(Version.LUCENE_43, field, new StandardAnalyzer(Version.LUCENE_43));
			Query query = parser.parse(searchText);
			//Query query = new FuzzyQuery(new Term(field, searchText));
			//Query query = new TermQuery(new Term(field, searchText));
			TopDocs docs = searcher.search(query, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, query, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, query);
		} catch (Exception e) {
			e.printStackTrace();
		} 
		return null;
	}
	
	public List<DocumentInfo> queryForListByWildcard(String doc_name, String content, Page<DocumentInfo> page) {
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			Query docNamequery = new WildcardQuery(new Term("doc_name", doc_name + "*"));
			Query contentQuery = new WildcardQuery(new Term("content", doc_name + "*"));
			
			BooleanQuery booleanQuery = new BooleanQuery();
			booleanQuery.add(docNamequery, Occur.SHOULD);
			booleanQuery.add(contentQuery, Occur.SHOULD);
			
			//Query query = new FuzzyQuery(new Term(field, value));
			TopDocs docs = searcher.search(booleanQuery, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, booleanQuery, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, booleanQuery);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	public List<DocumentInfo> queryByComplexBoolean(List<Query> termQueryList, Page<DocumentInfo> page) {
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			BooleanQuery query = new BooleanQuery();  
	        for (Query termQuery : termQueryList) {  
	        	query.add(termQuery, Occur.MUST);  
	        }  
	        TopDocs docs = searcher.search(query, 1000);//获取匹配上元素的一个docid 
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, query, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, query);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	public List<DocumentInfo> queryByQueryParse(String searchContent, Page<DocumentInfo> page) {
		
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			QueryParser parser = new QueryParser(Version.LUCENE_43, "doc_name", new SmartChineseAnalyzer(Version.LUCENE_43));
			
			//parser.setDefaultOperator(Operator.AND);
	        Query query = parser.parse(searchContent + "*");
	        parser = new QueryParser(Version.LUCENE_43, "content", new StandardAnalyzer(Version.LUCENE_43));
	        Query  contentQuery = parser.parse(searchContent + "*");
	        
	        BooleanQuery booleanQuery = new BooleanQuery();
	        booleanQuery.add(query, Occur.SHOULD);
	        booleanQuery.add(contentQuery, Occur.SHOULD);
	        
	        TopDocs docs = searcher.search(booleanQuery, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, booleanQuery, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, query);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	public List<DocumentInfo> queryByDocType(TypeSearchBean searchBean, Page<DocumentInfo> page) {
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			QueryParser parser = new QueryParser(Version.LUCENE_43, "doc_name", new SmartChineseAnalyzer(Version.LUCENE_43));
	        Query docNamequery = parser.parse(searchBean.getDoc_name() + "*");
	        parser = new QueryParser(Version.LUCENE_43, "content", new StandardAnalyzer(Version.LUCENE_43));
	        Query  contentQuery = parser.parse(searchBean.getContent() + "*");
	        Query typeQuery = new TermQuery(new Term("doc_type", searchBean.getDoc_type()));
	        
	        parser.setDefaultOperator(Operator.AND);
	        
	        BooleanQuery booleanQuery = new BooleanQuery();
	        booleanQuery.add(docNamequery, Occur.SHOULD);
	        booleanQuery.add(contentQuery, Occur.SHOULD);
	        booleanQuery.add(typeQuery, Occur.SHOULD);
	        
	        TopDocs docs = searcher.search(booleanQuery, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, booleanQuery, page.getPageSize());
			// 组装结果
			return convert(hits, searcher, booleanQuery);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	public List<DocumentInfo> queryByDocDate(String beginDate, String endDate, Page<DocumentInfo> page) {
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			TermRangeQuery addDaterangeQuery = TermRangeQuery.newStringRange("add_datetime", beginDate, endDate, true, true);
			TermRangeQuery modifyDaterangeQuery = TermRangeQuery.newStringRange("modify_datetime", beginDate, endDate, true, true);
			//NumericRangeQuery<Long>  addDaterangeQuery = NumericRangeQuery.newLongRange("add_datetime", beginDate, endDate, true, true);
			BooleanQuery booleanQuery = new BooleanQuery();
			booleanQuery.add(addDaterangeQuery, Occur.MUST);
			booleanQuery.add(modifyDaterangeQuery, Occur.MUST);
			 
	        TopDocs docs = searcher.search(booleanQuery, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, booleanQuery, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, booleanQuery);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	public List<DocumentInfo> queryByAccurate(AccurateSearchBean searchBean, Page<DocumentInfo> page) {
		IndexSearcher searcher = null;
		try {
			searcher = getIndexSearcher();
			QueryParser parser = new QueryParser(Version.LUCENE_43, "content", new SmartChineseAnalyzer(Version.LUCENE_43));
			Query docNameQuery = new WildcardQuery(new Term("doc_name", searchBean.getDoc_name() +"*"));
			//Query contentQuery = parser.parse(searchBean.getContent() + "*");
			Query docTypeQuery = new TermQuery(new Term("doc_type", searchBean.getDoc_type()));
			Query docAuthorQuery = new FuzzyQuery(new Term("author", searchBean.getAuthor()), 1, 1);
			TermRangeQuery dateRangeQuery = getTermRangeQueryByDate(searchBean.getLimit_date());
			
			BooleanQuery booleanQuery = new BooleanQuery();
			booleanQuery.add(docNameQuery, Occur.MUST);
			//booleanQuery.add(contentQuery, Occur.MUST);
			booleanQuery.add(docTypeQuery, Occur.MUST);
			booleanQuery.add(docAuthorQuery, Occur.MUST);
			if (dateRangeQuery != null) {
				booleanQuery.add(dateRangeQuery, Occur.MUST);
			}
			
	        TopDocs docs = searcher.search(booleanQuery, 1000);
			
			int index = (page.getCurrentPage()-1) * page.getPageSize();
			page.setTotalRecord(docs.scoreDocs.length);
			ScoreDoc scoreDoc = null;
			if (index > 0) {
				scoreDoc = docs.scoreDocs[index-1];
			}
			TopDocs hits = searcher.searchAfter(scoreDoc, booleanQuery, page.getPageSize());
			
			// 组装结果
			return convert(hits, searcher, booleanQuery);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	private List<DocumentInfo> convert(TopDocs hits, IndexSearcher searcher, Query query) throws IOException, InvalidTokenOffsetsException {
		List<DocumentInfo> list = new ArrayList<DocumentInfo>();
		Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_43);
		TokenStream tokenStream = null;
		for (ScoreDoc doc : hits.scoreDocs) {
			Document d = searcher.doc(doc.doc);
			DocumentInfo info = new DocumentInfo();
			//加亮处理
            //SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font color='red'>", "</font>");
			//SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<font class='highLight'>", "</font>");
			SimpleHTMLFormatter simplehtml=new SimpleHTMLFormatter("<span class='label label-warning'>", "</span>");
            Highlighter highlighter = new Highlighter(simplehtml,new QueryScorer(query)); 
            String content = d.get("content");
            String doc_name = d.get("doc_name");
            
            if (content != null) {
            	tokenStream = analyzer.tokenStream("content", new StringReader(content));
            	String hightLightText = highlighter.getBestFragment(tokenStream, content);
            	if (hightLightText != null) {
            		info.setContent(hightLightText);
            	} else 
            		info.setContent(content);
            } else {
            	info.setContent(content);
            }
            
            if (doc_name != null) {
            	tokenStream = analyzer.tokenStream("doc_name", new StringReader(doc_name));
            	String hightLightText = highlighter.getBestFragment(tokenStream, doc_name);
            	if (hightLightText != null) {
            		info.setDoc_name(hightLightText);
            	} else 
            		info.setDoc_name(doc_name);
            } else {
            	info.setDoc_name(doc_name);
            }
            
            info.setDoc_id(Integer.parseInt(d.get("doc_id")));
			info.setDoc_type(d.get("doc_type"));
			info.setDoc_location(d.get("doc_location"));
			info.setAdd_datetime(new Date(Long.parseLong(d.get("add_datetime"))));
			info.setModify_datetime(new Date(Long.parseLong(d.get("modify_datetime"))));
			info.setAuthor(d.get("author"));
			info.setUpload_author(d.get("upload_author"));
			list.add(info);
		}
		return list;
	}
	
	/**
	 * 
	 * getTermRangeQueryByDate:<br />
	 * 通过时间限制，获取时间区间查询
	 *
	 * @author zhangzhaoyu
	 * @return
	 */
	private TermRangeQuery getTermRangeQueryByDate(int dateRange) {
		TermRangeQuery query = null;
		Date nowDate = null;
		Date oldDate = null;
		
		if (2 == dateRange) {
			nowDate = new Date();
			oldDate = new Date(nowDate.getTime() - 24*60*60*1000);
			
			query = TermRangeQuery.newStringRange("add_datetime", DateTools.dateToString(oldDate, Resolution.DAY),
					DateTools.dateToString(nowDate, Resolution.DAY), true, true);
		} else if (3 == dateRange) {
			nowDate = new Date();
			oldDate = new Date(nowDate.getTime() - 24*60*60*1000*7);
			
			query = TermRangeQuery.newStringRange("add_datetime", DateTools.dateToString(oldDate, Resolution.DAY),
					DateTools.dateToString(nowDate, Resolution.DAY), true, true);
		} else if (4 == dateRange) {
			nowDate = new Date();
			oldDate = new Date(nowDate.getTime() - 24*60*60*1000*210);
			
			query = TermRangeQuery.newStringRange("add_datetime", DateTools.dateToString(oldDate, Resolution.DAY),
					DateTools.dateToString(nowDate, Resolution.DAY), true, true);
		} else if (5 == dateRange) {
			nowDate = new Date();
			oldDate = new Date(nowDate.getTime() - 24*60*60*1000*365);
			
			query = TermRangeQuery.newStringRange("add_datetime", DateTools.dateToString(oldDate, Resolution.DAY),
					DateTools.dateToString(nowDate, Resolution.DAY), true, true);
		} else {
			return query;
		}
		return query;
	}
	
	/**
	 * 
	 * close:<br />
	 * 关闭reader
	 *
	 * @author zhangzhaoyu
	 */
	public void close() {
		try {
			reader.close();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}
分享到：
SQL 笔记（一） | Lucene 建立索引
2014-03-20 09:43
浏览 435
评论(0)
分类:编程语言
查看更多
发表评论

您还没有登录,请您登录后再发表评论
最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene 搜索

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene 搜索

评论

发表评论

相关推荐

Lucene 建立索引

一、Lucene入门实例

最近访客更多访客>>