bjsxt Lucene项目的源码 -

xxp3369

浏览: 151318 次
性别:
来自: 深圳

最近访客更多访客>>

u014087707

whrjsyzby

ggfcoder

cy_001

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2009-02 ( 23)
2009-01 ( 56)
2008-12 ( 44)
更多存档...

bjsxt Lucene项目的源码

博客分类：

尚学堂 Lucene

lucene Apache Tomcat F#JSP

Web.xml

<?xml version="1.0" encoding="UTF-8"?>
<web-app version="2.4" 
	xmlns="http://java.sun.com/xml/ns/j2ee" 
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
	xsi:schemaLocation="http://java.sun.com/xml/ns/j2ee 
	http://java.sun.com/xml/ns/j2ee/web-app_2_4.xsd">
  <welcome-file-list>
    <welcome-file>index.jsp</welcome-file>
  </welcome-file-list>
</web-app>

DataFilter.java

package com.bjsxt.lucene.util;

public class DataFilter {
	public static String getHTML(String sourcestr){
        if (sourcestr == null) {
            return "";
        }
        sourcestr = sourcestr.replaceAll("\\x26", "&amp;");//&
        sourcestr = sourcestr.replaceAll("\\x3c", "&lt;");//<
        sourcestr = sourcestr.replaceAll("\\x3e", "&gt;");//>
        sourcestr = sourcestr.replaceAll("\\x09", "&nbsp;&nbsp;&nbsp;&nbsp;");//tab键
        sourcestr = sourcestr.replaceAll("\\x20", "&nbsp;");//空格
        sourcestr = sourcestr.replaceAll("\\x22", "&quot;");//"

        sourcestr = sourcestr.replaceAll("\r\n", "<br>");//回车换行
        sourcestr = sourcestr.replaceAll("\r", "<br>");//回车
        sourcestr = sourcestr.replaceAll("\n", "<br>");//换行
        return sourcestr;
	}
}

IndexHTML.java

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.LockObtainFailedException;

public class IndexHTML {
	public static void main(String[] args) throws Exception {
		String root = "D:\\share\\0100_J2SE\\soft\\html_zh_CN\\html\\zh_CN\\api\\index.html";
		String index = "D:\\share\\0400_Servlet_JSP\\soft\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\index_en";
		IndexWriter writer = null;
		try {
			writer = new IndexWriter(index, new StandardAnalyzer(),
					true);
		} catch (CorruptIndexException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (LockObtainFailedException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		File f = new File(root);
		Document doc = new Document();
		doc.add(new Field("path",f.getPath(),Field.Store.YES,Field.Index.NO));
		doc.add(new Field("title","我们是共产主义接班人",Field.Store.YES,Field.Index.TOKENIZED));
		doc.add(new Field("size","000129",Field.Store.YES,Field.Index.UN_TOKENIZED));
		doc.add(new Field("content",new FileReader(f)));
		
		writer.addDocument(doc);
		writer.optimize();
		writer.close();

	}
}

IndexHTMLTidy.java

import java.io.File; 
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.text.DecimalFormat;
import jeasy.analysis.MMAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Text;
import org.w3c.tidy.Tidy;

public class IndexHTMLTidy {
	static String root = "D:\\share\\0100_J2SE\\soft\\html_zh_CN\\html\\zh_CN\\api\\java\\lang";
	static String index = "D:\\share\\0400_Servlet_JSP\\soft\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\index_cn";
	
	static Document doc = null;
	static IndexWriter writer = null;

	public static void main(String[] args) throws Exception {
		writer = new IndexWriter(index, new MMAnalyzer(), true);
		File f = new File(root);
		indexDocs(f);
		writer.optimize();
		writer.close();
		System.out.println("ok...");
	}

	// 递归调用
	public static void indexDocs(File f) throws Exception {
		if (f.isDirectory()) {
			File files[] = f.listFiles();
			for (int i = 0; i < files.length; i++) {
				indexDocs(files[i]);
			}
		} else if (f.getName().endsWith(".html")) {
			indexDoc(f);
		}
	}

	// 索引一个文件
	public static void indexDoc(File f) throws Exception {
		doc = new Document();
		System.out.println(f.getPath());
		doc
				.add(new Field("path", f.getPath(), Field.Store.YES,
						Field.Index.NO));
		String size = new DecimalFormat("0000000000").format(f.length());
		doc.add(new Field("size", size, Field.Store.YES,
				Field.Index.UN_TOKENIZED));
		doc.add(new Field("lastmodified", DateTools.timeToString(f
				.lastModified(), DateTools.Resolution.DAY), Field.Store.YES,
				Field.Index.UN_TOKENIZED));

		Tidy tidy = new Tidy();
		tidy.setQuiet(true);
		tidy.setShowWarnings(false);
		// 乱码
		// org.w3c.dom.Document root = tidy.parseDOM(new FileInputStream(f),System.out);

		// 解决乱码问题
		// java.io.InputStream定义了抽象方法read(),从此输入流中读取一个数据字节。
		// java.io.FileInputStream实现了父类中定义的方法read()
		// public class InputStreamReader extends java.io.Reader
		// public class FileInputStream extends java.io.InputStream
		// InputStreamReader的方法read()-->读取单个字符。
		InputStreamReader ips = new InputStreamReader(new FileInputStream(f),"gb2312");
		// 适配器模式
		InputStream is = new ReaderToInputStream(ips);

		org.w3c.dom.Document root = tidy.parseDOM(is, null);
		// 得到根元素
		Element rawDoc = root.getDocumentElement();
		//得到title内容
		String title = getTitle(rawDoc);
		//得到body内容
		String body = getBody(rawDoc);
		
		System.out.println(title);        
		
		doc.add(new Field("title", title, Field.Store.YES,Field.Index.TOKENIZED));
		
		String summary = body;
		if (body.length() >= 200) {
			summary = body.substring(0, 200);
		}
		doc.add(new Field("summary", summary, Field.Store.YES,Field.Index.TOKENIZED));
		doc.add(new Field("content", body, Field.Store.NO,Field.Index.TOKENIZED));
		writer.addDocument(doc);
	}

	// 适配器
	public static class ReaderToInputStream extends InputStream {
		Reader reader;

		public ReaderToInputStream(Reader reader) {
			super();
			this.reader = reader;
		}

		@Override
		public int read() throws IOException {
			try {
				return reader.read();
			} catch (IOException e) {
				throw e;
			}
		}
	}

	// 得到title标签内容
	protected static String getTitle(Element rawDoc) {
		if (rawDoc == null) {
			return "";
		}
		String title = "";
		NodeList children = rawDoc.getElementsByTagName("title");
		if (children.getLength() > 0) {
			Element titleElement = ((Element) children.item(0));
			Text text = (Text) titleElement.getFirstChild();
			if (text != null) {
				title = text.getData();
			}
		}
		return title;
	}

	// 得到body标签内容
	protected static String getBody(Element rawDoc) {
		if (rawDoc == null) {
			return "";
		}
		String body = "";
		NodeList children = rawDoc.getElementsByTagName("body");
		if (children.getLength() > 0) {
			body = getText(children.item(0));
		}
		return body;
	}

	// 递归调用,因为标签里面还有标签
	protected static String getText(Node node) {
		NodeList children = node.getChildNodes();
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < children.getLength(); i++) {
			Node child = children.item(i);
			switch (child.getNodeType()) {
			case Node.ELEMENT_NODE:
				sb.append(getText(child));
				sb.append(" ");
				break;
			case Node.TEXT_NODE:
				sb.append(((Text) child).getData());
				break;
			}
		}
		return sb.toString();
	}
}

SearchTest.java

import java.io.IOException;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;


public class SearchTest {
	public static void main(String[] args) throws Exception {
		String index = "D:\\share\\0400_Servlet_JSP\\soft\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\index_cn";
		IndexSearcher searcher=null;
		try {
			searcher = new IndexSearcher(index);
		} catch (CorruptIndexException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		Query query = new TermQuery(new Term("title","使用"));
//		QueryParser parser = new QueryParser("title",new MMAnalyzer());
//		parser.setDefaultOperator(QueryParser.AND_OPERATOR);
//		Query query = parser.parse("使用 软件包");
		
		
		Hits hits = searcher.search(query);
		System.out.println(hits.length());
		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			System.out.println(title);
		}
		searcher.close();
	}
}

TestBooleanQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.TermQuery;

 
public class TestBooleanQuery {
	public static void main(String[] args) throws Exception{
		String index = "D:\\share\\tools\\apache-tomcat-6.0.14\\apache-tomcat-6.0.14\\index_cn";
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		TermQuery term1 = new TermQuery(new Term("title","使用"));
		TermQuery term2 = new TermQuery(new Term("title","接口"));
		BooleanQuery query = new BooleanQuery();
		query.add(term1, BooleanClause.Occur.MUST);
		query.add(term2,BooleanClause.Occur.MUST_NOT);
		hits = searcher.search(query);
		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestFuzzyQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
 
public class TestFuzzyQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		Query query = new FuzzyQuery(new Term("title", "filee"));
		hits = searcher.search(query);		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestPhraseQuery.java

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.store.RAMDirectory;

 
public class TestPhraseQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		String s = "the quick brown fox jumped over the lazy dog.";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("field",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();
		
		searcher = new IndexSearcher(directory);
		PhraseQuery query = new PhraseQuery();
		query.setSlop(3);
		query.add(new Term("field", "fox"));
		query.add(new Term("field", "quick"));
		hits = searcher.search(query);
		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc1 = hits.doc(i);
			String title = doc1.get("title");
			String size = doc1.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestPrefixQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.PrefixQuery;
 
public class TestPrefixQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		PrefixQuery query = new PrefixQuery(new Term("title","reg"));
		hits = searcher.search(query);
		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestQueryParser.java

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.WildcardQuery;

 
public class TestQueryParser {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		QueryParser parser = new QueryParser("title",new StandardAnalyzer());
		Query query = parser.parse("lucene+java");
		System.out.println(query.toString());
		hits = searcher.search(query);

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestRangeQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.RangeQuery;
import org.apache.lucene.search.TermQuery;

 
public class TestRangeQuery {

	/**
	 * @param args
	 */
	public static void main(String[] args) throws Exception{
		String index = "C:\\tomcat\\webapps\\index";
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		Term begin = new Term("size","0000000001");
		Term end = new Term("size","0000001000");
		RangeQuery query = new RangeQuery(begin,end,true);
		System.out.println(query.toString());
		hits = searcher.search(query);
		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}

}

TestSpanTermQuery.java

import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Fieldable;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.BooleanClause;
import org.apache.lucene.search.BooleanQuery;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.MultiPhraseQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.PrefixQuery;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.RangeQuery;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.WildcardQuery;
import org.apache.lucene.search.BooleanClause.Occur;
import org.apache.lucene.search.spans.SpanFirstQuery;
import org.apache.lucene.search.spans.SpanNearQuery;
import org.apache.lucene.search.spans.SpanNotQuery;
import org.apache.lucene.search.spans.SpanOrQuery;
import org.apache.lucene.search.spans.SpanQuery;
import org.apache.lucene.search.spans.SpanTermQuery;
import org.apache.lucene.store.RAMDirectory;

public class TestSpanTermQuery {
	
	static String index = "C:\\tomcat\\webapps\\index";
	static IndexSearcher searcher = null;
	static Hits hits = null;
	

	/**
	 * 在某种跨度范围内，查找关键词并匹配文档，称为跨度搜索
	 * There are five subclasses of the base SpanQuery,
	 * SpanNotQuery
	 * SpanOrQuery
	 */
	public static void testSpanTermQuery()throws Exception{
		String s = "Man always remember love because of romance only";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();

		searcher = new IndexSearcher(directory);
		
		//SpanTermQuery，所完成的检索效果和TermQuery完全一样。
		//此外内部还记录了一些位置信息。这些信息将被SpanQuery家族的其他API所使用。
		Term t = new Term("title","remember");
		SpanTermQuery query = new SpanTermQuery(t);

		hits = searcher.search(query);
	}
	//跨度如果是3，则可以检索到文档。
	//扩度如果是2，则无法检索到文档。
	public static void testSpanFirstQuery()throws Exception{
		String s = "Man always remember love because of romance only";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();

		searcher = new IndexSearcher(directory);
		SpanTermQuery brown = new SpanTermQuery(new Term("title", "remember"));
		SpanFirstQuery query = new SpanFirstQuery(brown, 3);
		hits = searcher.search(query);
	}
	//SpanNearQuery的构造方法中第2个参数，与PhraseQuery中坡度的概念相同。
	//即2个term之间搀入无关的词的数量。
	//第3个参数，表示词组中的每个词是否一定要按照顺序出现在文档中。
	//如果第2个参数改为2，则检索不到该文档了。
	public static void testSpanNearQuery()throws Exception{
		String s = "Man always remember love because of romance only";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();

		searcher = new IndexSearcher(directory);
		SpanTermQuery brown = new SpanTermQuery(new Term("title", "remember"));
		Term t1 = new Term("title","Man");
		Term t2 = new Term("title","because");
		SpanTermQuery q1 = new SpanTermQuery(t1);
		SpanTermQuery q2 = new SpanTermQuery(t2);
		SpanNearQuery query = new SpanNearQuery(new SpanQuery [ ] {q1,q2},2,false);
		
		hits = searcher.search(query);
	}
	public static void testSpanNearQueryNested()throws Exception{
		String s = "aa bb cc dd ee ff gg hh ii jj kk";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();

		searcher = new IndexSearcher(directory);
		Term t1 = new Term("title","aa");
		Term t2 = new Term("title","cc");
		SpanTermQuery s1 = new SpanTermQuery(t1);
		SpanTermQuery s2 = new SpanTermQuery(t2);
		Term t3 = new Term("title","gg");
		Term t4 = new Term("title","kk");
		SpanTermQuery s3 = new SpanTermQuery(t3);
		SpanTermQuery s4 = new SpanTermQuery(t4);
		SpanNearQuery query1 = new SpanNearQuery(new SpanQuery [] {s1,s2},1,false);
		SpanNearQuery query2 = new SpanNearQuery(new SpanQuery [] {s3,s4},3,false);
		SpanNearQuery query = new SpanNearQuery(new SpanQuery [] {query1,query2},3,false);

		hits = searcher.search(query);
	}
	
	//SpanOrQuery就是把所有SpanQuery的结果综合起来，作为它的检索结果。
	public static void testSpanOrQuery()throws Exception{
		String s = "aa bb cc dd ee ff gg hh ii jj kk";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		writer.close();

		searcher = new IndexSearcher(directory);
		Term t1 = new Term("title","aa");
		Term t2 = new Term("title","cc");
		SpanTermQuery s1 = new SpanTermQuery(t1);
		SpanTermQuery s2 = new SpanTermQuery(t2);
		Term t3 = new Term("title","ff");
		Term t4 = new Term("title","jj");
		SpanTermQuery s3 = new SpanTermQuery(t3);
		SpanTermQuery s4 = new SpanTermQuery(t4);
		SpanNearQuery query1 = new SpanNearQuery(new SpanQuery [] {s1,s2},1,false);
		SpanNearQuery query2 = new SpanNearQuery(new SpanQuery [] {s3,s4},3,false);
		SpanOrQuery query = new SpanOrQuery(new SpanQuery [] {query1,query2});

		hits = searcher.search(query);
	}
	//SpanNotQuery有两个SpanQuery参数，它所表示的含义是：
	//从第一个SpanQuery的查询结果中，去掉第二个SpanQuery的查询结果。
	//注意：SpanNotQuery会排除那些SpanQuery对象相交叠的文档
	public static void testSpanNotQuery()throws Exception{
		String s = "aa bb cc dd ee ff gg hh ii jj kk";
		String ss = "gg aa bb cc dd ee ff hh ii ii jj kk";
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);
		
		Document doc = new Document();
		doc.add(new Field("title",s,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc);
		
		Document doc1 = new Document();
		doc1.add(new Field("title",ss,Field.Store.YES,Field.Index.TOKENIZED));
		writer.addDocument(doc1);
		
		writer.optimize();
		writer.close();

		searcher = new IndexSearcher(directory);
		
		Term t1 = new Term("title","gg");
		SpanTermQuery s1 = new SpanTermQuery(t1);
		SpanFirstQuery query1 = new SpanFirstQuery(s1,9);
		Term t3 = new Term("title","ff");
		Term t4 = new Term("title","jj");
		SpanTermQuery s3 = new SpanTermQuery(t3);
		SpanTermQuery s4 = new SpanTermQuery(t4);
		SpanNearQuery query2 = new SpanNearQuery(new SpanQuery [] {s3,s4},3,false);
		SpanNotQuery query = new SpanNotQuery(query1,query2);
		
		System.out.println(query.toString());
		hits = searcher.search(query);
		//System.out.println(query1.toString());
		//hits = searcher.search(query1);
		//System.out.println(query2.toString());
		//hits = searcher.search(query2);
	}
	


	public static void main(String[] args) throws Exception {
		searcher = new IndexSearcher(index);
		//testSpanTermQuery();
		//testSpanFirstQuery();
		//testSpanNearQuery();
		//testSpanNearQueryNested();

		//testSpanNotQuery();
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();
	}
}

TestTermQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.WildcardQuery;
 

public class TestTermQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		TermQuery query = new TermQuery(new Term("title","lucene"));
		System.out.println(query.toString());
		hits = searcher.search(query);

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TestWildcardQuery.java

import org.apache.lucene.document.Document;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.FuzzyQuery;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.WildcardQuery;
 
/**
 * 通配符搜索。*代表0到多个字符,?代表一个单一的字符
 */
public class TestWildcardQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		Query query = new WildcardQuery(new Term("title", "?ucli*"));
		System.out.println(query.toString());
		hits = searcher.search(query);

		for (int i = 0; i < hits.length(); i++) {
			Document doc = hits.doc(i);
			String title = doc.get("title");
			String size = doc.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

TtestMultiPhraseQuery.java

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.MultiPhraseQuery;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.store.RAMDirectory;
 

public class TtestMultiPhraseQuery {
	public static void main(String[] args) throws Exception{
		String index ="D:\\share\\TOOLS\\apache-tomcat-5.5.17\\apache-tomcat-5.5.17\\webapps\\index"; 
		IndexSearcher searcher = new IndexSearcher(index);
		Hits hits = null;
		
		RAMDirectory directory = new RAMDirectory();
		IndexWriter writer = new IndexWriter(directory,new StandardAnalyzer(),true);

		Document doc1 = new Document();
		Document doc2 = new Document();
		Document doc3 = new Document();
		Document doc4 = new Document();
		Document doc5 = new Document();
		Document doc6 = new Document();
		
		String s1 = "钢铁是怎样炼成的";
		String s2 = "钢铁战士";
		String s3 = "钢和铁是两种金属元素";
		String s4 = "钢要比铁有更多的碳元素";
		String s5 = "铁和钢是两种重要的金属";
		String s6 = "铁钢是两种重要的金属";
		
		Field f1 = new Field("title",s1,Field.Store.YES,Field.Index.TOKENIZED);
		Field f2 = new Field("title",s2,Field.Store.YES,Field.Index.TOKENIZED);
		Field f3 = new Field("title",s3,Field.Store.YES,Field.Index.TOKENIZED);
		Field f4 = new Field("title",s4,Field.Store.YES,Field.Index.TOKENIZED);
		Field f5 = new Field("title",s5,Field.Store.YES,Field.Index.TOKENIZED);
		Field f6 = new Field("title",s6,Field.Store.YES,Field.Index.TOKENIZED);
		
		doc1.add(f1);
		doc2.add(f2);
		doc3.add(f3);
		doc4.add(f4);
		doc5.add(f5);
		doc6.add(f6);
		
		writer.addDocument(doc1);
		writer.addDocument(doc2);
		writer.addDocument(doc3);
		writer.addDocument(doc4);
		writer.addDocument(doc5);
		writer.addDocument(doc6);
		
		writer.close();
		
		searcher = new IndexSearcher(directory);
		MultiPhraseQuery query = new MultiPhraseQuery();

		//title:"钢 (铁 和 要)"
		query.add(new Term("title","钢"));
		Term t1 = new Term("title","铁");
		Term t2 = new Term("title","和");
		Term t3 = new Term("title","要");
		query.add(new Term [] {t1,t2,t3});

		
		//title:"(铁 钢) 和"		
/*		Term t1 = new Term("title","铁");
		Term t2 = new Term("title","钢");
		query.add(new Term [] {t1,t2});
		query.add(new Term("title","和"));
*/		
		

		//title:"(钢 和) 铁 (是 战)"
/*		Term t1 = new Term("title","钢");
		Term t2 = new Term("title","和");
		query.add(new Term [] {t1,t2});

		query.add(new Term("title","铁"));

		Term t3 = new Term("title","是");
		Term t4 = new Term("title","战");
		query.add(new Term [] {t3,t4});
*/
		
	
		System.out.println(query.toString());
		hits = searcher.search(query);
		
		System.out.println("total:"+hits.length());

		for (int i = 0; i < hits.length(); i++) {
			Document docA = hits.doc(i);
			String title = docA.get("title");
			String size = docA.get("size");
			System.out.println(title+"..."+size);
			if (i>20){
				System.out.println("...");
				break;
			}
		}
		searcher.close();	
	}
}

lucene.155.rar (514.6 KB)
下载次数: 852

分享到：

bjsxt Lucene项目的jsp | 1.2.9 RequestProcessor.java

2008-12-28 14:24
浏览 2710
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

bjsxt Lucene项目的源码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

bjsxt Lucene项目的源码

评论

发表评论

相关推荐

bjsxt Lucene项目的jsp

最近访客更多访客>>