`
suiu
  • 浏览: 33312 次
  • 性别: Icon_minigender_1
  • 来自: 山东
社区版块
存档分类
最新评论

lucene与庖丁解牛简单示例

 
阅读更多

首先是建立索引的类文件:

 

 

package com.jereh.lucene;

import java.io.*;
import java.util.Date;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * 创建索引 Lucene 3.0+
 * 
 * @author Administrator
 * 
 */
public class Indexer {

	/**
	 * @param args
	 * @throws IOException
	 */
	public static void index(String dateDir, String indexDir)
			throws IOException {
		IndexWriter indexWriter = null;
		// 创建Directory对象
		Directory dir = FSDirectory.getDirectory(new File(indexDir)); 
		// 创建IndexWriter对象,第一个参数是Directory,第二个是分词器,第三个表示是否是创建,如果为false为在此基础上面修改,第四表示表示分词的最大值,比如说new
		// MaxFieldLength(2),就表示两个字一分,一般用IndexWriter.MaxFieldLength.LIMITED
		indexWriter = new IndexWriter(dir,new PaodingAnalyzer());
		File[] files = new File(dateDir).listFiles();
		for (int i = 0; i < files.length; i++) {
			Document doc = new Document();
			// 创建Field对象,并放入doc对象中
			doc.add(new Field("contents", readContents(files[i], "UTF-8"),
					Field.Store.YES, Field.Index.UN_TOKENIZED));
			doc.add(new Field("filename", files[i].getName(), Field.Store.YES,
					Field.Index.TOKENIZED));
			doc.add(new Field("indexDate", DateTools.dateToString(new Date(),
					DateTools.Resolution.DAY), Field.Store.YES,
					Field.Index.TOKENIZED));
			// 写入IndexWriter
			indexWriter.addDocument(doc);
		}
		// 查看IndexWriter里面有多少个索引
		System.out.println("numDocs:" + indexWriter.numRamDocs());
		indexWriter.optimize();
		indexWriter.close();
	}

	public static String readContents(File file, String charset)
			throws IOException {
		BufferedReader reader = new BufferedReader(new InputStreamReader(
				new FileInputStream(file), charset));
		String line = new String();
		String temp = new String();

		while ((line = reader.readLine()) != null) {
			temp += line;
		}
		reader.close();
		return temp;
	}

}

 

 其次是进行搜索的类:

 

package com.jereh.lucene;

import java.io.File;
import java.io.IOException;
import net.paoding.analysis.analyzer.PaodingAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
/**
 * 搜索索引 Lucene 3.0+
 * 
 * @author Administrator
 * 
 */
public class Searcher {

	public static void search(String indexDir) throws IOException,
			ParseException {
		Directory dir = FSDirectory.getDirectory(new File(indexDir));
		// 创建 IndexSearcher对象,相比IndexWriter对象,这个参数就要提供一个索引的目录就行了
		IndexSearcher indexSearch = new IndexSearcher(dir);
		// 创建QueryParser对象,第一个参数表示Lucene的版本,第二个表示搜索Field的字段,第三个表示搜索使用分词器
		QueryParser queryParser = new QueryParser("filename",new PaodingAnalyzer());
		// 生成Query对象
		Query query = queryParser.parse("滑移装载机");
		// 搜索结果 TopDocs里面有scoreDocs[]数组,里面保存着索引值
		//TopDocs hits = indexSearch.search(query, 10);
		Hits hits = indexSearch.search(query);
		// hits.totalHits表示一共搜到多少个
		System.out.println("找到了" + hits.length() + "个");
		// 循环hits.scoreDocs数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值
		Document doc = null;
		for(int i=0;i<hits.length();i++){
			doc = hits.doc(i);
			System.out.print(doc.get("filename"));
		}
		indexSearch.close();
	}
}

 

最后是运行的类:

 

package com.jereh.lucene;

import java.io.File;
import java.io.IOException;

import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.paoding.analysis.examples.gettingstarted.BoldFormatter;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;

public class Test {

	public static void main(String[] args) throws IOException, ParseException {
		// try {
		// //Indexer.index("E:/code/jrcms_liugong/website/products/",
		// "F:/workspace/spring-mvc/WebRoot/WEB-INF/index/");
		// Searcher.search("F:/workspace/spring-mvc/WebRoot/WEB-INF/index/");
		// } catch (Exception e) {
		// e.printStackTrace();
		// }
		// 将庖丁封装成符合Lucene要求的Analyzer规范
		String dateDir = "E:/code/jrcms_liugong/website/about/";
		Analyzer analyzer = new PaodingAnalyzer();
		File[] files = new File(dateDir).listFiles();
		for (File f : files) {
			// 读取本类目录下的text.txt文件
			String content = Indexer.readContents(f, "UTF-8");
			// 接下来是标准的Lucene建立索引和检索的代码
			Directory ramDir = new RAMDirectory();
			IndexWriter writer = new IndexWriter(ramDir, analyzer);
			Document doc = new Document();
			Field fname = new Field("filename",f.getName(),Field.Store.YES,Field.Index.UN_TOKENIZED);
			Field fd = new Field("contents", content, Field.Store.YES,
					Field.Index.TOKENIZED,
					Field.TermVector.WITH_POSITIONS_OFFSETS);
			doc.add(fname);
			doc.add(fd);
			writer.addDocument(doc);
			writer.optimize();
			writer.close();
			IndexReader reader = IndexReader.open(ramDir);
			String queryString = "国家级企业技术中心";
			QueryParser parser = new QueryParser("contents", analyzer);
			Query query = parser.parse(queryString);
			Searcher searcher = new IndexSearcher(ramDir);
			query = query.rewrite(reader);
			//System.out.println("Searching for: " + query.toString("contents"));
			Hits hits = searcher.search(query);
			BoldFormatter formatter = new BoldFormatter();
			Highlighter highlighter = new Highlighter(formatter,
					new QueryScorer(query));
			highlighter.setTextFragmenter(new SimpleFragmenter(50));
			for (int i = 0; i < hits.length(); i++) {
				String text = hits.doc(i).get("filename");
//				int maxNumFragmentsRequired = 5;
//				String fragmentSeparator = "...";
//				TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(hits.id(i), "contents");
//				TokenStream tokenStream = TokenSources.getTokenStream(tpv);
//				String result = highlighter.getBestFragments(tokenStream, text,
//						maxNumFragmentsRequired, fragmentSeparator);
//				System.out.println("\n" + result);
				System.out.println(text);
			}
			reader.close();
		}

	}
}

 

 

分享到:
评论

相关推荐

    lucene 中文分词 庖丁解牛

    本文将深入探讨如何在Lucene中高效地进行中文分词,借助“庖丁解牛”的概念,以求在理解与应用上达到游刃有余的境地。 一、Lucene简介 Lucene是Java语言编写的一个高性能、可扩展的信息检索库,它提供了完整的搜索...

    Lucene 庖丁解牛分词法2.4版本jar包

    然而,由于中文的复杂性,简单的英文分词策略无法满足需求,于是有了针对中文的分词方法——"庖丁解牛分词法"。该方法是专门为了解决Lucene在处理中文文本时的分词难题而设计的。在本文中,我们将深入探讨这一分词法...

    Lucene加庖丁解牛测试类

    本文将深入探讨“Lucene加庖丁解牛测试类”,旨在帮助读者理解Lucene的核心概念,并通过实际的测试类解析,提升对Lucene的运用能力。 首先,我们需要理解“庖丁解牛”的含义。这源自古代典故,意指做事技艺娴熟,能...

    lucene3庖丁解牛中文分词器

    《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...

    lucene3.0 整合庖丁解牛实例

    实例是一个java实例,可直接导入到MyEclipse中...其中是lucene3.0整合了庖丁解牛分词法,添加了高亮显示。因为lucene3.0无法整合paoding-analysis.jar 所以我已经把paoding-analysis中的源码整合进来了避免无法整合问题

    lucene中文分词(庖丁解牛)庖丁分词

    总的来说,结合Apache Lucene与庖丁解牛,可以构建出强大的中文全文检索系统。在实际应用中,理解并熟练运用这两者的结合,将极大地提升你的文本处理能力,为用户提供更加智能、精准的搜索体验。

    lucene Analyzer 庖丁解牛 中文分词

    对于中文来说,分词是Analyzer面临的最大挑战,因为中文没有明显的词边界,这与英文等其他语言有着显著的区别。 中文分词是Lucene处理中文文本时的重点。Lucene提供了多种Analyzer实现,其中最常用的便是`...

    庖丁解牛工具

    而"庖丁解牛"则为Lucene提供了针对中文的分词支持,使得开发者可以更好地处理中文文档,提高了搜索的准确性和效率。它的特点包括对中文词汇的精准识别,对新词的动态学习,以及对多音字、成语和网络用语的有效处理。...

    庖丁解牛 源码 for Lucene 2.4

    《庖丁解牛 源码 for Lucene 2.4》是一份针对开源全文搜索引擎Lucene 2.4版本的深度解析资料。这个压缩包包含的文件名为"paoding-for-lucene-2.4",很可能是针对中文处理的Paoding Lucene库的源代码分析或扩展。...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    Lucene3.0以上版本庖丁解牛分词法demo

    最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...

    lucene3.0庖丁+索引搜索程序

    《深入剖析Lucene3.0:庖丁解牛与索引搜索实践》 在IT行业中,搜索引擎技术扮演着至关重要的角色,而Lucene作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene3.0版本,结合“庖丁解...

    庖丁解牛,一种中文分词器

    "庖丁解牛"分词器可以方便地与Lucene进行集成,用于提升搜索系统的中文处理能力。在集成到Lucene 3.0版本时,由于版本间的接口和功能可能会有所变化,因此可能需要进行一些适应性修改。这通常涉及到调整配置文件、...

    lucene最新版本加庖丁解牛实现搜索引擎

    《使用Lucene最新版与庖丁解牛方法构建搜索引擎》 在信息技术日新月异的今天,搜索引擎已经成为了我们获取信息的重要工具。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于各种搜索引擎的开发中。本文将...

    适用于lucene..5的庖丁解牛分词器

    可以适用于lucene3.5的庖丁解牛分词器jar包

    庖丁解牛jar包

    一直找不到适合lucene-35以上的庖丁解牛jar包,搞了半天总于生成好了jar包,在lucene-35中运行没问题

    支持Lucene3.3、3.4的庖丁解牛分词法的源码和jar包

    资源为庖丁解牛分词法的最新源码以及生成的jar包,支持最新的Lucene3.4以及Lucene3.0以上版本。Jar包为本地生成,大家也可以到SVN上检出自己生成,另外庖丁解牛分词法的使用Demo我会接下来上传一份,欢迎分享。

    sorlr + tomcat+ 庖丁解牛中文分词 配置文档

    标题 "sorlr + tomcat+ 庖丁解牛中文分词 配置文档" 提到的是一个关于在Apache Solr中集成Tomcat服务器,并利用庖丁解牛中文分词工具进行中文处理的配置教程。这个配置过程对于搭建支持中文搜索的Solr环境至关重要。...

    庖丁解牛分词器jar包

    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...

Global site tag (gtag.js) - Google Analytics