- 浏览: 33312 次
- 性别:
- 来自: 山东
最新评论
首先是建立索引的类文件:
package com.jereh.lucene; import java.io.*; import java.util.Date; import net.paoding.analysis.analyzer.PaodingAnalyzer; import org.apache.lucene.document.DateTools; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; /** * 创建索引 Lucene 3.0+ * * @author Administrator * */ public class Indexer { /** * @param args * @throws IOException */ public static void index(String dateDir, String indexDir) throws IOException { IndexWriter indexWriter = null; // 创建Directory对象 Directory dir = FSDirectory.getDirectory(new File(indexDir)); // 创建IndexWriter对象,第一个参数是Directory,第二个是分词器,第三个表示是否是创建,如果为false为在此基础上面修改,第四表示表示分词的最大值,比如说new // MaxFieldLength(2),就表示两个字一分,一般用IndexWriter.MaxFieldLength.LIMITED indexWriter = new IndexWriter(dir,new PaodingAnalyzer()); File[] files = new File(dateDir).listFiles(); for (int i = 0; i < files.length; i++) { Document doc = new Document(); // 创建Field对象,并放入doc对象中 doc.add(new Field("contents", readContents(files[i], "UTF-8"), Field.Store.YES, Field.Index.UN_TOKENIZED)); doc.add(new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED)); doc.add(new Field("indexDate", DateTools.dateToString(new Date(), DateTools.Resolution.DAY), Field.Store.YES, Field.Index.TOKENIZED)); // 写入IndexWriter indexWriter.addDocument(doc); } // 查看IndexWriter里面有多少个索引 System.out.println("numDocs:" + indexWriter.numRamDocs()); indexWriter.optimize(); indexWriter.close(); } public static String readContents(File file, String charset) throws IOException { BufferedReader reader = new BufferedReader(new InputStreamReader( new FileInputStream(file), charset)); String line = new String(); String temp = new String(); while ((line = reader.readLine()) != null) { temp += line; } reader.close(); return temp; } }
其次是进行搜索的类:
package com.jereh.lucene; import java.io.File; import java.io.IOException; import net.paoding.analysis.analyzer.PaodingAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; /** * 搜索索引 Lucene 3.0+ * * @author Administrator * */ public class Searcher { public static void search(String indexDir) throws IOException, ParseException { Directory dir = FSDirectory.getDirectory(new File(indexDir)); // 创建 IndexSearcher对象,相比IndexWriter对象,这个参数就要提供一个索引的目录就行了 IndexSearcher indexSearch = new IndexSearcher(dir); // 创建QueryParser对象,第一个参数表示Lucene的版本,第二个表示搜索Field的字段,第三个表示搜索使用分词器 QueryParser queryParser = new QueryParser("filename",new PaodingAnalyzer()); // 生成Query对象 Query query = queryParser.parse("滑移装载机"); // 搜索结果 TopDocs里面有scoreDocs[]数组,里面保存着索引值 //TopDocs hits = indexSearch.search(query, 10); Hits hits = indexSearch.search(query); // hits.totalHits表示一共搜到多少个 System.out.println("找到了" + hits.length() + "个"); // 循环hits.scoreDocs数据,并使用indexSearch.doc方法把Document还原,再拿出对应的字段的值 Document doc = null; for(int i=0;i<hits.length();i++){ doc = hits.doc(i); System.out.print(doc.get("filename")); } indexSearch.close(); } }
最后是运行的类:
package com.jereh.lucene; import java.io.File; import java.io.IOException; import net.paoding.analysis.analyzer.PaodingAnalyzer; import net.paoding.analysis.examples.gettingstarted.BoldFormatter; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.Searcher; import org.apache.lucene.search.highlight.Highlighter; import org.apache.lucene.search.highlight.QueryScorer; import org.apache.lucene.search.highlight.SimpleFragmenter; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; public class Test { public static void main(String[] args) throws IOException, ParseException { // try { // //Indexer.index("E:/code/jrcms_liugong/website/products/", // "F:/workspace/spring-mvc/WebRoot/WEB-INF/index/"); // Searcher.search("F:/workspace/spring-mvc/WebRoot/WEB-INF/index/"); // } catch (Exception e) { // e.printStackTrace(); // } // 将庖丁封装成符合Lucene要求的Analyzer规范 String dateDir = "E:/code/jrcms_liugong/website/about/"; Analyzer analyzer = new PaodingAnalyzer(); File[] files = new File(dateDir).listFiles(); for (File f : files) { // 读取本类目录下的text.txt文件 String content = Indexer.readContents(f, "UTF-8"); // 接下来是标准的Lucene建立索引和检索的代码 Directory ramDir = new RAMDirectory(); IndexWriter writer = new IndexWriter(ramDir, analyzer); Document doc = new Document(); Field fname = new Field("filename",f.getName(),Field.Store.YES,Field.Index.UN_TOKENIZED); Field fd = new Field("contents", content, Field.Store.YES, Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS); doc.add(fname); doc.add(fd); writer.addDocument(doc); writer.optimize(); writer.close(); IndexReader reader = IndexReader.open(ramDir); String queryString = "国家级企业技术中心"; QueryParser parser = new QueryParser("contents", analyzer); Query query = parser.parse(queryString); Searcher searcher = new IndexSearcher(ramDir); query = query.rewrite(reader); //System.out.println("Searching for: " + query.toString("contents")); Hits hits = searcher.search(query); BoldFormatter formatter = new BoldFormatter(); Highlighter highlighter = new Highlighter(formatter, new QueryScorer(query)); highlighter.setTextFragmenter(new SimpleFragmenter(50)); for (int i = 0; i < hits.length(); i++) { String text = hits.doc(i).get("filename"); // int maxNumFragmentsRequired = 5; // String fragmentSeparator = "..."; // TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(hits.id(i), "contents"); // TokenStream tokenStream = TokenSources.getTokenStream(tpv); // String result = highlighter.getBestFragments(tokenStream, text, // maxNumFragmentsRequired, fragmentSeparator); // System.out.println("\n" + result); System.out.println(text); } reader.close(); } } }
发表评论
-
DOM Core常用部分
2013-02-22 09:27 1064DOM方法创建节点:createElement(),cre ... -
HTML5上传
2012-04-17 22:16 1234package com.XXX.xheditor.servle ... -
Select选中项
2011-11-23 15:43 927方法一: html源码: <select n ... -
FCKeditor: 返回自动加入html代码问题的解决方法
2011-11-22 17:03 989使用FCKeditor编辑文章,有时候出于某种原因,提交失败了 ... -
开源文档播放器
2011-10-23 11:09 823播放器及组件下载地址:http://code.google.c ... -
JAVA去除A标签和IMG标签
2011-10-10 19:10 7056public static void main(String ... -
JAVA去除HTML代码
2011-10-10 17:36 733import java.util.regex.Matcher; ... -
JAVA制作缩略图
2011-10-10 17:19 882package graphicsTest; import ...
相关推荐
本文将深入探讨如何在Lucene中高效地进行中文分词,借助“庖丁解牛”的概念,以求在理解与应用上达到游刃有余的境地。 一、Lucene简介 Lucene是Java语言编写的一个高性能、可扩展的信息检索库,它提供了完整的搜索...
然而,由于中文的复杂性,简单的英文分词策略无法满足需求,于是有了针对中文的分词方法——"庖丁解牛分词法"。该方法是专门为了解决Lucene在处理中文文本时的分词难题而设计的。在本文中,我们将深入探讨这一分词法...
本文将深入探讨“Lucene加庖丁解牛测试类”,旨在帮助读者理解Lucene的核心概念,并通过实际的测试类解析,提升对Lucene的运用能力。 首先,我们需要理解“庖丁解牛”的含义。这源自古代典故,意指做事技艺娴熟,能...
《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...
实例是一个java实例,可直接导入到MyEclipse中...其中是lucene3.0整合了庖丁解牛分词法,添加了高亮显示。因为lucene3.0无法整合paoding-analysis.jar 所以我已经把paoding-analysis中的源码整合进来了避免无法整合问题
总的来说,结合Apache Lucene与庖丁解牛,可以构建出强大的中文全文检索系统。在实际应用中,理解并熟练运用这两者的结合,将极大地提升你的文本处理能力,为用户提供更加智能、精准的搜索体验。
对于中文来说,分词是Analyzer面临的最大挑战,因为中文没有明显的词边界,这与英文等其他语言有着显著的区别。 中文分词是Lucene处理中文文本时的重点。Lucene提供了多种Analyzer实现,其中最常用的便是`...
而"庖丁解牛"则为Lucene提供了针对中文的分词支持,使得开发者可以更好地处理中文文档,提高了搜索的准确性和效率。它的特点包括对中文词汇的精准识别,对新词的动态学习,以及对多音字、成语和网络用语的有效处理。...
《庖丁解牛 源码 for Lucene 2.4》是一份针对开源全文搜索引擎Lucene 2.4版本的深度解析资料。这个压缩包包含的文件名为"paoding-for-lucene-2.4",很可能是针对中文处理的Paoding Lucene库的源代码分析或扩展。...
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
《深入剖析Lucene3.0:庖丁解牛与索引搜索实践》 在IT行业中,搜索引擎技术扮演着至关重要的角色,而Lucene作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene3.0版本,结合“庖丁解...
"庖丁解牛"分词器可以方便地与Lucene进行集成,用于提升搜索系统的中文处理能力。在集成到Lucene 3.0版本时,由于版本间的接口和功能可能会有所变化,因此可能需要进行一些适应性修改。这通常涉及到调整配置文件、...
《使用Lucene最新版与庖丁解牛方法构建搜索引擎》 在信息技术日新月异的今天,搜索引擎已经成为了我们获取信息的重要工具。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于各种搜索引擎的开发中。本文将...
可以适用于lucene3.5的庖丁解牛分词器jar包
一直找不到适合lucene-35以上的庖丁解牛jar包,搞了半天总于生成好了jar包,在lucene-35中运行没问题
资源为庖丁解牛分词法的最新源码以及生成的jar包,支持最新的Lucene3.4以及Lucene3.0以上版本。Jar包为本地生成,大家也可以到SVN上检出自己生成,另外庖丁解牛分词法的使用Demo我会接下来上传一份,欢迎分享。
标题 "sorlr + tomcat+ 庖丁解牛中文分词 配置文档" 提到的是一个关于在Apache Solr中集成Tomcat服务器,并利用庖丁解牛中文分词工具进行中文处理的配置教程。这个配置过程对于搭建支持中文搜索的Solr环境至关重要。...
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...