- 浏览: 2182360 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (682)
- 软件思想 (7)
- Lucene(修真篇) (17)
- Lucene(仙界篇) (20)
- Lucene(神界篇) (11)
- Solr (48)
- Hadoop (77)
- Spark (38)
- Hbase (26)
- Hive (19)
- Pig (25)
- ELK (64)
- Zookeeper (12)
- JAVA (119)
- Linux (59)
- 多线程 (8)
- Nutch (5)
- JAVA EE (21)
- Oracle (7)
- Python (32)
- Xml (5)
- Gson (1)
- Cygwin (1)
- JavaScript (4)
- MySQL (9)
- Lucene/Solr(转) (5)
- 缓存 (2)
- Github/Git (1)
- 开源爬虫 (1)
- Hadoop运维 (7)
- shell命令 (9)
- 生活感悟 (42)
- shell编程 (23)
- Scala (11)
- MongoDB (3)
- docker (2)
- Nodejs (3)
- Neo4j (5)
- storm (3)
- opencv (1)
最新评论
-
qindongliang1922:
粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues -
粟谷_sugu:
不太理解“分词字段存储docvalue是没有意义的”,这句话, ...
浅谈Lucene中的DocValues -
yin_bp:
高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的? -
hackWang:
请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法 -
章司nana:
遇到的问题同楼上 为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)
上次笔者简单介绍下了,Lucene的入门搭建以及一个添加的Demo,这次写了一个包含增删改查比较完整的例子,以供各位入门新手的道友们参考,当然这个只是最简单的封装,有很多参数都是写死的 ,所以有点不灵活,各位朋友也可以自己试着参考笔者的Demo封装一个比较通用的例子,在实际的项目环境中,封装一定要做到既通用又灵活,这个看各位的业务的需求了,不同的业务需求可能不一样。
在入门,搭建好最基本的环境之后,增删改查只是一个最基础层次也是不可或缺的必要的一部分,后续根据业务的复杂层次不一样,可能需要用到各种技术,包括分词,评分,分组,排序,增量,高亮,拼写检查,文本聚类,各种复杂的检索等等,这些都是构成一个成熟的全文检索技术的基础,这些东西,笔者会在后续的文章中发表出来,共同分享学习下Lucene这个优秀的开源的全文检索技术的强大。
下面不在废话,给出这个demo完整的源码。如有疑问,错误之处欢迎指出,期待与你的共同交流 。
至此,各位朋友们就可以实现一个自己的小检索程序了
最好是单例的
在入门,搭建好最基本的环境之后,增删改查只是一个最基础层次也是不可或缺的必要的一部分,后续根据业务的复杂层次不一样,可能需要用到各种技术,包括分词,评分,分组,排序,增量,高亮,拼写检查,文本聚类,各种复杂的检索等等,这些都是构成一个成熟的全文检索技术的基础,这些东西,笔者会在后续的文章中发表出来,共同分享学习下Lucene这个优秀的开源的全文检索技术的强大。
下面不在废话,给出这个demo完整的源码。如有疑问,错误之处欢迎指出,期待与你的共同交流 。
package com.serviceimpl; import java.io.File; import java.io.IOException; import java.util.HashMap; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field.Store; import org.apache.lucene.document.StringField; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.Term; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.PhraseQuery; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TermQuery; import org.apache.lucene.search.TopDocs; import org.apache.lucene.search.WildcardQuery; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import com.service.LuceneDao; /** * @author 三劫散仙 * LuceneDao接口的实现类 * **/ public class LuceneDaoImpl implements LuceneDao { /** * 抽象的父类文件夹 * */ public static Directory directory; /** * 返回IndexWriter * */ public static IndexWriter getWriter() throws Exception{ Analyzer analyzer=new StandardAnalyzer(Version.LUCENE_43);//设置标准分词器 ,默认是一元分词 IndexWriterConfig iwc=new IndexWriterConfig(Version.LUCENE_43, analyzer);//设置IndexWriterConfig // iwc.setRAMBufferSizeMB(3);//设置缓冲区大小 return new IndexWriter(directory,iwc); } /*** * @param indexPath 查询的路径 * @param field 查询的字段类型 * @param searchText 搜索的文本 * * * **/ public void searchTermQuery(String indexPath,String field,String searchText){ try { directory=FSDirectory.open(new File(indexPath));//打开索引库 IndexReader reader=DirectoryReader.open(directory);//流读取 IndexSearcher search=new IndexSearcher(reader);//搜索 //Query q=new PhraseQuery();//查询实例 Query q=new TermQuery(new Term(field, searchText)); //q.add(); TopDocs td=search.search(q, 1000);//获取最高得分命中 for(ScoreDoc doc:td.scoreDocs){ Document d=search.doc(doc.doc); System.out.println("id:"+d.get("id")); System.out.println("name:"+d.get("name")); System.out.println("content:"+d.get("content")); } reader.close();//关闭读取流 directory.close();//文件夹 } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } /** * 添加的方法 * */ @Override public void add(String indexWriterPath) { IndexWriter writer=null; try{ directory=FSDirectory.open(new File(indexWriterPath));//打开存放索引的路径 writer=getWriter(); Document doc=new Document(); doc.add(new StringField("id", "5", Store.YES));//ID类型不分词存储 doc.add(new TextField("name", "秋去春来,几多愁", Store.YES));//name使用默认一元分词 doc.add(new TextField("content", "命运总是颠沛流离,命运总是崎岖厉害", Store.YES));//存储 // doc.add(new StringField("id", "1", Store.YES));//存储 // doc.add(new StringField("name", "张飞", Store.YES));//存储 // doc.add(new StringField("content", "也许放弃,才能靠近你!", Store.YES));//存储 writer.addDocument(doc);//添加进写入流里 writer.forceMerge(1);//优化压缩段,大规模添加数据的时候建议,少使用本方法,会影响性能 writer.commit();//提交数据 System.out.println("添加成功"); }catch(Exception e){ e.printStackTrace(); }finally{ if(writer!=null){ try{ writer.close();//关闭流 }catch(Exception e){ e.printStackTrace(); } } } } /*** * 简单查询的方法 * @param indexReadPath 读取的索引路径 * @param filed 查询的字段类型 * @param searchText查询的文本 * */ public void simpleSearch1(String indexReadPath, String field, String searchText) { try{ directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹 IndexReader reader=DirectoryReader.open(directory);//读取目录 IndexSearcher search=new IndexSearcher(reader);//初始化查询组件 //Query query=new TermQuery(new Term(field, searchText));//查询 QueryParser parser=new QueryParser(Version.LUCENE_43, field, new StandardAnalyzer(Version.LUCENE_43));//标准分析器查询时候一元分词效果 Query query=parser.parse(searchText); TopDocs td=search.search(query, 10000);//获取匹配上元素的一个docid ScoreDoc[] sd=td.scoreDocs;//加载所有的Documnet文档 System.out.println("本次命中数据:"+sd.length); for(int i=0;i<sd.length;i++){ int z=sd[i].doc;//获取每一个文档编号 Document doc=search.doc(z);//获取文档 System.out.println("id:"+doc.get("id")); System.out.println("name:"+doc.get("name")); System.out.println("content:"+doc.get("content")); } reader.close();//关闭资源 directory.close();//关闭连接 }catch(Exception e){ e.printStackTrace(); } } /*** * 查询数据总量 * @param indexFile 索引路径 * */ public int findIndexDbCount(String indexFile) { int total = 0; try { Directory dir = FSDirectory.open(new File(indexFile));//打开文件夹 IndexReader reader = DirectoryReader.open(dir);//读取数据 total = reader.numDocs();//数据总量 reader.close();//释放资源 dir.close();//释放资源 } catch (Exception e) { e.printStackTrace(); } return total; } /*** * 删除方法 * @param indexPath 索引路径 * @param id 根据ID删除 * */ @Override public void delete(String indexPath, String id) { try{ directory=FSDirectory.open(new File(indexPath));//打开文件索引目录 IndexWriter writer=getWriter(); IndexReader reader=DirectoryReader.open(directory);//读取目录 Query q=new TermQuery(new Term("id", id)); writer.deleteDocuments(q);//删除指定ID的Document writer.commit();//提交 writer.close();//关闭 reader.close();//关闭 System.out.println("删除id为"+id+"的记录成功"); }catch(Exception e){ e.printStackTrace(); } } /*** * 根据ID进行更行的方法 * * */ @Override public void updateByID(String indexPath, String docID, HashMap<String, String> map) { try{ directory=FSDirectory.open(new File(indexPath));//打开文件索引目录 IndexWriter writer=getWriter(); //IndexReader reader=DirectoryReader.open(directory);//读取目录 //Document doc=reader.document(Integer.parseInt(docID)); Document d=new Document(); d.add(new StringField("id",map.get("id").toString(),Store.YES)); d.add(new TextField("name",map.get("name").toString(),Store.YES)); d.add(new TextField("content",map.get("content").toString(),Store.YES)); writer.updateDocument(new Term("id", docID), d); writer.commit(); writer.close();//关闭 directory.close();//关闭 System.out.println("更新成功!"); }catch(Exception e){ e.printStackTrace(); } } }
至此,各位朋友们就可以实现一个自己的小检索程序了
评论
5 楼
qindongliang1922
2015-01-20
潦倒几句 写道
Directory indexwrite每次都要重新创建,还是只需创建一次
最好是单例的
4 楼
潦倒几句
2015-01-19
Directory indexwrite每次都要重新创建,还是只需创建一次
3 楼
yibuyimeng
2014-11-21
QueryParser parser 你所给的jar包中,没有这个类
2 楼
qindongliang1922
2014-08-12
代码里,有注释,自己看
1 楼
gongrunlian
2014-08-11
我觉得楼主可以讲讲StringField、TextField的用法、区别,Store.YES是干什么的,等等,这样把代码贴在这里注释这行是在干什么没有多大意义,谢谢。
发表评论
-
Lucene4.3开发之第十步之渡劫后期(十)
2014-01-15 20:23 4633转载请务必注明,原创 ... -
Lucene4.3开发之第九步之渡劫中期(九)
2014-01-13 21:41 4061转载请务必注明,原创地址,谢谢配合! http://qind ... -
Lucene4.3开发之插曲之落寞繁华
2013-11-07 19:22 4357转载请注明,原创地址,谢谢配合! http://qindon ... -
Lucene4.3开发之第八步之渡劫初期(八)
2013-10-08 19:30 7032转载请注明,原创地址,谢谢配合! http://qin ... -
Lucene4.3开发之第七步之合体后期(七)
2013-09-16 20:17 4486转载请注明原创地址: http://qindongliang1 ... -
Lucene4.3开发之插曲之烽火连城
2013-09-06 18:12 5938转载请注明,原创地址,谢谢配合! http://qindon ... -
Lucene4.3开发之第六步之分神中期(六)
2013-08-30 20:17 6247转载请注明,原创地址,谢谢配合! http://qindo ... -
Lucene4.3开发之插曲之斗转星移
2013-08-26 18:08 4578允许转载,转载请注明原创地址: http://qindo ... -
Lucene4.3开发之插曲之包容万物
2013-08-20 15:23 7914允许转载,转载请注明原创地址: http://qindong ... -
Lucene4.3开发之第五步之融丹筑基(五)
2013-08-14 17:57 8559本文章允许转载,转载请注明原创地址 http://qin ... -
Lucene4.3开发之第四步之脱胎换骨(四)
2013-08-09 18:40 9950为防止,一些小网站私自盗用原文,请支持原创 原文永久链 ... -
Lucene4.3开发之第三步之温故知新(三)
2013-08-07 18:30 5040前面几篇笔者已经把Lucene的最基本的入门,介绍完了,本篇就 ... -
Lucene4.3开发之第一步小试牛刀(一)
2013-07-25 16:47 8291首页,本篇适合对于刚 ... -
lucene开发序幕曲之luke神器
2013-07-25 11:28 8402lucene是一款很优秀的全 ... -
lucene4.x的分组实现
2013-06-24 11:51 4561lucene在4.x之前,没有实现分组的功能,如果业务中有需要 ... -
solr4.2的入门部署
2013-06-24 11:00 2862solr 4.2的入门配置 第一步,从官网上下载下 ...
相关推荐
Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会...
在IT领域,Lucene是一个非常著名的全文搜索引擎库,由Apache软件基金会开发。它提供了一个可扩展的、高性能的搜索框架,使得开发者能够轻松地在应用程序中实现全文检索功能。在"lucene4.3 按坐标距离排序"这个主题中...
lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。
全文检索lucene 4.3 所用到的3个jar包,包含lucene-queryparser-4.3.0.jar、 lucene-core-4.3.0.jar、lucene-analyzers-common-4.3.0.jar。
lucene4.3源代码 censed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information ...
Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发并维护。在Java编程环境中,它为开发者提供了强大的文本检索功能,使得在海量数据中快速查找相关信息变得简单易行。本篇文章将详细探讨Lucene 4.3.1版本的...
1.XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。 输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。 可访问 http://www.xunta.so立即体验...
本文将深入探讨IKAnalyzer的特性和其在Lucene 4.3中的兼容性问题及其解决方案。 **IKAnalyzer简介** IKAnalyzer( Intelligent Keyword Analyzer)是一款基于Java实现的中文分词工具,它主要针对中文的特性进行了...
根据给定文件信息,这里将详细介绍关于《Lucene in Action 第二版》书籍的知识点。这本书是关于Java Lucene教程的,主要面向开发者学习使用Lucene进行搜索引擎开发。 ### 书名知识点: 《Lucene in Action 第二版...
《基于Lucene的JavaEE项目开发详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,而Lucene作为开源全文搜索引擎库,以其高效、灵活的特点被广泛应用于各种JavaEE项目中。本项目将深入探讨如何利用Lucene...
Lucene3.4开发入门.pdf
经典的Lucene资源
- **建立索引**:这是Lucene搜索的第一步,涉及将数据转换为可搜索的索引结构。这通常包括读取数据源(如文件或数据库),然后将内容解析为文档,并使用分析器对文档内容进行分词。 - **搜索索引**:一旦索引建立...
《Lucene实战(第二版)》是一本深入探讨Apache Lucene全文搜索引擎库的权威书籍,主要面向对Java和搜索引擎技术感兴趣的开发者。这本书详尽地介绍了如何利用Lucene进行信息检索、文本分析和索引构建,同时也涵盖了...
通过学习《Lucene搜索-引擎开发权威经典》的第二部分,读者不仅能掌握Lucene的基本用法,还能深入理解其内部机制,从而在实践中更有效地利用这一强大的全文检索工具。对于希望从事信息检索、搜索引擎开发或大数据...
《Lucene In Action 第二版》是一本深入探讨Apache Lucene全文搜索引擎库的专业书籍,高清中文版的提供为中文读者提供了便利。这本书由Michael McCandless等作者编写,旨在帮助开发者充分利用Lucene的强大功能,构建...
Lucene实战第二版完整清晰中文版是一本介绍Lucene开源全文搜索引擎开发包的书籍。Lucene是一个用Java编写的功能强大的全文搜索引擎库,它以出色的可扩展性和快速的搜索特性获得了广泛的赞誉。本书详细介绍了如何有效...
《Lucene实战(中文版第二版)》是针对搜索引擎开发领域的经典著作,它详细介绍了如何使用Apache Lucene这个强大的全文搜索引擎库。Lucene是Java语言实现的开源项目,被广泛应用于各种信息检索系统中,包括网站搜索...