- 浏览: 1068163 次
- 性别:
- 来自: 长沙
文章分类
- 全部博客 (639)
- 服务器配置篇 (58)
- hibernate篇 (14)
- spring篇 (33)
- struts篇 (28)
- JS篇 (46)
- 其他技术篇 (46)
- 数据库集群配置 (6)
- JAVA基础相关 (48)
- 分布式框架HadHoop的应用 (2)
- FLEX篇 (8)
- SQLSERVER技术 (32)
- Android学习 (13)
- amchart学习笔记 (1)
- openfire+smark搭建即时通讯 (9)
- Linux学习 (18)
- Oracle数据库 (15)
- 网站优化技术 (12)
- mysql数据库 (2)
- 项目学习总结 (18)
- 工具类(JAVA) (12)
- 工具类(JS) (2)
- 设计模式 (10)
- Lucene学习 (24)
- EJB3学习 (6)
- Sphinx搜索引擎 (3)
- 工作中用到的软件小工具 (5)
- .NET (49)
- JAVA 连接SQLSERVER2008步骤 (1)
- MongoDB (19)
- Android手机开发 (3)
- Maven (6)
- vue (9)
- Shiro (4)
- mybatis (3)
- netty框架 (1)
- SpringCloud (3)
- spring-cloud (7)
- Git (1)
- dubbo (2)
- springboot (13)
- rocketmq (1)
- git学习 (2)
- kafka服务器 (2)
- linux (10)
- WEB系统辅助项目 (1)
- jenkins (2)
- docker (4)
- influxdb (3)
- python (2)
- nginx (1)
最新评论
-
jiangfuofu555:
这样数据量大,效率怎么样?
sqlserver 实现分页的前台代码 以及后台的sqlserver语句 -
w156445045:
博主请问下,如何做到实时的刷新呢,
另外我后台是Java 谢谢 ...
web 版本的汽车仪表盘,非常好看。还有各种图形 -
jackyin5918:
<transportConnector name=&qu ...
ActiveMQ的activemq.xml详细配置讲解 -
握着橄榄枝的人:
你这个不是spring1.x的吧
spring1.x使用AOP实例 -
xiaophai:
全乱套了!
openfire+spark搭建完美的及时通讯
public void index() throws CorruptIndexException,
LockObtainFailedException, IOException {
// 索引目录
File indexDir = new File("D:/workspace/code/java/TestLucene3/index/txt/test/");
// 注意:这里建立索引用的分词方法,在搜索时分词也应该采用同样的分词方法。不然搜索数据可能会不正确
// 使用Lucene自带分词器
Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);
// 第一个参数是存放索引文件位置, 第二个参数是使用的分词方法, 第三个:true,建立全新的索引,false,建立增量索引。
// IndexWriter indexWriter = new IndexWriter(indexDir, luceneAnalyzer, true);
// 第一个参数是存放索引目录有FSDirectory(存储到磁盘上)和RAMDirectory(存储到内存中), 第二个参数是使用的分词器, 第三个:true,建立全新的索引,false,建立增量索引,第四个是建立的索引的最大长度。
IndexWriter indexWriter = new IndexWriter(FSDirectory.open(indexDir),
luceneAnalyzer, true, IndexWriter.MaxFieldLength.LIMITED);
// 索引合并因子
// SetMergeFactor(合并因子)
// SetMergeFactor是控制segment合并频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,
// 将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。
indexWriter.setMergeFactor(100);
// SetMaxBufferedDocs(最大缓存文档数)
// SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目,
// 设置较大的数目可以加快建索引速度,默认为10。
indexWriter.setMaxBufferedDocs(100);
// SetMaxMergeDocs(最大合并文档数)
// SetMaxMergeDocs是控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,默认Integer.MAX_VALUE,无需修改。
// 在创建大量数据的索引时,我们会发现索引过程的瓶颈在于大量的磁盘操作,如果内存足够大的话,
// 我们应当尽量使用内存,而非硬盘。可以通过SetMaxBufferedDocs来调整,增大Lucene使用内存的次数。
indexWriter.setMaxMergeDocs(1000);
// SetUseCompoundFile这个方法可以使Lucene在创建索引库时,会合并多个 Segments 文件到一个.cfs中。
// 此方式有助于减少索引文件数量,对于将来搜索的效率有较大影响。
// 压缩存储(True则为复合索引格式)
indexWriter.setUseCompoundFile(true);
long startTime = new Date().getTime();
String temp = "";
// 增加索引字段
//Lucene2.0API中的Field介绍
// 在Field中有三个内部类:Field.Index,Field.Store,Field.termVector,而构造函数也用到了它们。
// 参数说明:
// Field.Store:
// Field.Store.NO:表示该Field不需要存储。
// Field.Store.Yes:表示该Field需要存储。
// Field.Store.COMPRESS:表示使用压缩方式来存储。
// Field.Index:
// Field.Index.NO:表示该Field不需要索引。
// Field.Index.TOKENIZED:表示该Field先被分词再索引。
// Field.Index.UN_TOKENIZED:表示不对该Field进行分词,但要对其索引。
// Field.Index.NO_NORMS:表示该Field进行索引,但是要对它用Analyzer,同时禁止它参加评分,主要是为了减少内在的消耗。
// TermVector这个参数也不常用,它有五个选项。
// Field.TermVector.NO表示不索引Token的位置属性;
// Field.TermVector.WITH_OFFSETS表示额外索引Token的结束点;
// Field.TermVector.WITH_POSITIONS表示额外索引Token的当前位置;
// Field.TermVector.WITH_POSITIONS_OFFSETS表示额外索引Token的当前和结束位置;
// Field.TermVector.YES则表示存储向量。
// 增加文档 Field相当于增加数据库字段一样检索,获取都需要的内容,直接放index中,不过这样会增大index,保存文件的txt内容
/**
* Field.Store 表示“是否存储”,即该Field内的信息是否要被原封不动的保存在索引中。
* Field.Index 表示“是否索引”,即在这个Field中的数据是否在将来检索时需要被用户检索到,一个“不索引”的Field通常仅是提供辅助信息储存的功能。
* Field.TermVector 表示“是否切词”,即在这个Field中的数据是否需要被切词。
*
*Lucene3.0
*Field.Index.ANALYZED 表示分词并索引
*Field.Index.NOT_ANALYZED 表示不分词但索引
*Field.Index.NOT_ANALYZED_NO_NORMS 对应的是2中的Field.Index.NO_NORMS
/
Field fieldPath = new Field("path", "", Field.Store.YES, Field.Index.NO);
Field fieldBody = new Field("content", temp, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
Field fieldId = new Field("id", "", Field.Store.YES, Field.Index.NOT_ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
Document document = new Document();
// 做测试,循环100000遍建索引。也可以读取文件内容建索引
for (int i=0; i<100000; i++) {
document = new Document();
temp = "王熙凤历幻返金陵 甄应嘉蒙恩还玉阙";
fieldPath.setValue("D:\\workspace\\code\\java\\TestLucene3\\txt\\" + i + ".txt");
fieldBody.setValue(temp);
fieldId.setValue(String.valueOf(i));
document.add(fieldPath);
document.add(fieldBody);
document.add(fieldId);
indexWriter.addDocument(document);
i++;
}
//optimize()方法是对索引进行优化
indexWriter.optimize();
indexWriter.close();
// 若需要从索引中删除某一个或者某一类文档,IndexReader提供了两种方法:
// reader.DeleteDocument(int docNum)
// reader.DeleteDocuments(Term term)
// 前者是根据文档的编号来删除该文档,docNum是该文档进入索引时Lucene的编号,是按照顺序编的;后者是删除满足某一个条件的多个文档。
// 在执行了DeleteDocument或者DeleteDocuments方法后,系统会生成一个*.del的文件,该文件中记录了删除的文档,但并未从物理上删除这些文档。此时,这些文档是受保护的,当使用Document
// doc = reader.Document(i)来访问这些受保护的文档时,Lucene会报“Attempt to access a
// deleted document”异常。如果一次需要删除多个文档时,可以用两种方法来解决:
// 1. 删除一个文档后,用IndexWriter的Optimize方法来优化索引,这样我们就可以继续删除另一个文档。
// 2. 先扫描整个索引文件,记录下需要删除的文档在索引中的编号。然后,一次性调用DeleteDocument删除这些文档,再调用IndexWriter的Optimize方法来优化索引。
long endTime = new Date().getTime();
System.out.println("\n这花费了" + (endTime - startTime) + " 毫秒增加到索引!");
}
--------------------
查询:
/** * 查询 * * @param String word 关键词 * @param String filedName 域字段 * @param String indexDir 索引位置 * @throws CorruptIndexException * @throws IOException * @throws ParseException * @auther <a href="mailto:gaoxuguo@feinno.com">Gao XuGuo</a> Nov 30, 2009 * 2:56:42 PM */ public List<Map<String, String>> search(String indexDir) throws CorruptIndexException, IOException, ParseException { File file = new File(indexDir); IndexSearcher is = new IndexSearcher(FSDirectory.open(file), true); String field = "content"; BooleanQuery bq = new BooleanQuery(); QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, field, new StandardAnalyzer(Version.LUCENE_CURRENT)); Query query = parser.parse("content:王熙凤"); Query q = new TermQuery(new Term("id","100")); bq.add(q,Occur.SHOULD); bq.add(query,Occur.SHOULD); // 100表示取前100条数据 TopScoreDocCollector collector = TopScoreDocCollector.create(100, true); long start = new Date().getTime();// start time /** * Lucene内置了三个Filter子类: * 1)DateFilter使搜索只限于指定的日期域的值在某一时间范围内的文档空间里 * 2)QueryFilter把查询结果做为另一个新查询可搜索的文档空间 * 3)CachingWrappperFilter是其他过滤器的装饰器,将结果缓存起来以便再次使用,从而提高性能。 * */ String[] dirs = {indexDir}; MultiSearcher ms = this.getMultiSearcher(dirs); ms.search(bq, collector); // is.search(bq, collector); ScoreDoc[] docs = collector.topDocs().scoreDocs; Document doc; for (ScoreDoc sd : docs) { doc = is.doc(sd.doc); // 取得doc里面的Field并从doc里面读取值 for (Fieldable fa : doc.getFields()) { System.out.print(fa.name() + "=" + doc.get(fa.name()) + " "); } System.out.println(); } long end = new Date().getTime(); if(is != null) is.close(); System.out.println("找到 " + collector.getTotalHits() + " 条数据,花费时间 " + (end - start) + " 秒"); return null; }
少发了一个方法:
/** * 得到MultiSearcher多目录查询实例 * * @param String[] dirs 要查询的索引目录。 * * @return MultiSearcher * @throws IOException * @auther <a href="mailto:gaoxuguo@feinno.com">Gao XuGuo</a> * Jan 22, 2010 3:44:16 PM */ private MultiSearcher getMultiSearcher(String[] dirs) throws IOException { // 多目录 IndexSearcher [] searchers = new IndexSearcher[dirs.length]; int i = 0; for (String dir : dirs) { searchers[i] = new IndexSearcher(FSDirectory.open(new File(dir)), true); i++; } // 多目录查询 return new MultiSearcher(searchers); }
总结,对于LUCENE3和2来比,在建立索引和查找索引上的API有很大的变化,但是对于2和3的LUCENE的QUERY仍然是通用的,变化不大,除了QueryParser类,其他的布尔查询,跨度查询等都是可以用的。
发表评论
-
使用Lucene-Spatial实现集成地理位置的全文检索
2015-05-27 17:33 1344Lucene通过Spatial包提供了对基于地理位置的 ... -
Lucene4.10.2开发之高亮显示
2015-05-05 23:13 603转载请注明,原创地址,谢谢配合! http://qindo ... -
bobo-browse
2011-02-10 10:22 2810bobo-browse 是一款用java写的lucene扩展组 ... -
Lucene 2 通过updateDocument更新索引
2010-12-30 15:47 2067package com.lucene; i ... -
Lucene3 查询索引
2010-12-22 22:46 1779package lucene3; import java.i ... -
Lucene3 建立索引
2010-12-22 22:25 1409Lucene3在建立索引的API上有比较大的变化。直接上程序: ... -
Lucene 3.0的简单解析及变化
2010-12-22 21:59 1148一、 概述 Lucene3 ... -
Lucene分词器之庖丁解牛
2010-12-22 07:47 3499注意:这里配置环境变量要重新启动系统后生效 我现在测试 ... -
Lucene从结果中取出数据
2010-12-21 20:23 1238有些应用,比如我们首先要搜索一个Person的索引文件,然后通 ... -
Lucene过滤器
2010-12-21 20:05 3799有的应用有些要求,对于某类型的内容即使满足条件了,但是也不能被 ... -
Lucene对于短语匹配查询的用法
2010-12-21 17:41 1386通常对于ID查询或者是比较确定字段内容的查询,我们就用: T ... -
Lucene 对所查的结果进行排序
2010-12-20 23:01 1227前面介绍完查询以后,现在要对查询结果进行排序的显示。 代码: ... -
Lucene 搜索方法(模糊搜索)
2010-12-20 11:54 3523LUCENE提供了一种模糊搜 ... -
Lucene 搜索方法(多短语搜索)
2010-12-20 11:42 1198短语搜索解决了短语搜索的问题,在很多情况下,用户输入某个关键字 ... -
Lucene 搜索方法(短语搜索)
2010-12-20 11:15 1830用户在搜索的时候,更多的情况是输入一个以上的关键字,这些关键字 ... -
Lucene 搜索方法(前缀搜索)
2010-12-20 10:27 1891PrefixQuery是一种前缀搜索,在检索的时候,常常需要进 ... -
Lucene 的索引读取工具(IndexReader)
2010-12-19 23:00 1617Lucene有一个很重要的工具IndexReader负责对索引 ... -
Lucene 搜索方法(范围搜索)
2010-12-19 22:54 1298在某些情况下,用户需要查找一定范围内的文档,比如时间,ID等。 ... -
Lucene 搜索方法(布尔搜索)
2010-12-19 22:04 1626布尔搜索: 布尔查询的对象中,包含一个子句的集合。各种子句间都 ... -
Lucene 搜索方法(词条搜索)
2010-12-19 21:15 1266词条搜索是LUCENE最为简单的一种搜索方式,通过对某个固定的 ...
相关推荐
3. 构建查询:使用QueryParser或者QueryBuilder创建查询对象,指定查询字段和查询字符串。 4. 执行搜索:调用IndexSearcher的search方法,传入查询对象和TopDocs参数,获取匹配的文档及其分数。 5. 处理结果:遍历...
**Lucene.net 知识点详解** Lucene.net 是 Apache Lucene 的 .NET 版本,...以上就是关于 Lucene.net 建立索引、检索及分页的关键知识点。理解并熟练运用这些概念,可以帮助开发者构建高效、灵活的全文搜索解决方案。
1. **索引过程**:Lucene 的核心概念之一是建立索引,将原始文本数据转化为可快速查询的结构。这个过程包括分析(Analyzer)文本、分词、创建倒排索引等步骤。倒排索引允许我们快速定位包含特定词汇的文档。 2. **...
lucene 的主要任务是处理文本数据,通过对输入的字符串进行分析,将其拆分成有意义的词语(tokens),并建立索引。这个过程包含了分词、去除停用词等预处理步骤,以提升搜索效率和准确性。通过lucene,你可以快速地...
**建立索引的基本步骤**: 1. 创建Directory对象,指定索引文件的存储位置,如FSDirectory实例。 2. 初始化IndexWriter对象,传入Directory对象、Analyzer、是否创建新索引及最大段大小。 3. 获取待索引文件列表,...
- **索引**: Lucene首先对文档内容建立索引,这个过程类似于书籍的目录,使得搜索能快速定位到目标文档。索引由倒排索引(Inverted Index)构成,将每个词与包含这个词的文档对应起来。 - **文档**: 在Lucene中,...
文档是信息的基本单元,可以被索引和查询。 3. **分词器(Analyzer)**:在创建索引时,Lucene会使用分词器将文本拆分成关键词。分词器的选择取决于所处理的语言,例如,对于中文,我们可以使用IK Analyzer或Smart ...
**Lucene文档笔记详解** Lucene,源自Apache软件基金会4 Jakarta项目组,是一个备受开发者青睐的开源全文检索引擎工具包。它提供了强大的文本分析、索引构建和搜索功能,但值得注意的是,Lucene本身并不包含完整的...
- **步骤3:建立倒排索引** - 对每个字段的关键词创建一个倒排索引,其中包含关键词及其在文档中的位置信息。 - **步骤4:保存索引** - 将构建好的索引写入磁盘,以便后续搜索使用。 4. **提高索引速度的技巧** ...
### 建立索引 索引是Lucene搜索的核心,它允许快速查找相关文档。索引过程由`IndexWriter`类负责,它会分析文件内容并创建倒排索引。倒排索引是一种数据结构,将每个单词映射到包含该词的文档列表。在Lucene中,可以...
本文主要是利用Lucene对MS Sql Server 2000进行建立索引,然后进行全文索引。至于数据库的内容,可以是网页的内容,还是其它的。本文中数据库的内容是图书馆管理系统中的某个作者表- Authors表。
**Lucene索引详解** Lucene是Apache软件基金会的一个开源全文搜索引擎库,它提供了一种高效、可扩展的全文检索框架。作为一个纯Java库,Lucene可以被集成到任何Java应用中,帮助开发者轻松实现搜索功能。在深入理解...
本篇文章将深入探讨Lucene 3.4版本的基础应用,包括如何建立索引、更新索引以及执行查询。 ### 一、建立索引 在Lucene中,建立索引是搜索的第一步。首先,我们需要创建一个`IndexWriter`实例,这是负责写入索引的...
2. 可扩展性:Lucene支持多线程索引和查询,可以方便地集成到分布式系统中,满足大数据量的处理需求。 3. 灵活性:Lucene提供了一套完整的API,开发者可以根据需要自定义分词器、评分策略等,实现个性化的全文检索...
**Lucene 3.0.1 全文检索引擎架构详解** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发。...在实际应用中,无论是在文件系统还是数据库中,Lucene 都能有效建立索引并提供高效的搜索服务。