Lucene之索引建立

okwangxing

浏览: 29269 次
性别:
来自: 杭州

最近访客更多访客>>

miao600

眉眼间的绝美

hexiaojiao

h_h_m2632

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索

lucene Hibernate Office 搜索引擎数据结构

Lucene可对email,网页,文本资料,doc,pdf之类的文档进行索引建立,在建立索引的时候可为以后的排序做些处理.但运行到分布式的环境中,需要考虑建立索引的性能问题,并发问题,多线程问题,死锁问题,一个Document中包含多个Field.

Index的建立大致步骤:

1.源数据文本化
由于index无固定schema,这样就允许了使用者随时的改变index,可以追加字段,重建Document.索引的建立都是分析源数据,从中提取出文本信息,对文本信息进行分析,并储存为索引.源数据可为html,xml,pdf,ms office 文件.这里需要注意的对其文本信息的提取,例如针对xml/html中的标签的过滤.这里可以用到Tika框架.

2.当源数据文本化后,需要对其做处理—analysis
这就对应到Document中的Fields,可调用IndexWriter的addDocument对其分析的数据添加进入索引.在这其中包含很多可选操作,比如:针对大小写区分的LowerCaseFilter.禁词的StopFilter.由此可以,自己可以建立自己的过滤链.

3.文件的存储
分析好的索引需要存储磁盘,而lucene存储的结构是倒排索引(inverted indexed).有利于节省磁盘空间和关键词快速查找.当前主流的搜索引擎皆是利用的倒排索引.

例如:
Xxx – abcd cde x
索引本身告诉外界,xxx我已经在abcd cde x这个句子里面了.

每个数据都有自己的格式,lucene也不例外,针对索引的存储有自己的格式.
每个索引(index)包含一个或者多个块segment,每个块是一个独立的索引.块的创建是在索引的添加,删除的时候,而在搜索的时候会分开访问块,再最终合并到一起.

块文件命名更是 segments_<N>,Lucene第一次打开的就是这些文件,再会打开被块文件引用到的文件.N值会随着索引的改变次数而增加的.格式为整型数.

addDocument(Document)//利用默认的分析器,与创建IndexWriter的分析器相同.
addDocument(Document,Anayzer)

添加索引
a.new Document
b.new Field->添加内容
c.document.add(field);
d.indexWriter.add(document);

Document doc = new Document();
doc.add(new Field("id", ids[i]/*array*/, Field.Store.YES,
Field.Index.NOT_ANALYZED));
doc.add(new Field("city", text[i] /*array*/, Field.Store.YES,
					Field.Index.ANALYZED));
writer.addDocument(doc);

删除索引
在删除或者添加比较多的时候,会影响到索引的吞吐量,推荐做逼批处理的添加或者删除,来获得更好的性能.在这里的删除是"软删除",可调用expungeDeletes来删除磁盘上的所以已标识删除的数据.
a.Term/Query
b.indexWriter.deleteDocument(??)

deleteDocuments(Term)// deletes all documents containing the provided term.
deleteDocuments(Term[])// deletes all documents containing any of the terms in the provided array.
deleteDocuments(Query)// deletes all documents matching the provided query.
deleteDocuments(Query[])// deletes all documents matching any of the queries in the provided.

@Test
public void testDelete() throws Exception{
	IndexWriter iw = new IndexWriter(directory,new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	iw.deleteDocuments(term);
	iw.optimize();
	assertEquals(iw.numDocs(), 1);
	iw.close();
}

通过各Term删除单个document.
IndexWriter,IndexReader中的maxDoc()与numDocs()
maxDoc()返回下一个可取得文档的内部编号.
numDocs()返回未被删除的document数目.

更新索引

updateDocument(Term, Document)// first deletes all documents containing the provided term and then adds the new document using the writer’s default analyzer.
updateDocument(Term, Document, Analyzer)// does the same, but uses the provided analyzer instead of the writer’s default analyzer.

@Test
public void testUpdate() throws Exception {
	IndexWriter iw = new IndexWriter(directory, new WhitespaceAnalyzer(),IndexWriter.MaxFieldLength.UNLIMITED);
	Term term = new Term("id", "1");
	Document doc = new Document();
	doc.add(new Field("id", "3", Field.Store.YES,
					Field.Index.NOT_ANALYZED));
	iw.updateDocument(term, doc);
	iw.optimize();
	assertEquals(iw.maxDoc(),2);
	iw.close();
}

从以上程序中可看出Field是个极其重要的类.在这里定义了几个枚举类型

Index,Store,TermVector

Index:

Index.ANALYZED 
Index.NOT_ANALYZED 
Index.ANALYZED_NO_NORMS
Index.NOT_ANALYZED_NO_NORMS
Index.NO

查询会用到Field,会关系到Field的存储类型
Store

Store.YES //保存,可以被IndexReader说读取.
Store.NO  //不保存.

介于Store与 Index之间的参数,用来提供向量机制的模糊查询
TermVector

TermVector.YES //保存term vectors
TermVector.WITH_POSITIONS //保存term vectors(保存值和token位置信息)
TermVector.WITH_OFFSETS //保存term vectors (保存值和token offset信息)
TermVector.WITH_POSITIONS_OFFSETS //保存term vectors (保存值和token位置信息,token offset信息)
TermVector.NO //不保存term vectors

查看图片附件

分享到：

Lucene中Boost对文档权重的影响 | Lucene之Helloworld

2010-02-25 02:25
浏览 2642
评论(4)
分类:企业架构
查看更多

4 楼 okwangxing 2010-02-25

ladybird2010 写道

求Lucene结合Hibernate的配置实例急。。
您若有Lucene的例子工程，帮忙发一个好吗？最好是可以分词。
Email: gao.guangpei@zte.com.cn 或者ggp123@126.com
非常感谢你！

具体说明,已发邮件到你的邮箱,请查收.

3 楼 okwangxing 2010-02-25

JArcher 写道

最近在研究Lucene？

是的,需要用到这个东西.

2 楼 ladybird2010 2010-02-25

1 楼 JArcher 2010-02-25

最近在研究Lucene？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

手撕源码C++哈希表实现：从底层原理到性能优化，看完面试官都怕你！（文末附源码）: 哈希表源码

sun_3ck_03_0119.pdf: sun_3ck_03_0119

MATLAB实现基于LSTM-AdaBoost长短期记忆网络结合AdaBoost时间序列预测（含模型描述及示例代码）: 内容概要：本文档详细介绍了基于 MATLAB 实现的 LSTM-AdaBoost 时间序列预测模型，涵盖项目背景、目标、挑战、特点、应用领域以及模型架构和代码示例。随着大数据和AI的发展，时间序列预测变得至关重要。传统方法如 ARIMA 在复杂非线性序列中表现欠佳，因此引入了 LSTM 来捕捉长期依赖性。但 LSTM 存在易陷局部最优、对噪声鲁棒性差的问题，故加入 AdaBoost 提高模型准确性和鲁棒性。两者结合能更好应对非线性和长期依赖的数据，提供更稳定的预测。项目还展示了如何在 MATLAB 中具体实现模型的各个环节。适用人群：对时间序列预测感兴趣的开发者、研究人员及学生，特别是有一定 MATLAB 编程经验和熟悉深度学习或机器学习基础知识的人群。使用场景及目标：①适用于金融市场价格预测、气象预报、工业生产故障检测等多种需要时间序列分析的场合；②帮助使用者理解并掌握将LSTM与AdaBoost结合的实现细节及其在提高预测精度和抗噪方面的优势。其他说明：尽管该模型有诸多优点，但仍存在训练时间长、计算成本高等挑战。文中提及通过优化数据预处理、调整超参数等方式改进性能。同时给出了完整的MATLAB代码实现，便于学习与复现。

免费1996-2019年各地级市平均工资数据: 1996-2019年各地级市平均工资数据 1、时间：1996-2019年 2、来源：城市nj、各地级市统计j 3、指标：平均工资（在岗职工） 4、范围：295个地级市

[AB PLC例程源码][MMS_040384]Winder Application.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

C2Former: 解决RGB-红外物体检测中模态校准与融合不精确问题的标定互补变压器: 内容概要：本文介绍了一种新颖的变压器模型C2Former（Calibrated and Complementary Transformer），专门用于解决RGB图像和红外图像之间的物体检测难题。传统方法在进行多模态融合时面临两个主要问题——模态错位（Modality miscalibration）和融合不准确（fusion imprecision）。作者针对这两个问题提出采用互模交叉注意力模块（Inter-modality Cross-Attention, ICA）以及自适应特征采样模块（Adaptive Feature Sampling, AFS）来改善。具体来说，ICA可以获取对齐并且互补的特性，在特征层面进行更好的整合；而AFS则减少了计算成本。通过实验验证了基于C2Former的一阶段和二阶段检测器均能在现有公开数据集上达到最先进的表现。适合人群：计算机视觉领域的研究人员和技术人员，特别是从事跨模态目标检测的研究人员，对Transformer架构有一定了解的开发者。使用场景及目标：适用于需要将可见光和热成像传感器相结合的应用场合，例如全天候的视频监控系统、无人驾驶汽车、无人

上海人工智能实验室：金融大模型应用评测报告-摘要版2024.pdf: 上海人工智能实验室：金融大模型应用评测报告-摘要版2024.pdf

malpass_02_0907.pdf: malpass_02_0907

C++-自制学习辅助工具: C++-自制学习辅助工具

微信生态系统开发指南：涵盖机器人、小程序及公众号的技术资源整合: 内容概要：本文提供了有关微信生态系统的综合开发指导，具体涵盖了微信机器人的Java与Python开发、全套及特定应用的小程序源码(PHP后台、DeepSeek集成)，以及微信公众号的基础开发与智能集成方法。文中不仅给出了各种应用的具体案例和技术要点如图灵API对接、DeepSeek大模型接入等的简述，还指出了相关资源链接以便深度探究或直接获取源码进行开发。适合人群：有意开发微信应用程序或提升相应技能的技术爱好者和专业人士。不论是初涉者寻求基本理解和操作流程，还是进阶者期望利用提供的资源进行项目构建或是研究。使用场景及目标：开发者能够根据自身兴趣选择不同方向深入学习微信平台的应用创建，如社交自动化（机器人）、移动互联网服务交付（小程序），或者公众信息服务（公众号）。特别是想要尝试引入AI能力到应用中的人士，文中介绍的内容非常有价值。其他说明：文中提及的多个项目都涉及到了最新技术栈（如DeepSeek大模型），并且为不同层次的学习者提供从零开始的详细资料。对于那些想要迅速获得成果同时深入了解背后原理的人来说是个很好的起点。

pimpinella_3cd_01_0916.pdf: pimpinella_3cd_01_0916

mellitz_3cd_01_0516.pdf: mellitz_3cd_01_0516

schube_3cd_01_0118.pdf: schube_3cd_01_0118

[AB PLC例程源码][MMS_046683]ME Faceplates for 1738 Digital and Analog I-O with Descriptions.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_040371]Communication between CompactLogix Controllers on DeviceNet.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

[AB PLC例程源码][MMS_046507]SE Faceplates for 1797 Digital and Analog I-O.zip: AB PLC例程代码项目案例【备注】 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！有问题请及时沟通交流。 2、适用人群：计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途：项目具有较高的学习借鉴价值，不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行，或热爱钻研，亦可在此项目代码基础上进行修改添加，实现其他不同功能。欢迎下载！欢迎交流学习！不清楚的可以私信问我！

智慧用电平台建设解决方案【28页】.pptx: 智慧用电平台建设解决方案【28页】

lusted_3ck_01_0519.pdf: lusted_3ck_01_0519

HCIP作业1 这里面是完成的ensp的拓扑图: HCIP作业1 这里面是完成的ensp的拓扑图

会员式点餐小程序v1.2.1+前端-无错源码.zip: 会员式点餐小程序1.2.1 前端会员卡点餐小程序适用于书吧、咖啡书屋、健身房等有会员卡充值需求的场所。小程序专属会员模式，可享受折扣为余额充值，稳定客流。版本号：1.2.1 适配一个php兼容性错误修改消息通知模板

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论