Lucene3.0 学习笔记（2） -

randychao2008

浏览: 16052 次
性别:
来自: 武汉

最近访客更多访客>>

anmo

agen56899

LCCYTY

新竹623

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene3.0 学习笔记（2）

lucene Apache junit

今天针对Lucene3.0的一些新增的特性，做了简单的实践。主要实现了两种索引的建立方法：1.对某一个txt文档进行建立索引并进行搜索。2.对某一个文件夹下的所有txt文件进行建立索引并进行搜索。
有两点发现，在此share一下：
1.在向索引段中添加新的field时，如果用到了new Field("***",Reader reader)是不存储的。所以在doc.get("***");时，无法取出内容，这时就需要自己写一个方法，来实现将reader转化为字符串。
2.在对某一个文件夹下的所有txt文档进行建立索引时，需要对每一个文件都构建一个document对象，然后将field域分别add到document中。否则在搜索的时候将会出错（未知原因,还望那位高人指点一二），并且用Luck工具查看的时候，对于是否给每个文本构建Docment，两种结果内容一样，但是顺序会不同。

[color=green][/color]

package test3;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class IndexTxt {

private IndexWriter write = null;
private IndexSearcher search = null;

private String dataPath = "E:\\testlucene\\test\\test.txt";//针对某一个文本文档建立索引并搜索
private String dataPath1 = "E:\\testlucene\\test";//针对某一个文本下所有文档建立索引并搜索
private String indexPath ="E:\\testlucene\\fileIndex";

private Directory indexDir = null;
private Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
public IndexTxt() throws IOException{
File file = new File(indexPath);
indexDir = FSDirectory.open(file);//创建索引目录
}
@Test
public void createIndex() throws CorruptIndexException, LockObtainFailedException, IOException{//建立索引
/*
* 先把将要建立索引的文件转化为document对象
*/
Document doc = new Document();
File dataFile = new File(dataPath);
//获取文件输入流

//添加所有field
doc.add(new Field("name",dataFile.getName(),Store.YES,Index.ANALYZED));

//doc.add(new Field("content",reader));//并没有存储，故不能用doc.get("content")来获得内容,so to adapt next line
doc.add(new Field("content",filecontent(dataFile),Store.YES,Index.ANALYZED));
//在哪儿建立索引
write = new IndexWriter(indexDir,analyzer,true,MaxFieldLength.LIMITED);
write.addDocument(doc);
write.close();
}
/*
* 针对某一个文件夹下所有文档建立索引并搜索
*/
@Test
public void createIndex1() throws IOException{//
File folder = new File(dataPath1);
write = new IndexWriter(indexDir,analyzer,true,MaxFieldLength.LIMITED);
if(folder.isDirectory()){
String[] files = folder.list();// 返回一个字符串数组，这些字符串指定此抽象路径名表示的目录中的文件和目录。

for(int i = 0;i<files.length;i++){
File file = new File(folder,files[i]);//根据 parent 抽象路径名和 child 路径名的字符串创建一个新 File 实例。
Document doc = new Document();
doc.add(new Field("name",file.getName(),Store.YES,Index.ANALYZED));
doc.add(new Field("content",filecontent(file),Store.YES,Index.ANALYZED));
write.addDocument(doc);
}
//在哪儿建立索引
write.close();
}else {
            System.out.println("-----folder.isDirectory():false.");
        }
}
private String filecontent(File file) throws IOException {
FileInputStream fis = new FileInputStream(file);
StringBuffer content = new StringBuffer();
BufferedReader reader = new BufferedReader(new InputStreamReader(fis));
for(String line=null;(line=reader.readLine())!=null;){
content.append(line).append("\n");
}
return content.toString();
}
@Test
public void createSearch() throws CorruptIndexException, IOException, ParseException{
//针对某一个索引目录进行搜索
search = new IndexSearcher(indexDir);
//key --> Query object
String key = "game";
QueryParser parse = new QueryParser(Version.LUCENE_30,"content",analyzer);
Query query = parse.parse(key);//将搜索的关键词转化为Query对象

TopDocs hits = search.search(query, 100);//封装了返回的符合条件的所有记录
int total = hits.totalHits;//返回包含有该关键词的文档个数,切记是文档个数
if(total == 0)
System.out.println("no such a file");
else{
for(int i=0;i<hits.scoreDocs.length;i++){//hits.scoreDocs return The top hits for the query.
ScoreDoc scoreDoc = hits.scoreDocs[i];//返回的符合条件的某一条记录
Document doc = search.doc(scoreDoc.doc);//Returns the stored fields of document i.
System.out.println(doc.get("name"));
System.out.println(doc.get("content"));
System.out.println("----------------");
}
}
}
}

分享到：

海量数据处理问题 | lucene3.0 学习总结

2011-03-01 16:30
浏览 886
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene3.0学习笔记(三)与paoding整合: 《Lucene 3.0 学习笔记(三)与Paoding整合》在深入了解Lucene 3.0的过程中，我们经常会遇到如何将其与第三方工具进行整合的问题，以提升搜索性能和用户体验。这篇学习笔记主要关注的是将Lucene 3.0与Paoding搜索...

java开发常用的中文API集合包: Freemaker_入门+深入+开发指南+学习笔记.doc FreeMarker标签中文文档.pdf FreeMarker教程.pdf ibatis开发指南（中文版）.pdf java web标签大全.CHM jBPM_4.4_开发指南.pdf jquery1.7 中文手册.chm lucene3.0-api.CHM...

Eclipse开发分布式商城系统+完整视频代码及文档: ├─补充2：Redis3.0新特性、主从复制、集群视频教程 │ │ 打开必读.txt │ │ │ ├─相关资料 │ │ redis-3.0.1.tar.gz │ │ redis-3.0.2.tar.gz │ │ redis-3.2.1.gem │ │ Redis集群.docx │ │ ...

TinyYolo2实时视频流物体检测ONNX模型: TinyYolo2实时视频流物体检测ONNX模型运行 ONNX 模型，并结合 OpenCV 进行图像处理。具体流程包括： 1. 加载并初始化 ONNX 模型。 2. 从摄像头捕获实时视频流。 3. 对每一帧图像进行模型推理，生成物体检测结果。 4. 在界面上绘制检测结果的边界框和标签。

chromedriver-linux64-134.0.6998.23(Beta).zip: chromedriver-linux64-134.0.6998.23(Beta).zip

Web开发：ABP框架4-DDD四层架构的详解: Web开发：ABP框架4-DDD四层架构的详解

chromedriver-linux64-135.0.7029.0(Canary).zip: chromedriver-linux64-135.0.7029.0(Canary).zip

（参考项目）MATLAB人脸门禁系统.zip: 实现人脸识别的考勤门禁系统可以分为以下步骤： 1. 采集人脸图像数据集：首先需要采集员工的人脸图像数据集，包括正面、侧面等多个角度的图像。可以使用MATLAB中的图像采集工具或者第三方库进行采集。 2. 预处理人脸图像数据：对采集到的人脸图像数据进行预处理，包括人脸检测、人脸对齐、人脸裁剪等操作。MATLAB提供了相关的图像处理工具箱，可以用于实现这些处理步骤。 3. 特征提取与特征匹配：使用人脸识别算法提取人脸图像的特征，比如使用人脸识别中常用的特征提取算法如Eigenfaces、Fisherfaces或者基于深度学习的算法。然后将员工的人脸数据与数据库中的人脸数据进行匹配，判断是否为注册员工。 4. 考勤记录与门禁控制：如果人脸匹配成功，系统可以记录员工的考勤时间，并且控制门禁系统进行开启。MATLAB可以与外部设备进行通信，实现门禁控制以及考勤记录功能。

rdtyfv、ijij: yugy

企业IT治理体系规划.pptx: 企业IT治理体系规划.pptx

基于Nutz、SSH、SSM的新闻管理系统.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行: 基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,基于多目标粒子群算法的冷热电联供综合能源系统优化调度与运行策略分析,MATLAB代码：基于多目标粒子群算法冷热电联供综合能源系统运行优化关键词：综合能源冷热电三联供粒子群算法多目标优化参考文档：《基于多目标算法的冷热电联供型综合能源系统运行优化》仿真平台：MATLAB 平台采用粒子群实现求解优势：代码注释详实，适合参考学习，非目前烂大街的版本，程序非常精品，请仔细辨识主要内容：代码构建了含冷、热、电负荷的冷热电联供型综合能源系统优化调度模型，考虑了燃气轮机、电制冷机、锅炉以及风光机组等资源，并且考虑与上级电网的购电交易，综合考虑了用户购电购热冷量的成本、CCHP收益以及成本等各种因素，从而实现CCHP系统的经济运行，求解采用的是MOPSO算法（多目标粒子群算法），求解效果极佳，具体可以看图 ,核心关键词：综合能源系统; 冷热电三联供; 粒子群算法; 多目标优化; MOPSO算法; 优化调度模型; 燃气轮机; 电制冷机; 锅炉; 风光机组; 上级电网购售电交易。,基于多目标粒子群算法的CCHP综合

DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升: DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发串口通信方案,DSP28379D串口升级方案：单核双核升级与Boot优化，C#上位机开发实现串口通信,DSP28379D串口升级方案单核双核升级，boot升级，串口方案。上位机用c#开发。 ,DSP28379D; 串口升级方案; 单核双核升级; boot升级; 上位机C#开发,DSP28379D串口双核升级方案：Boot串口升级技术使用C#上位机开发

基于ASP.NET MVC+三层架构和EntityFramework的微博门户网站项目.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档 ,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验 ,基于plc的双层自动门控: 基于PLC的双层自动门控制：光电传感触发，有序开关与延时功能实现，附程序、画面及参考文档。,基于PLC的双层自动门控制系统：精准控制，保障无尘环境；门间联动，智能安防新体验。,基于plc的双层自动门控制系统，全部采用博途仿真完成，提供程序，画面，参考文档，详情见图。实现功能(详见上方演示视频): ① 某房间要求尽可能地保持无尘，在通道上设置了两道电动门，门1和门2，可通过光电传感器自动完成门的打开和关闭。门1和门2 不能同时打开。 ② 第 1 道门（根据出入方向不同，可能是门 1 或门 2），是由在通道外的开门者通过按开门按钮打开的，而第 2 道门（根据出入方向不同，可能是门 1 或门 2 ）则是在打开的第 1 道门关闭后自动地打开的（也可以由通道内的人按开门按钮来打开第2 道门）。这两道门都是在门开后，经过 3s 的延时而自动关闭的。 ③ 在门关闭期间，如果对应的光电传感器的信号被遮断，则门立即自动打开。如果在门外或者在门内的开门者按对应的开门按钮时，立即打开。 ④ 出于安全方面的考虑，如果在通道内的某个人经过光电传感器时，对应的门已经打开，则通道外的开门者可以不按开门按钮。

黑马程序员Java品达通用权限项目，基于SpringCloud SpringBoot 的微服务框架的权限管理解决方案.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

DeepSeek+DeepResearch-让科研像聊天一样简单: DeepSeek+DeepResearch——让科研像聊天一样简单（1）DeepSeek如何做数据分析？（2）DeepSeek如何分析文件内容？（3）DeepSeek如何进行数据挖掘？（4）DeepSeek如何进行科学研究？（5）DeepSeek如何写综述？（6）DeepSeek如何进行数据可视化？（7）DeepSeek如何写作润色？（8）DeepSeek如何中英文互译？（9）DeepSeek如何做降重？（10）DeepSeek论文参考文献指令（11）DeepSeek基础知识。

基于springboot+uniapp实现的蛋糕商城小程序.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

jdepend-demo-2.9.1-10.el7.x64-86.rpm.tar.gz: 1、文件内容：jdepend-demo-2.9.1-10.el7.rpm以及相关依赖 2、文件形式：tar.gz压缩包 3、安装指令： #Step1、解压 tar -zxvf /mnt/data/output/jdepend-demo-2.9.1-10.el7.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm 4、更多资源/技术支持：公众号禅静编程坊

关爱儿童公益网站 web 项目.zip: 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行；功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用

最近访客 更多访客>>