- 浏览: 29920 次
- 性别:
-
文章分类
最新评论
-
ht314495132:
嗯,谢谢啦,差不多能做出来了
SSH框架之spring整合javamail实现邮件服务 -
walkskyfish:
挺不错的,有帮助,谢谢!
lucene 3.5学习笔记
最近一段时间在研究lucene的使用,可以说lucene的功能确实很强大,我只是略沾皮毛,下面是我学习lucene的过程。
开发环境:eclipse3.7;
lucene版本:3.5
功能需求是:对50万的简历数据可以进行多关键字的查询,查询响应时间控制在3S中以内。
需要说明的是,我的简历数据是放在数据库表里面的,数据库对于like%的查询效率太低。所以这里我就想到了用lucene的全文检索来实现。
简历表:tb_resume(resumeId,.....);对应实体类:ResumeModel
CREATE TABLE `tb_resume` (
`resumeId` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(200) DEFAULT NULL,
`sex` varchar(11) DEFAULT NULL,
`degree` varchar(200) DEFAULT NULL,
`jingyan` varchar(200) DEFAULT NULL,
`birthday` datetime DEFAULT NULL,
`nowPlace` varchar(200) DEFAULT NULL,
`birthPlace` varchar(200) DEFAULT NULL,
`email` varchar(200) DEFAULT NULL,
`tel` varchar(200) DEFAULT NULL,
`workExp` longtext,
`educationExp` longtext,
`projectExp` longtext,
`selfEvaluation` longtext,
`state` int(11) DEFAULT NULL,
`qz` int(11) DEFAULT '1',
PRIMARY KEY (`resumeId`)
) ENGINE=InnoDB AUTO_INCREMENT=500058 DEFAULT CHARSET=utf8;
第一步,创建索引
由于数据来源是在数据库,所以需要先取出数据库里面的数据。
然后对这些数据创建索引:
其中,docement就相当于数据表。field相当于数据表里面的字段。
第二步:查询
创建完索引之后就可以进行查询了
jsp页面用于输入查询的关键词,例如我输入:java 已录用
下面是写的一个查询帮助类:
查询时候关键词的确定
首先,前台控制关键词之间只能是空格,或者逗号
然后获取用户输入的关键词:
查询:java,已录用
这样就可以实现查询了。
当有的用户的简历信息发生变化的时候,如果我们重新创建索引的话,是需要大量的时间的,这里需要重新创建该用户的简历信息索引。
第三步:更新索引
第一次写个人学习笔记,文笔比较差,请见谅
http://download.csdn.net/download/somtomking/1921112
开发环境:eclipse3.7;
lucene版本:3.5
功能需求是:对50万的简历数据可以进行多关键字的查询,查询响应时间控制在3S中以内。
需要说明的是,我的简历数据是放在数据库表里面的,数据库对于like%的查询效率太低。所以这里我就想到了用lucene的全文检索来实现。
简历表:tb_resume(resumeId,.....);对应实体类:ResumeModel
CREATE TABLE `tb_resume` (
`resumeId` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(200) DEFAULT NULL,
`sex` varchar(11) DEFAULT NULL,
`degree` varchar(200) DEFAULT NULL,
`jingyan` varchar(200) DEFAULT NULL,
`birthday` datetime DEFAULT NULL,
`nowPlace` varchar(200) DEFAULT NULL,
`birthPlace` varchar(200) DEFAULT NULL,
`email` varchar(200) DEFAULT NULL,
`tel` varchar(200) DEFAULT NULL,
`workExp` longtext,
`educationExp` longtext,
`projectExp` longtext,
`selfEvaluation` longtext,
`state` int(11) DEFAULT NULL,
`qz` int(11) DEFAULT '1',
PRIMARY KEY (`resumeId`)
) ENGINE=InnoDB AUTO_INCREMENT=500058 DEFAULT CHARSET=utf8;
第一步,创建索引
由于数据来源是在数据库,所以需要先取出数据库里面的数据。
然后对这些数据创建索引:
import java.io.IOException; import java.util.Date; import java.util.List; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import org.apache.lucene.index.IndexWriterConfig.OpenMode; import scott.resume.model.ResumeModel; import util.Constant; /** * 创建索引类 * @author Administrator * */ public class CreateIndex { // private static final File INDEX_DIR = new File("E:\\新的设计目录\\txlpf\\lucene"); // private static final Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); /** * 将简历信息添加到索引库中 * @param list * @throws IOException */ public static void index(List<ResumeModel> list) throws IOException { long start1 = new Date().getTime(); IndexWriter writer = openIndexWriter(); try { for (ResumeModel rm : list) { Document document = builderDocument(rm); writer.addDocument(document); } } finally { writer.close(); } long end1 = new Date().getTime(); System.out.println("创建索引花费时间:" + (double) (end1 - start1) / 1000 + "秒"); } private static IndexWriter openIndexWriter() throws IOException { IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_35, Constant.analyzer); iwc.setOpenMode(OpenMode.CREATE_OR_APPEND);//增量型索引 ,这个地方是关于你创建索引是增量的还是始终创建的。一般来说,选择create_or_append比较好,无论你是否已经创建了索引,都满足 return new IndexWriter(FSDirectory.open(Constant.INDEX_DIR), iwc); } /** * 创建索引 * @param obj 要创建索引的对象 * @return */ public static Document builderDocument(ResumeModel rm) { Document document = new Document(); String state = null; if(rm.getState()==0){ state = "未录用"; } else{ state = "已录用"; } Field id = new Field("id", String.valueOf(rm.getResumeId()), Field.Store.YES, Field.Index.ANALYZED); Field content = new Field("content", rm.getDegree()+rm.getJingyan()+rm.getWorkExp()+rm.getEducationExp()+rm.getProjectExp()+rm.getSelfEvaluation()+state, Field.Store.YES, Field.Index.ANALYZED); document.add(id); document.add(content); return document; } }
其中,docement就相当于数据表。field相当于数据表里面的字段。
第二步:查询
创建完索引之后就可以进行查询了
jsp页面用于输入查询的关键词,例如我输入:java 已录用
下面是写的一个查询帮助类:
import org.apache.lucene.index.Term; import org.apache.lucene.search.BooleanQuery; import org.apache.lucene.search.BooleanClause; import org.apache.lucene.search.PhraseQuery; import org.apache.lucene.search.Query; import org.apache.lucene.search.TermQuery; /** * 查询类 * @author Administrator * */ public class QueryUtil { /** * 功能:按词条搜索 - TermQuery * @param field field的名称 * @param searchKey 查询的词 * @return */ public static Query searchByTeam(String field,String searchKey){ System.err.println("TermQuery test demo------"); Term term = new Term(field, searchKey); Query query= new TermQuery(term); System.err.println("查询条件:" + query); System.err.println("查询语义:查询在AlarmType中出现\""+searchKey+"\"这个词的Document."); return query; } /** * 功能:查询俩个子查询的交集 * @param qy1 * @param qy2 * @return */ public static Query booleanAndSearch(Query qy1,Query qy2){ BooleanQuery query = new BooleanQuery();//新建一个布尔查询 query.add(qy1, BooleanClause.Occur.MUST); query.add(qy2, BooleanClause.Occur.MUST); return query; } /** * 功能:查询俩个子查询的交集 * @param fieldOne 第一个子查询field * @param searchKeyOne 第一个子查询关键词 * @param fieldTwo 第二个子查询的field * @param searchKeyTwo 第二个子查询的关键词 * @return */ public static Query searchByBooleanAnd(String fieldOne ,String searchKeyOne,String fieldTwo,String searchKeyTwo){ BooleanQuery query = new BooleanQuery();//新建一个布尔查询 Query qy1 = QueryUtil.searchByTeam(fieldOne, searchKeyOne); Query qy2 = QueryUtil.searchByTeam(fieldTwo, searchKeyTwo); query.add(qy1, BooleanClause.Occur.MUST); query.add(qy2, BooleanClause.Occur.MUST); System.err.println("查询条件:" + query); System.err.println("查询语义:查询在"+fieldOne+"中包含\""+searchKeyOne+"\"这个词但是不能包含查询在"+fieldTwo+"中包含\""+searchKeyTwo+"\"的Document."); return query; } /** * 功能:查询俩个子查询的并集 * @param fieldOne 第一个子查询field * @param searchKeyOne 第一个子查询关键词 * @param fieldTwo 第二个子查询的field * @param searchKeyTwo 第二个子查询的关键词 * @return */ public static Query searchByBooleanOr(String fieldOne ,String searchKeyOne,String fieldTwo,String searchKeyTwo){ BooleanQuery query = new BooleanQuery();//新建一个布尔查询 Query qy1 = QueryUtil.searchByTeam(fieldOne, searchKeyOne); Query qy2 = QueryUtil.searchByTeam(fieldTwo, searchKeyTwo); query.add(qy1, BooleanClause.Occur.SHOULD); query.add(qy2, BooleanClause.Occur.SHOULD); System.err.println("查询条件:" + query); System.err.println("查询语义:包含查询在"+fieldOne+"中包含\""+searchKeyOne+"\"这个词而且包含查询在"+fieldTwo+"中包含\""+searchKeyTwo+"\"的Document."); return query; } /** * 功能:查询俩个子查询的 差集,第一个子查询的结果不包含第二个子查询 * @param fieldOne 第一个子查询field * @param searchKeyOne 第一个子查询关键词 * @param fieldTwo 第二个子查询的field * @param searchKeyTwo 第二个子查询的关键词 * @return */ public static Query searchByBooleanNot(String fieldOne ,String searchKeyOne,String fieldTwo,String searchKeyTwo){ BooleanQuery query = new BooleanQuery();//新建一个布尔查询 Query qy1 = QueryUtil.searchByTeam(fieldOne, searchKeyOne); Query qy2 = QueryUtil.searchByTeam(fieldTwo, searchKeyTwo); query.add(qy1, BooleanClause.Occur.MUST); query.add(qy2, BooleanClause.Occur.MUST_NOT); System.err.println("查询条件:" + query); System.err.println("查询语义:查询在"+fieldOne+"中包含\""+searchKeyOne+"\"这个词但是不包含查询在"+fieldTwo+"中包含\""+searchKeyTwo+"\"的Document."); return query; } /** * 功能:词组查询也称短语查询 * @param fields 查询的field * @param keywords 关键词数组 * @return */ public static Query searchByManyKeywords(String fields,String[] keywords){ PhraseQuery query = new PhraseQuery(); String str = null; for(int i=0;i<keywords.length;i++){ query.add(new Term(fields, keywords[i])); str = str +keywords[i]; } query.setSlop(5); System.err.println("查询条件:" + query); System.err.println("查询语义:查询"+fields+"中含有:"+str+"的数据,这几个词至少移动五步才能构成词组,返回符合条件的Document."); return query; } }
查询时候关键词的确定
首先,前台控制关键词之间只能是空格,或者逗号
然后获取用户输入的关键词:
/** * 根据输入的关键字返回关键词字符串数组 * @param key * @return */ public static String[] getKeywords(String key){ String[] resultKeys = null; key = key.replace(" ", " ");//第一步,将所有的全角空格换个半角空格 key = key.replace(",", ",");//第二部,将所有的全角逗号,换成半角逗号 key = key.replaceAll(",", " ");//将所有的半角逗号换成空格 key = key.replaceAll( "(\\s+) ", " "); //将多个空格换成一个空格 key = key.trim(); //去除俩端的空格 resultKeys = key.split("[ ,]");//以空格分隔字符串 return resultKeys; }
查询:java,已录用
/** * 功能:获得多个关键词的查询的query * @param field 要查询的字段 * @param keys 查询的关键词数组 * @return * @throws CorruptIndexException * @throws ParseException * @throws IOException */ public static Query searchByManyKey(String field,String keys[]) throws CorruptIndexException, ParseException, IOException{ Query qy1 = null; Query qy2 = null; Query temp = null; for(int i=0;i<keys.length-1;i++){ qy1 = QueryForLucene.buildQuery(field, keys[i]); qy2 = QueryForLucene.buildQuery(field, keys[i+1]); temp = qy1; temp = QueryUtil.booleanAndSearch(temp, qy2); System.out.println(temp+"\n__________________"); } return temp; } /** * 功能:多关键词查询,返回查询结果集 * @param field 查询的field * @param key 查询的关键词数组 * @return * @throws CorruptIndexException * @throws ParseException * @throws IOException */ public static ScoreDoc[] getSearchResultAnd(String field,String key[]) throws CorruptIndexException, ParseException, IOException{ IndexReader reader = IndexReader.open(FSDirectory.open(Constant.INDEX_DIR)); IndexSearcher searcher = new IndexSearcher(reader); try { Query query = searchByManyKey(field, key); TopDocs topDocs = searcher.search(query, 510000); int total = topDocs.totalHits; System.out.println("在"+field+"中搜索:"+query.toString()+"total=" + total); ScoreDoc[] scoreDocs = topDocs.scoreDocs; return scoreDocs; } finally { searcher.close(); } }
这样就可以实现查询了。
当有的用户的简历信息发生变化的时候,如果我们重新创建索引的话,是需要大量的时间的,这里需要重新创建该用户的简历信息索引。
第三步:更新索引
import org.apache.lucene.store.Directory; import org.apache.lucene.index.IndexWriterConfig.OpenMode; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.Term; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; import scott.resume.model.ResumeModel; import util.Constant; /** * 更新索引 * @author Administrator * */ public class UpdateIndex { /** * 功能:删除原先的索引之后,新增新的索引 * @param rm */ public static void updateAndNewIndex(ResumeModel rm){ try{ if(rm.getState()==1){//已经存在了简历 deleteIndex("id",String.valueOf(rm.getResumeId())); } Document doc = CreateIndex.builderDocument(rm); Directory dir = FSDirectory.open(Constant.INDEX_DIR); IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_35,Constant.analyzer).setOpenMode(OpenMode.APPEND); IndexWriter writer = new IndexWriter(dir, config); writer.addDocument(doc); writer.close(); }catch(Exception e){ e.printStackTrace(); } } /** * 删除索引,这里主要是对resumeId进行查询,然后删除这个结果 * @param field * @param keyword * @throws Exception */ public static void deleteIndex(String field , String keyword) throws Exception{ long startTime = System.currentTimeMillis(); //首先,我们需要先将相应的document删除 Directory dir = FSDirectory.open(Constant.INDEX_DIR); IndexReader reader = IndexReader.open(dir,false); Term term = new Term(field,keyword); reader.deleteDocuments(term); reader.close(); long endTime = System.currentTimeMillis(); System.out.println("total time: " + (endTime - startTime) + " ms"); } }
第一次写个人学习笔记,文笔比较差,请见谅
http://download.csdn.net/download/somtomking/1921112
- 我的网站.zip (347.3 KB)
- 下载次数: 20
相关推荐
### Lucene 3.5 学习笔记 #### 一、Lucene 3.5 基本概念 ##### 1.1 Lucene 概述 **1.1.1 IndexWriter** `IndexWriter` 是 Lucene 中的核心类之一,用于创建或更新索引。它提供了添加文档、删除文档、优化索引等...
人脸识别项目实战
内容概要:本文详细描述了一个完整的Web应用程序的开发过程。该项目主要采用了Hono作为服务器框架,Prisma作为ORM工具,JWT用于认证鉴权,以及一系列现代化的最佳实践确保系统的健壮性和安全性。项目初期构建了基础架构,并设置了必要的依赖和工具。在后端方面涵盖了公共API接口的设计、CRUD增删改查逻辑、用户认证和授权等功能。此外还特别关注到了API的安全保护,如输入输出的校验,跨站请求伪造CSRF的防范,XSS防御等措施;为确保代码的质量引入了代码检测(比如ESLint搭配Prettier),并建立了完善的测试框架以保障后续开发阶段的功能正确。对于可能出现的问题预先定义了一组规范化的异常响应,并提供OpenAPI文档以方便开发者理解和调用。数据存储层面上利用了关系型与非关系型数据库各自的特性,实现了数据的有效组织,最后提供了实用的脚本,可用于种子数据插入以及执行必要的初始化工作。 适合人群:面向具有一定JavaScript/TypeScript开发经验,尤其是Node.js后台服务搭建经验的中级程序员和技术团队。 使用场景及目标:这份材料非常适合那些需要快速建立安全高效的RES
【资源介绍】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,也可以作为小白实战演练和初期项目立项演示的重要参考借鉴资料。 3、本资源作为“学习资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研和多多调试实践。 掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip掌静脉识别算法源码(门禁).zip
手势识别项目实战
(参考GUI)MATLAB BP的交通标志系统.zip
人脸识别项目实战
内容概要:本文详细介绍了 C++ 函数的基础概念及其实战技巧。内容涵盖了函数的基本结构(定义、声明、调用)、多种参数传递方式(值传递、引用传递、指针传递),各类函数类型(无参无返、有参无返、无参有返、有参有返),以及高级特性(函数重载、函数模板、递归函数)。此外,通过实际案例展示了函数的应用,如统计数组元素频次和实现冒泡排序算法。最后,总结了C++函数的重要性及未来的拓展方向。 适合人群:有一定编程基础的程序员,特别是想要深入了解C++编程特性的开发人员。 使用场景及目标:① 学习C++中函数的定义与调用,掌握参数传递方式;② 掌握不同类型的C++函数及其应用场景;③ 深入理解函数重载、函数模板和递归函数的高级特性;④ 提升实际编程能力,通过实例强化所学知识。 其他说明:文章以循序渐进的方式讲解C++函数的相关知识点,并提供了实际编码练习帮助理解。阅读过程中应当边思考边实践,动手实验有助于更好地吸收知识点。
Comsol光学仿真模型:包括纳米球 柱 Mie散射多级分解 ,Comsol光学仿真模型; 纳米球; 柱; Mie散射; 多级分解,Comsol光学仿真模型:纳米结构Mie散射多级分解
永磁同步电机全速域控制高频方波注入法、滑模观测器法SMO、加权切矢量控制Simulink仿真模型 低速域采用高频方波注入法HF,高速域采用滑膜观测器法SMO,期间采用加权形式切 送前方法 1、零低速域,来用无数字滤波器高频方波注入法, 2.中高速域采用改进的SMO滑模观测器,来用的是sigmoid函数,PLL锁相环 3、转速过渡区域采用加权切法 该仿真各个部分清晰分明,仿真波形效果良好内附详细控制方法资料lunwen 带有参考文献和说明文档,仿真模型 ,核心关键词: 1. 永磁同步电机; 2. 全速域控制; 3. 高频方波注入法; 4. 滑模观测器法SMO; 5. 加权切换矢量控制; 6. Simulink仿真模型; 7. 零低速域控制; 8. 中高速域控制; 9. 转速过渡区域控制; 10. 仿真波形效果; 11. 详细控制方法资料; 12. 参考文献和说明文档。,永磁同步电机多域控制策略的仿真研究
基于蜣螂优化算法的无人机三维路径规划【23年新算法应用】可直接运行 Matlab语言 主要内容:读取地形数据,利用蜣螂算法DBO优化三维路径,目标函数为总路径最短,同时不能撞到障碍物,效果如图所示,包括迭代曲线图、三维路径图、二维平面图等等 ,基于蜣螂优化算法;无人机;三维路径规划;总路径最短;障碍物避免;Matlab语言;迭代曲线图;三维路径图;二维平面图,蜣螂算法优化无人机三维路径规划:实时避障、路径最短新应用
清华大学2024年研究生复试上机考试题.zip
南京理工大学研究生入学考试2011年复试上机试题
手势识别项目实战
这里是3501的内容,用于复习资料
异步电动机变压变频调速系统,包含六千多字的文档、框架图、Simulink仿真模型,电力拖动、电机控制仿真设计 仿真模型+报告 开关闭环对比仿真都有,资料如图所见如所得 ,异步电动机;变压变频调速系统;六千字文档;框架图;Simulink仿真模型;电力拖动;电机控制仿真设计;开闭环对比仿真;资料如图。,异步电机控制仿真系统:六千字详解与图解
人脸识别项目实战
手势识别项目实战
人脸识别项目实战