采用技术:Jsp+Servlet+Lucene3.0+IK Analyzer3.0
感谢JavaEye的各位前辈,让小弟我能够顺利完成我的毕业设计。
用到的中文分词器,当然得感谢IK的作者林良益前辈。
本项目采用了百度的样式集-所以看起来像山寨百度的一个搜索引擎,先看下效果先:
(程序源码:见附件MySearch.rar,相关库文件:请看 中文搜索引擎-Lucene3.0+IK Analyzer3.2相关jar包)
本系统的开发环境:Tomcat6.0和Myeclipse Bule GA 6.5
4.系统实现
索引流程:
1.创建一个IndexWriter创建索引类,指定好索引文件的存放路径,分词器analyzer
2.新建一个索引文档Document doc
3.将要索引的文件的文件名称,文件存放路径,文件内容,存入索引文档doc中
4.再通过IndexWriter将建立好的索引文档写入硬盘中。
5.索引文件优化,将其合并为复合索引文件。
6.关闭IndexWriter
详细代码:
//创建一个索引写入器
IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR),
analyzer,
true,
IndexWriter.MaxFieldLength.LIMITED);
//创建一个lucene文档
Document doc = new Document();
//为文档添加域,设定该域是否需要分析、存储、索引
doc.add(new Field("title",n,Field.Store.YES,Field.Index.ANALYZED));
//文档路径
doc.add(new Field("path", f.getPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
//文档文本内容
doc.add(new Field("contents",readFile(f),Field.Store.YES,
Field.Index.ANALYZED));
//将创建好的文档添加到writer的写入队列中,然后写入
writer.addDocument(doc);
//优化索引,就是将索引合并
writer.optimize();
//关闭索引写入器
writer.close();
这里实现了将一个文档转化为索引格式,写到lucene的索引文件中。
搜索流程
- IndexReader打开索引文件,读取并打开指向索引文件的流。
- 用户输入查询语句
- 将查询语句转换为查询对象Query对象树
- 构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分。
- 构造Scorer对象树,用于计算打分(TermScorer.score())。
- 在构造Scorer对象树的过程中,其叶子节点的TermScorer会将词典和倒排表从索引中读出来。
- 构造SumScorer对象树,其是为了方便合并倒排表对Scorer对象树的从新组织,它的叶子节点仍为TermScorer,包含词典和倒排表。此步将倒排表合并后得到结果文档集,并对结果文档计算打分公式中的蓝色部分。打分公式中的求和符合,并非简单的相加,而是根据子查询倒排表的合并方式(与或非)来对子查询的打分求和,计算出父查询的打分。
- 将收集的结果集合及打分返回给用户。
详细代码
//创建一个搜索器IndexSearcher,设定好索引文件的路径
IndexSearcher searcher = new IndexSearcher(FSDirectory.open(new File(index)), true);
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
//scorer标识要高亮的关键字
QueryScorer scorer = new QueryScorer(query, FIELD_NAME);
//高亮器的定义
Highlighter highlighter = new Highlighter(new SimpleHTMLFormatter("<EM>","</EM>"),scorer);
//返回相关度最高的前几条记录
TopScoreDocCollector collector = TopScoreDocCollector.create(
5 * hitsPerPage, false);
//执行搜索
searcher.search(query, collector);
//将分数最高的前几条记录放入collector中
ScoreDoc[] hits = collector.topDocs().scoreDocs;
Document doc = searcher.doc(hits[i].doc);
//获取结果集,这个结果集用于在页面输出
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
Indexdoclist.add(doc);
4.1.4.1 pdf文档解析
try{
//首先当做一个URL来装载文件,如果得到异常再从本地文件系统中去装载文件
URL url=new URL(pdfFile);
document=PDDocument.load(url);
//获取PDF的文件名
String fileName=url.getFile();
//以原来PDF的名称来命名新产生的txt文件
if(fileName.length()>4){
File outputFile =new File(fileName.substring(0,fileName.length()-4)+".txt");
textFile=outputFile.getName();
}
}catch(MalformedURLException e){
//如果作为URL装载得到异常则从文件系统装载
document=PDDocument.load(pdfFile);
if(pdfFile.length()>4){
textFile = pdfFile.substring(0,pdfFile.length()-4)+".txt";
}
}
//文件输入流,写入文件导textFile
output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
//PDFTextStripper来提取文本
PDFTextStripper stripper=null;
stripper =new PDFTextStripper();
//设置是否排序
stripper.setSortByPosition(sort);
//设置起始页
stripper.setStartPage(startPage);
//设置结束页
stripper.setEndPage(endPage);
//调用PDFTextStripper的writeText提取并输出文本
stripper.writeText(document,output);
4.1.4.2doc文档解析
//处理DOC文档格式
InputStream iStream = new BufferedInputStream(new FileInputStream(f));
WordExtractor ex=new WordExtractor(iStream);
String ns=new String(ex.getText());
doc.add(new Field("contents",ns,Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.3docx文档解析
//处理docx文档
Parser parser=new OOXMLParser();
InputStream iStream=new BufferedInputStream(new FileInputStream(f));
OutputStream oStream=new BufferedOutputStream(new FileOutputStream(new File(f.getPath()+".txt")));
ContentHandler iHandler= new BodyContentHandler(oStream);
parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
doc.add(new Field("contents",readFile(
new File(f.getPath()+".txt")),Field.Store.YES,
Field.Index.ANALYZED));
4.1.4.4 html文档解析
StringBuffer text = new StringBuffer();
org.htmlparser.Parser parser = org.htmlparser.Parser.createParser(new String(inputHtml.getBytes(),
"GBK"), "GBK");
// 遍历所有的节点
org.htmlparser.util.NodeList nodes = parser.extractAllNodesThatMatch(new org.htmlparser.NodeFilter() {
public boolean accept(org.htmlparser.Node node) {
return true;
}
});
System.out.println(nodes.size());
for (int i=0;i<nodes.size();i++){
org.htmlparser.Node nodet = nodes.elementAt(i);
text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
}
4.1.5.1 中文切分词机制
对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字紧贴着一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大的问题。
首先,肯定不能用单个字符作为索引单元,否则查“上海”时,不能让含有“海上”也匹配。但一句话:“北京拍照门”,计算机如何按照中文的语言习惯进行切分呢?“北京 拍照门”还是“北 京拍照门”?让计算机能够按照语言习惯进行切分,往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。另外一个解决的办法是采用自动切分算法:将单词按照2元语法方式切分出来,比如:"北京拍照门"==>"北京 京拍 拍照 照门"。这样,在查询的时候,无论是查询"北京"还是查询"拍照门",将查询词组按同样的规则进行切分:"北京","拍照照门",多个关键词之间按与"and"的关系组合,同样能够正确地映射到相应的索引中。这种方式对于其他亚洲语言:韩文,日文都是通用的。
基于自动切分的最大优点是没有词表维护成本,实现简单,缺点是索引效率低,但对于中小型应用来说,基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和源文件差不多,而对于英文,索引文件一般只有原文件的30%-40%不同。自动切分与词表切分的具体区别,请见(表4):
表4
|
自动切分 |
词表切分 |
实现 |
实现非常简单 |
实现复杂 |
查询 |
增加了查询分析的复杂程度 |
适于实现比较复杂的查询语法规则 |
存储效率 |
索引冗余大,索引几乎和原文一样大 |
索引效率高,为原文大小的30%左右 |
维护成本 |
无词表维护成本 |
词表维护成本非常高:中日韩等语言需要分别维护。还需要包括词频统计等内容 |
适用领域 |
嵌入式系统:运行环境资源有限 |
分布式系统:无词表同步问题 |
多语言环境: |
无词表维护成本 |
对查询和存储效率要求高的专业搜索引擎 |
4.1.5.2 IK Analyzer 3.2.0中文切词
IK Analyzer采用的是正向迭代最细粒度分词算法,是基于正向最大分词算法的改进算法,将词语切得更加的细致,保证了用户在分词搜索中的召回率。
我们来对比一下两种分词算法,例如:头孢曲松舒巴坦,如果是采用正向最大分词算法的话,它将切为“头孢曲松+舒 +巴 +坦”,而正向迭代最细粒度分词算法,则会在切到头孢曲松这一词的时候再进一轮切词算法从而切出“头孢 +曲松”这两个词,那么正向最细粒度分词算法的结果为:
“头孢曲松 (+头孢 +曲松)) +舒 +巴 +坦”
//分词器的定义,IKAnalyzer默认的参数是为false,false为采用最细粒度分词,而true则为最大长度分词
Analyzer analyzer= new IKAnalyzer(true);
//IKQueryParser是生成语法树,然后再用语法树去搜索
Query query =IKQueryParser.parse(FIELD_NAME,queryContent);
原理:将页面的首页、上一页、下一页、第几页、尾页,不同的按钮通过计算转为计算数据查询的起始位置、查询每页多少条记录,每次按下分页控件上的按钮,都会传查询条件和查询起始位置、查询每页多少条记录三个条件传到后台的java文件中,再调用pagerUtil中的分页查询方法,将查询到的结果返回页面。
注:QueryContent : 用户输入的查询语句
Start:查询的起始位置
Pagersize:分页查询,每页需要查的条数
PagerModel:里面有两个数据 int totalRecords指的是返回本次查询结果的总条数,Collection<IndexDoc> objects指的是分页查询的结果集
页面代码:
<pg:pager url="./IndexSearch" items="${ pagerModel.totalRecords}" export="currentPageNumber=pageNumber" maxPageItems="10">
<pg:param name="qc" value="<%=QueryContent %>"/>
<pg:first>
<a href="${pageUrl}">首页</a>
</pg:first>
<pg:prev>
<a href="${pageUrl }">上一页</a>
</pg:prev>
<pg:pages>
<c:choose>
<c:when test="${currentPageNumber eq pageNumber}">
<font color="red">${pageNumber }</font>
</c:when>
<c:otherwise>
<a href="${pageUrl }">${pageNumber }</a>
</c:otherwise>
</c:choose>
</pg:pages>
<pg:next>
<a href="${pageUrl }">下一页</a>
</pg:next>
<pg:last>
<a href="${pageUrl }">尾页</a>
</pg:last>
</pg:pager>
后台java文件代码:
public List<IndexDoc> getDocs(String qc,int start,int end,IndexSearcher searcher,
ScoreDoc[] hits, Highlighter highlighter,Analyzer analyzer) throws CorruptIndexException, IOException{
//页面显示内容
List<IndexDoc> indexdoclist=new ArrayList<IndexDoc>();
for (int i = start; i < end; i++) {
IndexDoc indexdoc=new IndexDoc();
Document doc = searcher.doc(hits[i].doc);
String path = doc.get(FIELD_PATH);
if (path != null) {
String title = doc.get(FIELD_TITLE);
if (title != null) {
indexdoc.setTitle(replace(title,qc));
//indexdoc.setPath(path);
indexdoc.setPath(parsePath(path));
String con="";
indexdoc.setIndexdate(doc.get(FIELD_DATE));
String fragment="";
try {
con=doc.get(FIELD_NAME);
indexdoc.setCon(con);
TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(),
hits[i].doc, FIELD_NAME, doc, analyzer);
//高亮附近100个字符,设定范围
highlighter.setTextFragmenter(new SimpleFragmenter(100));
fragment = highlighter.getBestFragment(stream, con);
} catch (Exception e) {
e.printStackTrace();
}
//只截取关键部分的100个字
if (con.length()<100) {
indexdoc.setFragment(fragment);
} else {
indexdoc.setFragment("..."+fragment+"...");
}
}
} else {
System.out.println((i+1) + ". " + "No path for this document");
}
indexdoclist.add(indexdoc);
}
return indexdoclist;
}
相关推荐
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。
DATA: 可供参考的微博评论数据。 详见 /DATA/weibocommennts.csv CODE: apiGetSheet.py 调用百度API 获得 微博评论对应 文字的 情感得分, sheetGetvalue.py 根据情感得分进行标准化,获得实际倾向。
管理员 管理员信息管理 负责人管理 员工信息管理 公告信息管理 小型车收费标准设置(元/每公里) 大卡车收费标准设置(元/吨公里) 收费信息统计,统计小车和卡车收费,按月统计 负责人 个人资料修改 公告查看 小车收费统计(某员工某月统计) 大卡车收费统计(某员工某月统计) 员工 个人资料修改 公告查看 小型车收费登记(车牌号,车辆照片,行使公里数,收费金额,收费日期,收费员,按公里数可以自动计算费用 收费金额=收费标准*公里数) 大卡车金额设置(每吨/元)(车牌号,车辆照片,行使公里数,吨,收费金额,收费日期,收费员, 收费金额=收费标准*吨*公里数 ) 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7
本套zabbix是基于6.0版本部署,内容涵盖zabbix的简介、zabbix server安装、zabbix基本概念、快速入门、zabbix进阶、zabbix实践、zabbix的高级监控使用。 =======知识领域 网络监控:监控网络设备、服务器和应用程序的运行状态。 系统监控:监控服务器性能,如CPU使用率、内存使用情况、网络流量等。 数据库监控:监控数据库性能和状态。 应用程序监控:监控应用程序的运行情况和性能指标。 云监控:监控云服务和虚拟机的健康状况
商品库存管理系统课程设计报告.docx
嘉兴智能卫浴项目建议书.docx
Java系统源码+夕阳红公寓管理系统 内容概要: 本资源包含了完整的Java前后端源码及说明文档,适用于想要快速搭建并部署Java Web应用程序的开发者、学习者。 技术栈: 后端:Java生态系统,包含Spring Boot、Shiro、MyBatis等,数据库使用Mysql 前端:Vue、Bootstrap、Jquery等 适用场景示例: 1、毕业生希望快速启动一个新的Java Web应用程序。 2、团队寻找一个稳定的模板来加速产品开发周期。 3、教育机构或个人学习者用于教学目的或自学练习。 4、创业公司需要一个可以立即投入使用的MVP(最小可行产品)。
(1)用户管理: 用户注册:新用户注册 用户登录:新用户登录 找回密码:忘记密码找回密码 用户评论:发表对新闻的评论 (2)管理员管理: 系统账号管理:管理员管理系统现有账号,进行删除停用等操作 系统公告管理:系统公告的发布和删除 新闻栏目管理:新闻栏目的新增和删除 ...
Java系统源码+计算机学院校友网 内容概要: 本资源包含了完整的Java前后端源码及说明文档,适用于想要快速搭建并部署Java Web应用程序的开发者、学习者。 技术栈: 后端:Java生态系统,包含Spring Boot、Shiro、MyBatis等,数据库使用Mysql 前端:Vue、Bootstrap、Jquery等 适用场景示例: 1、毕业生希望快速启动一个新的Java Web应用程序。 2、团队寻找一个稳定的模板来加速产品开发周期。 3、教育机构或个人学习者用于教学目的或自学练习。 4、创业公司需要一个可以立即投入使用的MVP(最小可行产品)。
四六级报名管理系统.pdf
C语言PTA-数组答案代码合集(湖工1-50)
YOLOv8 安全背心识别项目代码 项目详细介绍请看链接: https://blog.csdn.net/qq_53332949/article/details/144543625 数据集详细介绍请看:https://blog.csdn.net/qq_53332949/article/details/141503406 数据集下载请看:https://download.csdn.net/download/qq_53332949/89711610?spm=1001.2101.3001.9500 按文件中requirements.txt文件配置环境即可使用。
后后勤智能1.。1. 1. 1. 管理系统-...pdf后勤智能1.。1. 1. 管理系统-...pdf后勤智能1.。1. 管理系统-...pdf后勤智能1.。管理系统-...pdf勤智能管理系统-...pdf
瓶子、塑料袋检测70-YOLO(v5至v9)、COCO、CreateML、Darknet、Paligemma、TFRecord、VOC数据集合集.rarset1(拍摄照片)-V15 2023-08-09 3:43 PM ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解和搜索非结构化图像数据 *注释,创建数据集 *导出,训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集 对于最先进的计算机视觉培训笔记本,您可以与此数据集一起使用 该数据集包括133张图像。 汽车以可可格式注释。 将以下预处理应用于每个图像: *像素数据的自动取向(带有Exif-Arientation剥离) *调整大小为640x640(拉伸) 应用以下扩展来创建每个源图像的3个版本: * -24和+24度之间的随机旋转
管理员 个人密码修改 项目经理管理 员工管理(调试员,解决方案人员) 日志管理(用户登录日志) 系统设置 项目经理 个人信息管理,修改 项目模块管理 按项目分配调试员 调试员 个人信息管理,修改 BUG信息管理(各个环节的跟踪信息录入) 查看解决方案 解决方案人员 个人信息管理,修改 查看缺陷信息 提出解决方案 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7
电路电压检测14-YOLO(v5至v9)、COCO、CreateML、Paligemma、VOC数据集合集.rar电路电压-V2释放 ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解非结构化图像数据 *注释,创建数据集 *导出,训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集 它包括132张图像。 电路电压以可可格式注释。 将以下预处理应用于每个图像: 没有应用图像增强技术。
项目包含前后台完整源码。 项目都经过严格调试,确保可以运行! 具体项目介绍可查看博主文章或私聊获取 助力学习实践,提升编程技能,快来获取这份宝贵的资源吧!
系统实现: 用户功能模块:用户点击进入到系统操作界面,可以对主页、个人中心、我的收藏管理、订单管理等功能模块,我的收藏管理:通过列表可以获取用户ID、收藏ID、表名、收藏名称、收藏图片信息并进行修改操作 管理员功能模块:管理员通过用户名和密码填写完成后进行登录。管理员登录成功后进入到系统操作界面,可以对主页、个人中心、用户管理、商品分类管理、商品信息管理、系统管理、订单管理等功能模块进行相对应操作。 项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7
Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。
Android 毕业设计,Android 毕业设计,小Android 程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。