`
longgangbai
  • 浏览: 7339427 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

SpringLuence的学习总结(一)

阅读更多

          在最近,看了一下SpringLuence的源代码,学习关于搜索引擎的设计思路:

    首先关于搜索引擎的两个主要操作为:

    1.建立索引文档

    2.搜索查找信息

 创建索引文档,必须针对不同的文档,获取各种文档的内容,建立文档的信息。

关于建立索引文档的方法请看Luence的基础。

这里主要说一下关于Luence设计的思路。

无论任何文档都可以转换为输入流对象,然后获取文件的内容。

关于文档处理器的接口设计如下:

DocumentHandler

 

源代码如下:

public interface DocumentHandler {

 /**
  * Return whether or not this object can create a document from an
  * instance of the given class. 检测一个对象是否可以创建一个索引文档对象
  */
 boolean supports(Class clazz);
 
 /**
  * This method indexes an object and specifies some additional
  * properties on the Lucene document basing the description parameter.
  *
  * The object to index can be either a POJO or a stream on a resource.
  *
  * @param description the description of the resource to index  Map中存储索引文档的中索引的字段用于建立索引文档时使用
  * @param inputStream the input stream which will be used to index  此处的Object可以时POJO或stream
  */
 Document getDocument(Map description, Object object) throws Exception;
}

 

Document getDocument(Map description, Object object) throws Exception;

此处设置此方法中Object目的为创建索引文档的几种对象不同而设置:

 

 

在SpringLuence中创建索引文档的方式由三种:

1.根据一个流对象创建一个索引文档

2.根据数据库中的对象创建一个索引文档。

3.根据一个类使用反射创建一个索引文档。

 

 

关于一个流创建索引文档的:

其中在各种文档创建文档中,所有的文档处理类继承自抽象输入类文档处理器:AbstractInputStreamDocumentHandler

 

创建一个抽象的类的AbstractInputStreamDocumentHandler用于处理各种文件类型的的

处理器:AbstractTypeFileDocumentHandler

//用于获取文档的独享

 public final Document doGetDocumentWithInputStream(Map description, InputStream inputStream) throws IOException {


  Document document = new Document();
//获取文档的对象

  String text = extractText(inputStream);
  if( text!=null && text.length()>0 ) {
   //The text is analyzed and indexed but not stored
   document.add(new Field("contents", text, Field.Store.NO, Field.Index.TOKENIZED));
  }
  if( description.get(AbstractInputStreamDocumentHandler.FILENAME)!=null ) {
   document.add(new Field("type", "file", Field.Store.YES, Field.Index.UN_TOKENIZED));
   document.add(new Field("filename", (String)description.get(AbstractInputStreamDocumentHandler.FILENAME), Field.Store.YES, Field.Index.UN_TOKENIZED));
  }
  return document;
 }

 

 

 以下各种处理器用于处理各种类型的文档

其中txt文件类型时Luence 默认的 文件处理类型,可以直接得到文档的内容。

 

(1)关于txt文本文件处理方式如下:

protected Document doGetDocumentWithInputStream(Map description,InputStream inputStream) {
//创建一个索引文档对象  

Document document = new Document();

 //将文本文件的内容放入一个context的文档域中在使用可以根据索引域的名称获取文本文件的内容
  document.add(new Field("contents", new InputStreamReader(inputStream)));


  if( description.get(FILENAME)!=null ) {
  //添加文件类型的索引域

   document.add(new Field("type", "file", Field.Store.YES, Field.Index.UN_TOKENIZED));

   document.add(new Field("filename", (String)description.get(FILENAME), Field.Store.YES,  Field.Index.UN_TOKENIZED));


  }
  return document;
 }

 

有Luence基础可以知道在创建索引文档中索引域时必须采用适当的域对象,不然效率可能很低,o(∩_∩)o...哈哈。

 

(2)关于RTF格式的富文本文档。

RTF不可以直接使用输入流对象必须进行处理。方可以得到RTF中内容信息。

由Java Swing 编程的开发人员一般知道一个简便处理RTF富文本类型的工具:

使用SWing中DefaultStyledDocument,RTFEditorKit类轻易解决问题。

 

处理方法如下:先将rtf文档转换为输入流inputstream,使用SWing工具处理。

 //创建样式文档对象

DefaultStyledDocument styledDoc = new DefaultStyledDocument();
 //RTF编辑工具处理文件的内容

new RTFEditorKit().read(inputStream, styledDoc, 0);

   //获取文档的内容信息
String rtfContext=styledDoc.getText(0, styledDoc.getLength());

 

(3)关于Excel的处理方式比较多:使用开源组件处理如Jxl,POI等处理,即可

这里采用的jxl处理的方式:

使用jxl代码如下:

 //创建一个工作簿对象

Workbook workbook=Workbook.getWorkbook(inputStream);

 //获取并遍历每一个工作单中
   for(int cpt = 0; cpt<workbook.getNumberOfSheets(); cpt++) {
    Sheet sheet = workbook.getSheet(cpt);

         //获取遍历每行中信息

          for(int cptRow = 0; cptRow<sheet.getRows(); cptRow++) {

                //获取并遍历每列中的信息
   for(int cptColumn = 0; cptColumn<sheet.getColumns(); cptColumn++) {

  //获取每列的信息
    Cell cell = sheet.getCell(cptColumn,cptRow);
    String cellText = cell.getContents();
    if( cellText!=null && cellText.length()>0 ) {
     appendText(text, cellText);
    }
   }
  }

(4) PDF文档的处理器设计:

针对PDF的处理器,最好使用PDFBox这个组件,因为这个组件中封装累了关于索引文档对象。如果使用POI,就需要非很
     多时间了。

采用PDFBox的LucenePDFDocument对象即可如下:

Document doc=LucenePDFDocument.getDocument(inputStream);

 

 

(5)WORD的文档的处理方式:使用textmining的组件即可 tx-extractors.jar解析或者使用POI解析都比较简单。

使用 tx-extractors.jar解析如下:

将doc文档设置成流对象从流中读取信息。

 WordExtractor wordDocument = new WordExtractor();
  String text = wordDocument.extractText(inputStream);

 

 

分享到:
评论

相关推荐

    java全大撒大撒大苏打

    sdad

    (175820822)基于java的工资管理系统设计与实现

    本课程设计是某公司的工资管理系统。在这个计算机快速发展的世界里,计算机为信息处理提供了物美价廉的手段,对于推动我国管理信息处理现代化起到了重要作用。工资管理是一项琐碎、复杂而又十分细致的工作,工资计算、发放、核算的工作量很大,一般不允许出错,如果实行手工操作,每月发放工资须手工填制大量的表格,这就会耗费工作人员大量的时间和精力,计算机进行工资发放工作,不仅能够保证工资核算准确无误、快速输出,而且还可以利用计算机对有关工资的各种信息进行统计,既方便又快捷地完成员工工资的发放。 本课程设计过程中根据设计中的需求及对工资管理系统采用了模块化的设计思想,在机房我们在Windows XP 操作系统环境下,采用 myeclipse7作为开发工具,主要连接 Access 数据库来实现公司的工资管理系统的主要功能。在设计过程中,我们首先小组首先对整体的思路进行分析,然后进行分工。对数据库和类进行设计,实现了工资管理系统的功能。其功能主要包括公司用户管理、人员管理、部门管理、工资管理等功能.。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    YOLO算法-水泥路面裂纹检测数据集-5005张图像带标签-裂纹.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    基于鸟鸣声识别的鸟类分类系统项目源代码全套技术资料.zip

    基于鸟鸣声识别的鸟类分类系统项目源代码全套技术资料.zip

    zigbee CC2530无线自组网协议栈系统代码实现协议捕捉与数据分析.zip

    1、嵌入式物联网单片机项目开发例程,简单、方便、好用,节省开发时间。 2、代码使用IAR软件开发,当前在CC2530上运行,如果是其他型号芯片,请自行移植。 3、软件下载时,请注意接上硬件,并确认烧录器连接正常。 4、有偿指导v:wulianjishu666; 5、如果接入其他传感器,请查看账号发布的其他资料。 6、单片机与模块的接线,在代码当中均有定义,请自行对照。 7、若硬件有差异,请根据自身情况调整代码,程序仅供参考学习。 8、代码有注释说明,请耐心阅读。 9、例程具有一定专业性,非专业人士请谨慎操作。

    毕业设计前后端分离博客项目源代码.zip

    毕业设计前后端分离博客项目源代码.zip

    (170644008)Eclipse+MySql+JavaSwing选课成绩管理系统

    Eclipse+MySql+JavaSwing选课成绩管理系统,原文博客在https://blog.csdn.net/qq_50062694/article/details/124649345?spm=1001.2014.3001.5502。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    IBM Process Mining流程挖掘

    什么是流程挖掘?为什么需要流程挖掘?流程挖掘面向的部门是哪些?流程挖掘之后做什么?如果想知道这些,请阅读此文。

    Android程序开发初级教程WORD文档doc格式最新版本

    ### Android程序开发初级教程(一):初识Android **平台概述** Google推出的Android操作系统平台已经正式亮相,这是一个基于Linux内核的开源操作系统。对于开发者而言,了解其架构和支持的开发语言至关重要。以下是Android平台的架构概览: **平台架构及功能** 1. **应用框架(Application Framework)**:包含可重用和可替换的组件,确保所有软件在该层面上的平等性。 2. **Dalvik虚拟机(Dalvik Virtual Machine)**:一个基于Linux的虚拟机,为Android应用提供运行环境。 3. **集成浏览器(Integrated Browser)**:基于开源WebKit引擎的浏览器,位于应用层。 4. **优化图形(Optimized Graphics)**:包括自定义的2D图形库和遵循OpenGL ES 1.0标准的3D实现。 5. **SQLite数据库**:用于数据存储。 6. **多媒体支持(Media Support)**:支持通用音频、视频以及多种图片格式(如MPEG4, H.264

    java毕设项目之ssm小型企业办公自动化系统的设计和开发+vue(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    212) Outgrid - 多用途 Elementor WordPress 主题 v2.0.0.zip

    212) Outgrid - 多用途 Elementor WordPress 主题 v2.0.0.zip

    weixin138社区互助养老+ssm(论文+源码)-kaic.zip

    weixin138社区互助养老+ssm(论文+源码)_kaic.zip

    深圳建筑安装公司“高处作业安全技术操作规程”.docx

    深圳建筑安装公司“高处作业安全技术操作规程”

    计算机视觉项目:Swin-Transformer 【tiny、small、base】模型实现的图像识别项目:番茄病害图像分类

    【项目简介】 代码主干网络采用Swin-Transformer 家族系列,包括【tiny、small、base】三种模型。pretrained和freeze_layers参数为是否采用官方预训练模型和是否仅训练分类头。为了做对比消融试验,优化器采用了Adam和SGD、AdamW三种。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法 【评估网络】 评估的指标采用loss和准确率(accuracy),分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估,包含混淆矩阵、recall、precision、F1 score等等曲线图像,以及recall、precision、F1 score、特异度的输出信息等等。 【具体各类别的指标在json文件中查看】 【如果想要更换数据集训练,参考readme文件】 【本项目为8种番茄病害图片(约4k张数据),包含数据集和标签,可以一键运行】

    城市公交查询-java-基于springBoot的城市公交查询系统设计与实现(毕业论文)

    城市公交查询功能描述 城市公交查询系统的主要目的是为市民提供便捷的公交信息查询服务,帮助用户快速获取公交线路、站点、时刻表等信息,从而提高出行效率。以下是该系统可能具备的功能描述: 1. 公交线路查询 线路搜索:用户可以通过输入公交线路编号或线路名称,快速查询到该线路的详细信息。 线路详情:展示所选线路的起点、终点、途经站点、首末班车时间、发车间隔等信息。 线路图展示:提供线路的可视化地图,显示线路走向及各个站点位置。 2. 站点查询 站点搜索:用户可以通过输入站点名称或编号,查询该站点的相关信息。 站点详情:展示所选站点的上下车线路、周边设施、换乘信息等。 实时到站信息:提供该站点即将到达的公交车信息,包括预计到达时间和车牌号。 3. 实时公交信息 实时位置追踪:用户可以查看公交车的实时位置,了解公交车的行驶状态。 到站预测:根据实时数据,预测公交车到达各个站点的时间,帮助用户合理安排出行。 4. 换乘查询 换乘方案推荐:用户输入起点和终点后,系统提供最佳的换乘方案,包括所需的公交线路、换乘站点及步行距离。 换乘时间估算:计算并展示换乘所需的总时间,包括等车时间和步行时间。 5.

    交通旅游订票-JAVA-基于spring boot的交通旅游订票系统设计与实现(毕业论文)

    交通旅游订票功能描述 交通旅游订票系统是为了简化旅游出行过程,提升用户的预定体验。该系统通常集成了机票、火车票、汽车票、船票、景区门票等多种交通和旅游产品的预订、支付及管理功能。以下是该系统可能具备的功能描述: 1. 用户管理 用户注册与登录:提供游客注册与登录功能,支持邮箱、手机号等多种方式注册,保证用户信息安全。 个人信息管理:用户可以查看和编辑个人信息,如身份证号、联系方式、常用地址等。 乘客信息保存:可保存常用乘客信息,如身份证、护照、儿童票信息,方便快速预定。 2. 交通票务管理 票务查询:提供交通工具的实时查询功能,支持机票、火车票、汽车票、船票等的查询,包含出发时间、到达时间、票价、座位情况等信息。 多种票务类型支持:支持单程票、往返票、联程票、团体票等多种票种,满足不同用户需求。 票价比较:根据日期、交通工具等条件,自动比较票价,帮助用户选择最合适的票务。 票务预订与支付:提供便捷的在线预订和支付功能,支持多种支付方式(如银行卡、支付宝、微信等)。 票务改签与退票:用户可以在线申请改签和退票,并查看相关费用及政策。 3. 旅游产品预订 景点门票预订:用户可以在线选择

    企业数据管理系统项目源代码.zip

    企业数据管理系统项目源代码.zip

    java毕设项目之ssm高校专业信息管理系统设计与实现+jsp(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    基于plc的污水处理,组态王动画仿真,带PLC源代码,组态王源代码,图纸,IO地址分配

    基于plc的污水处理,组态王动画仿真,带PLC源代码,组态王源代码,图纸,IO地址分配

    SINAMICS S120驱动第三方直线永磁同步电机系列视频-配置和优化.mp4

    SINAMICS S120驱动第三方直线永磁同步电机系列视频_配置和优化.mp4

Global site tag (gtag.js) - Google Analytics