SpringLuence的学习总结（一）

longgangbai

浏览: 7358326 次
性别:
来自: 上海

最近访客更多访客>>

liuqibo861129

sdcharles

paladin1988

ljq867

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

开源组件的应用

Swing 搜索引擎 lucene Excel 编程

在最近，看了一下SpringLuence的源代码，学习关于搜索引擎的设计思路：

首先关于搜索引擎的两个主要操作为：

1.建立索引文档

2.搜索查找信息

创建索引文档，必须针对不同的文档，获取各种文档的内容，建立文档的信息。

关于建立索引文档的方法请看Luence的基础。

这里主要说一下关于Luence设计的思路。

无论任何文档都可以转换为输入流对象，然后获取文件的内容。

关于文档处理器的接口设计如下：

DocumentHandler

源代码如下：

public interface DocumentHandler {

/**
* Return whether or not this object can create a document from an
* instance of the given class. 检测一个对象是否可以创建一个索引文档对象
*/
boolean supports(Class clazz);

/**
* This method indexes an object and specifies some additional
* properties on the Lucene document basing the description parameter.
*
* The object to index can be either a POJO or a stream on a resource.
*
* @param description the description of the resource to index Map中存储索引文档的中索引的字段用于建立索引文档时使用
* @param inputStream the input stream which will be used to index 此处的Object可以时POJO或stream
*/
Document getDocument(Map description, Object object) throws Exception;
}

Document getDocument(Map description, Object object) throws Exception;

此处设置此方法中Object目的为创建索引文档的几种对象不同而设置：

在SpringLuence中创建索引文档的方式由三种：

1.根据一个流对象创建一个索引文档

2.根据数据库中的对象创建一个索引文档。

3.根据一个类使用反射创建一个索引文档。

关于一个流创建索引文档的：

其中在各种文档创建文档中，所有的文档处理类继承自抽象输入类文档处理器：AbstractInputStreamDocumentHandler

创建一个抽象的类的AbstractInputStreamDocumentHandler用于处理各种文件类型的的

处理器：AbstractTypeFileDocumentHandler

//用于获取文档的独享

public final Document doGetDocumentWithInputStream(Map description, InputStream inputStream) throws IOException {

Document document = new Document();
//获取文档的对象

  String text = extractText(inputStream);
  if( text!=null && text.length()>0 ) {
   //The text is analyzed and indexed but not stored
   document.add(new Field("contents", text, Field.Store.NO, Field.Index.TOKENIZED));
  }
  if( description.get(AbstractInputStreamDocumentHandler.FILENAME)!=null ) {
   document.add(new Field("type", "file", Field.Store.YES, Field.Index.UN_TOKENIZED));
   document.add(new Field("filename", (String)description.get(AbstractInputStreamDocumentHandler.FILENAME), Field.Store.YES, Field.Index.UN_TOKENIZED));
  }
  return document;
}

以下各种处理器用于处理各种类型的文档

其中txt文件类型时Luence 默认的文件处理类型，可以直接得到文档的内容。

（1）关于txt文本文件处理方式如下：

protected Document doGetDocumentWithInputStream(Map description,InputStream inputStream) {
//创建一个索引文档对象

Document document = new Document();

//将文本文件的内容放入一个context的文档域中在使用可以根据索引域的名称获取文本文件的内容
document.add(new Field("contents", new InputStreamReader(inputStream)));

if( description.get(FILENAME)!=null ) {
//添加文件类型的索引域

document.add(new Field("type", "file", Field.Store.YES, Field.Index.UN_TOKENIZED));

document.add(new Field("filename", (String)description.get(FILENAME), Field.Store.YES, Field.Index.UN_TOKENIZED));

}
return document;
}

有Luence基础可以知道在创建索引文档中索引域时必须采用适当的域对象，不然效率可能很低，o(∩_∩)o...哈哈。

（2）关于RTF格式的富文本文档。

RTF不可以直接使用输入流对象必须进行处理。方可以得到RTF中内容信息。

由Java Swing 编程的开发人员一般知道一个简便处理RTF富文本类型的工具：

使用SWing中DefaultStyledDocument，RTFEditorKit类轻易解决问题。

处理方法如下：先将rtf文档转换为输入流inputstream，使用SWing工具处理。

//创建样式文档对象

DefaultStyledDocument styledDoc = new DefaultStyledDocument();
//RTF编辑工具处理文件的内容

new RTFEditorKit().read(inputStream, styledDoc, 0);

//获取文档的内容信息
String rtfContext=styledDoc.getText(0, styledDoc.getLength());

（3）关于Excel的处理方式比较多：使用开源组件处理如Jxl，POI等处理，即可

这里采用的jxl处理的方式：

使用jxl代码如下：

//创建一个工作簿对象

Workbook workbook=Workbook.getWorkbook(inputStream);

//获取并遍历每一个工作单中
for(int cpt = 0; cpt<workbook.getNumberOfSheets(); cpt++) {
Sheet sheet = workbook.getSheet(cpt);

//获取遍历每行中信息

for(int cptRow = 0; cptRow<sheet.getRows(); cptRow++) {

//获取并遍历每列中的信息
for(int cptColumn = 0; cptColumn<sheet.getColumns(); cptColumn++) {

  //获取每列的信息
    Cell cell = sheet.getCell(cptColumn,cptRow);
    String cellText = cell.getContents();
    if( cellText!=null && cellText.length()>0 ) {
     appendText(text, cellText);
    }
   }
  }

｝

(4) PDF文档的处理器设计：

针对PDF的处理器，最好使用PDFBox这个组件，因为这个组件中封装累了关于索引文档对象。如果使用POI，就需要非很
多时间了。

采用PDFBox的LucenePDFDocument对象即可如下：

Document doc=LucenePDFDocument.getDocument(inputStream);

(5)WORD的文档的处理方式：使用textmining的组件即可 tx-extractors.jar解析或者使用POI解析都比较简单。

使用 tx-extractors.jar解析如下：

将doc文档设置成流对象从流中读取信息。

WordExtractor wordDocument = new WordExtractor();
String text = wordDocument.extractText(inputStream);

分享到：

SpringLuence的学习总结（二） | Hibernate中用户类型(User Type)应用

2009-08-18 13:35
浏览 1639
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Simulink与Simscape的倾转双旋翼飞行器仿真研究：两轴飞行器内环外环PID控制策略在横列式双旋翼矢量飞行器中的应用,基于Simulink与Simscape的倾转双旋翼飞行器仿真研究：两: 基于Simulink与Simscape的倾转双旋翼飞行器仿真研究：两轴飞行器内环外环PID控制策略在横列式双旋翼矢量飞行器中的应用,基于Simulink与Simscape的倾转双旋翼飞行器仿真研究：两轴飞行器内环外环PID控制策略在横列式双旋翼矢量飞行器中的应用,倾转双旋翼飞行器仿真 simulink simscapeMATLAB两轴飞行器横列式双旋翼矢量飞行器内环外环 pid控制 ,关键词：倾转双旋翼飞行器; simulink仿真; simscape; MATLAB; 横列式双旋翼矢量飞行器; 内环控制; 外环控制; pid控制以上关键词用分号分隔为：倾转双旋翼飞行器; simulink仿真; simscape; MATLAB; 横列式双旋翼; 矢量飞行器; 内环控制; 外环控制; pid控制。,MATLAB Simulink Simscape双旋翼飞行器仿真及PID控制

2024年北京地区水工职位薪酬调查报告: 人力资源+大数据+薪酬报告+涨薪调薪，在学习、工作生活中，越来越多的事务都会使用到报告，通常情况下，报告的内容含量大、篇幅较长。那么什么样的薪酬报告才是有效的呢？以下是小编精心整理的调薪申请报告，欢迎大家分享。相信老板看到这样的报告，一定会考虑涨薪的哦。

MATLAB仿真下的Delta并联机器人正逆运动学分析与Simulink Simscape模拟实践,MATLAB仿真下的Delta并联机器人正逆运动学分析与Simulink Simscape仿真研究: MATLAB仿真下的Delta并联机器人正逆运动学分析与Simulink Simscape模拟实践,MATLAB仿真下的Delta并联机器人正逆运动学分析与Simulink Simscape仿真研究,MATLAB仿真 delta并联机器人 simulink simscape仿真正逆运动学 ,MATLAB; delta并联机器人; Simulink; Simscape仿真; 正逆运动学,MATLAB Simulink Simscape仿真Delta并联机器人：正逆运动学解析

学生管理系统（PDF）.pdf: 学生管理系统（PDF）.pdf

心情漂流瓶（大创）.zip: 大创项目代码

基于S7-200 PLC与组态王的电气装配生产线全程解析：梯形图程序、接线图及IO分配与组态画面指南,基于S7-200 PLC与组态王的电气装配生产线全程指南：梯形图程序、接线图、IO分配与组态画面解: 基于S7-200 PLC与组态王的电气装配生产线全程解析：梯形图程序、接线图及IO分配与组态画面指南,基于S7-200 PLC与组态王的电气装配生产线全程指南：梯形图程序、接线图、IO分配与组态画面解析,基于S7-200 PLC和组态王电气装配生产线控制带解释的梯形图程序，接线图原理图图纸，io分配，组态画面 ,基于S7-200 PLC; 电气装配生产线控制; 梯形图程序; 接线图原理图; IO分配; 组态画面,基于S7-200 PLC与组态王系统控制的电气装配生产线程序及设计全解析

北京大学 DeepSeek内部研讨系列二：提示词工程和落地场景: 内容概要：本文档源自北京大学内部的一次研讨会议录，围绕名为 DeepSeek 的大型语言模型进行探讨。主要内容涵盖了 DeepSeek 成功背后的关键因素、直接使用途径及其多样性的应用场景。特别是有关提示词技巧的教学对于普通公众而言，使得利用高级别的人工智能成为触手可及之事。文章展示了多个行业与生活方面的实例，说明了 DeepSeek 如何帮助企业与个人更有效地完成任务。适用人群：适用于所有层级的人群，从普通大众到专业人士都可以受益，尤其关注希望通过AI工具提高效率的企业和技术爱好者。使用场景及目标：文章不仅介绍了 DeepSeek 在不同领域的应用可能性，而且详细讲解了具体的提示词策略以便用户获得更好的输出质量。无论是在教育、办公、医疗还是日常生活中，用户可以通过适当调整提示语句从而更好地操控这一强大的工具来达成目的。其他说明：此次讲座还包括了 DeepSeek 的三种主要访问方法，并附带有在线资源和支持材料（如参考图书），进一步促进了其易用性。同时，也提到了开源特性所带来的技术进步与合作契机，以及它在促进国内外科技交流方面所起的作用。

广西大学赛尔网络创新项目-购售电云平台.zip: 大创项目代码

【国投证券】Optimus开辟第二战场，推动特斯拉再进阶【发现报告 fxbaogao.com】.pdf: 【国投证券】Optimus开辟第二战场，推动特斯拉再进阶【发现报告 fxbaogao.com】

永磁同步模型电流预测控制结合滑模新型趋近律：提高系统鲁棒性与稳态性能学习文献,永磁同步模型电流预测控制结合滑模新型趋近律：提高系统鲁棒性与稳态性能学习文献, 永磁同步模型电流预测控制+滑模控制滑: 永磁同步模型电流预测控制结合滑模新型趋近律：提高系统鲁棒性与稳态性能学习文献,永磁同步模型电流预测控制结合滑模新型趋近律：提高系统鲁棒性与稳态性能学习文献, 永磁同步模型电流预测控制+滑模控制滑膜控制器采用新型趋近律与扰动观测器结合，提高系统鲁棒性和稳态特性。电流环采用预测控制双矢量改进算法。含有对应学习文献 ,永磁同步模型;电流预测控制;滑模控制;新型趋近律;扰动观测器;系统鲁棒性;稳态特性;学习文献,基于新型趋近律与预测控制的永磁同步电机滑模电流控制策略研究

英语学什么_2024-03-05-21-28-250228225649.pdf: 英语学什么_2024-03-05-21-28-250228225649.pdf

基于S7-200 PLC与MCGS组态技术的灌装生产线系统设计与实现：梯形图程序、接线图与组态画面全解析,基于S7-200 PLC和MCGS组态技术的灌装生产线智能化集成系统解决方案：包含梯形图程序、: 基于S7-200 PLC与MCGS组态技术的灌装生产线系统设计与实现：梯形图程序、接线图与组态画面全解析,基于S7-200 PLC和MCGS组态技术的灌装生产线智能化集成系统解决方案：包含梯形图程序、

IEC 63093-11 2018.rar: IEC 63093-11 2018.rar

接的大创项目.zip: 大创项目代码

小米路由器4C的full.bin文件: 小米4C路由器full.bin文件

S7-200PLC四泵供水控制系统设计：包含梯形图程序、接线图与IO分配及组态画面详解,S7-200PLC四泵供水控制系统设计：含梯形图程序、接线图、IO分配及组态画面详解,S7-200PLC程序4泵: S7-200PLC四泵供水控制系统设计：包含梯形图程序、接线图与IO分配及组态画面详解,S7-200PLC四泵供水控制系统设计：含梯形图程序、接线图、IO分配及组态画面详解,S7-200PLC程序4泵供水控制系统设计四泵供水控制系统带解释的梯形图程序，接线图原理图图纸，io分配，组态画面 ,S7-200PLC程序; 泵供水控制系统设计; 四泵供水控制系统; 梯形图程序; 接线图原理图; IO分配; 组态画面,S7-200 PLC四泵供水控制系统设计与实现：带梯形图程序与原理图详解

【国联证券】核心护城河稳固市场地位，海外业务带来新增长【发现报告 fxbaogao.com】.pdf: 【国联证券】核心护城河稳固市场地位，海外业务带来新增长【发现报告 fxbaogao.com】

Delta 台达PLC-EH3铆压机程序：精准控制3轴与自动上下料，带触摸屏与伺服参数设定，含电气BOM与CAD图纸,Delta 台达PLC-EH3铆压机程序：详解3轴Z轴电缸下降距离的位置加扭矩模式: Delta 台达PLC-EH3铆压机程序：精准控制3轴与自动上下料，带触摸屏与伺服参数设定，含电气BOM与CAD图纸,Delta 台达PLC-EH3铆压机程序：详解3轴Z轴电缸下降距离的位置加扭矩模式与自动化上下料功能，附PLC注释与触摸屏程序及电气图纸,Delta 台达PLC-EH3铆压机程序。 3轴，Z轴(SMC)电缸下降的距离用的是位置加扭矩模式，台达PLC MODBUS通讯控制台达A2伺服扭矩，自动上下料，每个点位可跳点，可设位置和扭矩，PLC程序有完整的注释，触摸屏程序，伺服参数设定程序.电气BOM.电气CAD图纸。 ,Delta;台达PLC-EH3;铆压机程序;3轴控制;位置加扭矩模式;MODBUS通讯;A2伺服扭矩;自动上下料;跳点设置;完整注释;触摸屏程序;伺服参数设定;电气BOM;电气CAD图纸。,Delta PLC-EH3铆压机：三轴MODBUS伺服控制程序

SICAR (汽车标准程序解读): SICAR (汽车标准程序解读)

大数据企业实训项目：基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分.zip: 大创项目代码

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论