`
squll369
  • 浏览: 111006 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

JSPWiki 支持附件文件内容搜索

阅读更多

   最近项目组要搭一个wiki,经过筛选我们决定使用JSPWiki(网上有大量的分析),待搭完以后,发现他不支持附件文件内容搜索,也就是说,如果这篇wiki中上传了一些doc,xls等文件是不能被搜索到的,但是在jspwiki.properties配置中有如下配置:

 

jspwiki.searchProvider =LuceneSearchProvider
jspwiki.lucene.analyzer = org.apache.lucene.analysis.standard.StandardAnalyzer

 

也就是JSPWiki也是用lucene来做检索的,于是下了他的源码,看了下这个类com.ecyrd.jspwiki.search.LuceneSearchProvider,发现了如下方法:

 

protected String getAttachmentContent( Attachment att )
    {
        AttachmentManager mgr = m_engine.getAttachmentManager();
        //FIXME: Add attachment plugin structure

        String filename = att.getFileName();

        if(filename.endsWith(".txt") ||
           filename.endsWith(".xml") ||
           filename.endsWith(".ini") ||
           filename.endsWith(".html"))
        {
            InputStream attStream;

            try
            {
                attStream = mgr.getAttachmentStream( att );

                StringWriter sout = new StringWriter();
                FileUtil.copyContents( new InputStreamReader(attStream), sout );

                attStream.close();
                sout.close();

                return sout.toString();
            }
            catch (ProviderException e)
            {
                log.error("Attachment cannot be loaded", e);
                return null;
            }
            catch (IOException e)
            {
                log.error("Attachment cannot be loaded", e);
                return null;
            }
        } 
......

 

就是说支持文本文件附件(txt,xml,ini,html)的内容搜索,试了一下,上传了一个txt文件,果然是可以被查出来,。

 

于是决定给这个类动动手术,添加点功能让它可以支持doc和xls, 添加了如下代码在下面(office 2003到2007,文件格式不同,分开来写了),然后重新打包(打好的jar,我放在附件里),启动JSPWiki, 实验了一下,word 和 excel的文件可以被查出来了。

 

注意的是,这个类的作用是,在附件文件上传,用lucene建立了索引,所以实验的话,一定要重新上传文件,在改这个class之前上传的文件时没有用的。

 

......       
     else if(filename.endsWith(".doc")){
            InputStream attStream = null;
            try {
                attStream = mgr.getAttachmentStream(att);             
                WordExtractor extractor = new WordExtractor(attStream);  
                String s = extractor.getText();  
                log.debug("Extracted text: " + s + " from attachment: " + filename);
                return s;              
            } catch (Exception e) {
                log.error("Attachment cannot be loaded", e);
                return null;
            } finally {
                if(attStream != null){
                    try {
                      attStream.close();
                  }
                  catch (IOException e) {
                      log.warn("Couldn't close attachment stream for " + filename, e);
                  }
                }           
            }
        }
        
        else if(filename.endsWith(".docx")){
            InputStream attStream = null;
            try {
                attStream = mgr.getAttachmentStream(att);
                XWPFWordExtractor extractor = new XWPFWordExtractor(new XWPFDocument(attStream));  
                String s = extractor.getText();  
                log.debug("Extracted text: " + s + " from attachment: " + filename);
                return s;              
            } catch (Exception e) {
                log.error("Attachment cannot be loaded", e);
                return null;
            } finally {
                if(attStream != null){
                    try {
                      attStream.close();
                  }
                  catch (IOException e) {
                      log.warn("Couldn't close attachment stream for " + filename, e);
                  }
                }           
            }
        }
        
        else if(filename.endsWith(".xls")){
            InputStream attStream = null; 
            try {
                attStream = mgr.getAttachmentStream(att);
                HSSFWorkbook workbook=new HSSFWorkbook(attStream);
                HSSFSheet sheet=null;
                StringBuffer sb = new StringBuffer();
                for(int i = 0; i < workbook.getNumberOfSheets(); i++) {
                    sheet=workbook.getSheetAt(i);
                    if(sheet == null){
                        continue; 
                    }
                    for (int j = 0; j < sheet.getPhysicalNumberOfRows(); j++) {
                        HSSFRow row=sheet.getRow(j);
                        if(row == null){
                            continue; 
                        }
                        for (int k = 0; k < row.getLastCellNum(); k++) {
                            sb.append(row.getCell(k));   
                            sb.append(" ");
                        }                  
                    }    
                }
                String s = sb.toString();
                log.debug("Extracted text: " + s + " from attachment: " + filename);
                return s; 
                
            } catch (Exception e) {
                log.error("Attachment cannot be loaded", e);
                return null;
            } finally {
                if(attStream != null){
                    try {
                      attStream.close();
                  }
                  catch (IOException e) {
                      log.warn("Couldn't close attachment stream for " + filename, e);
                  }
                }           
            }
        }
        else if(filename.endsWith(".xlsx")){
            InputStream attStream = null; 
            try {
                attStream = mgr.getAttachmentStream(att);
                XSSFWorkbook workbook = new XSSFWorkbook(attStream);
                XSSFSheet sheet=null;
                StringBuffer sb = new StringBuffer();
                for(int i = 0; i < workbook.getNumberOfSheets(); i++) {
                    sheet = workbook.getSheetAt(i);
                    if(sheet == null){
                        continue; 
                    }
                    for (int j = 0; j < sheet.getPhysicalNumberOfRows(); j++) {
                        XSSFRow row=sheet.getRow(j);
     
                        if(row == null){
                            continue; 
                        }
                        for (int k = 0; k < row.getLastCellNum(); k++) {
                            sb.append(row.getCell(k)); 
                            sb.append(" ");
                        }                  
                    }    
                }
                String s = sb.toString();
                log.debug("Extracted text: " + s + " from attachment: " + filename);
                return s; 
                
            } catch (Exception e) {
                log.error("Attachment cannot be loaded", e);
                return null;
            } finally {
                if(attStream != null){
                    try {
                      attStream.close();
                  }
                  catch (IOException e) {
                      log.warn("Couldn't close attachment stream for " + filename, e);
                  }
                }           
            }
        }    
......
 

 

 

分享到:
评论

相关推荐

    JSPWiki-2.8.3-安装版

    1. 主题和插件:JSPWiki支持更换主题,以及通过安装插件来扩展功能,如搜索引擎优化、评论系统等。 2. 性能优化:根据服务器负载,调整缓存设置、数据库连接池大小等。 3. 安全性:定期更新JSPWiki以获取最新的安全...

    JSPWiki-2.8.3-源代码

    - 文件编码:可能原版本不支持中文字符编码,导致中文附件名显示乱码或无法正常保存。 - URL编码:中文附件名在URL中可能需要进行适当的编码和解码。 - 数据库存储:如果附件信息存储在数据库中,可能需要处理数据库...

    Java开源Wiki系统分类列表.pdf

    8. **XWiki**:这是一个功能强大的Java开源Wiki引擎,支持内容管理、附件、版本控制、全文搜索、权限管理、RSS输出、多语言、XML/RPC API、WYSIWYG编辑器、PDF导出以及Groovy脚本支持等多种特性。 9. **ButorWiki**...

    Java开源Wiki系统分类列表.docx

    8. **XWiki**:这是一个功能强大的Java开源Wiki引擎,支持内容管理、附件、版本控制、全文搜索、权限管理等多种特性,还支持导出为PDF格式和Groovy脚本。 9. **ButorWiki**:基于Butor Java框架和Struts MVC,不...

    SNS单模无芯光纤仿真与传感器结构特性分析——基于Rsoft beamprop模块

    内容概要:本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性,利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况,进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真,包括损耗、色散和模式耦合等参数的评估。随后,文章分析了光纤的结构特性,如折射率分布、包层和纤芯直径对性能的影响,并探讨了镀膜技术对光纤性能的提升作用。最后,进行了变形仿真分析,研究外部因素导致的光纤变形对其性能的影响。通过这些分析,为优化光纤设计提供了理论依据。 适合人群:从事光纤通信、光学工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目,旨在提高光纤性能并拓展其应用场景。 其他说明:本文不仅提供了详细的仿真方法和技术细节,还对未来的发展方向进行了展望,强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。

    发那科USM通讯程序socket-rece

    发那科USM通讯程序socket-set

    嵌入式八股文面试题库资料知识宝典-WIFI.zip

    嵌入式八股文面试题库资料知识宝典-WIFI.zip

    JS+HTML源码与image

    源码与image

    物流行业车辆路径优化:基于遗传算法和其他优化算法的MATLAB实现及应用

    内容概要:本文详细探讨了物流行业中路径规划与车辆路径优化(VRP)的问题,特别是针对冷链物流、带时间窗的车辆路径优化(VRPTW)、考虑充电桩的车辆路径优化(EVRP)以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景,还提供了完整的MATLAB代码及注释,帮助读者理解这些算法的具体实现。此外,文章还讨论了如何通过MATLAB处理大量数据和复杂计算,以得出最优的路径方案。 适合人群:从事物流行业的研究人员和技术人员,尤其是对路径优化感兴趣的开发者和工程师。 使用场景及目标:适用于需要优化车辆路径的企业和个人,旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码,读者可以在实际工作中应用这些优化方法,提升物流系统的性能。 其他说明:为了更好地理解和应用这些算法,建议读者参考相关文献和教程进行深入学习。同时,实际应用中还需根据具体情况进行参数调整和优化。

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

    基于灰狼优化算法的城市路径规划Matlab实现——解决TSP问题

    内容概要:本文介绍了基于灰狼优化算法(GWO)的城市路径规划优化问题(TSP),并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理,包括寻找猎物、围捕猎物和攻击猎物三个阶段,并提供了具体的代码示例。通过不断迭代优化路径,最终得到最优的城市路径规划方案。与传统TSP求解方法相比,GWO算法具有更好的全局搜索能力和较快的收敛速度,适用于复杂的城市环境。尽管如此,算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。 适合人群:对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。 使用场景及目标:①研究和开发高效的路径规划算法;②优化城市交通系统,提升出行效率;③探索人工智能在交通领域的应用。 其他说明:文中提到的代码可以作为学习和研究的基础,但实际应用中需要根据具体情况调整算法参数和优化策略。

    嵌入式八股文面试题库资料知识宝典-Intel3.zip

    嵌入式八股文面试题库资料知识宝典-Intel3.zip

    嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

    嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

    嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

    嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

    物理学领域十字形声子晶体的能带与传输特性研究及应用

    内容概要:本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位,特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响,并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性,即它对声波的调控能力,包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性,并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。 适合人群:从事物理学、材料科学、声学等相关领域的研究人员和技术人员。 使用场景及目标:适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者,旨在为相关领域的创新和发展提供理论支持和技术指导。 其他说明:文中还对未来的研究方向进行了展望,强调了声子晶体在未来多个领域的潜在应用价值。

    嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_.zip

    嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_

    e2b8a-main.zip

    e2b8a-main.zip

    少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

    少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

    【HarmonyOS分布式技术】远程启动子系统详解:跨设备无缝启动与智能协同的应用场景及未来展望

    内容概要:本文详细介绍了HarmonyOS分布式远程启动子系统,该系统作为HarmonyOS的重要组成部分,旨在打破设备间的界限,实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术,它能够快速、稳定地实现设备间的通信和数据同步,为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景,展示了其在提升效率和用户体验方面的巨大潜力。最后,文章展望了该系统的未来发展,强调其在技术优化和应用场景拓展上的无限可能性。 适合人群:对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。 使用场景及目标:①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节;②探索该系统在智能家居、智能办公和教育等领域的具体应用场景;③了解该系统为开发者提供的开发优势和实践要点。 其他说明:本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景,还展望了其未来的发展方向。通过阅读本文,用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验,为智能生活带来新的变革。

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

Global site tag (gtag.js) - Google Analytics