`
aswang
  • 浏览: 847925 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

solr 3.4解析xlsx文件报错的解决办法

 
阅读更多

在使用solr3.4进行搜索测试的时候,解析Excel 2007报异常:

 

2012-3-20 10:06:02 org.apache.solr.common.SolrException log
严重: org.apache.solr.common.SolrException: org.apache.tika.exception.TikaExcept
ion: Unexpected RuntimeException from org.apache.tika.parser.microsoft.ooxml.OOX
MLParser@4f14b0
        at org.apache.solr.handler.extraction.ExtractingDocumentLoader.load(Extr
actingDocumentLoader.java:219)
        at org.apache.solr.handler.ContentStreamHandlerBase.handleRequestBody(Co
ntentStreamHandlerBase.java:67)
        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandl
erBase.java:129)
        at org.apache.solr.core.RequestHandlers$LazyRequestHandlerWrapper.handle
Request(RequestHandlers.java:241)
        at org.apache.solr.core.SolrCore.execute(SolrCore.java:1368)
        at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter
.java:356)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilte
r.java:252)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(Appl
icationFilterChain.java:235)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationF
ilterChain.java:206)
        at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperV
alve.java:233)
        at org.apache.catalina.core.StandardContextValve.invoke(StandardContextV
alve.java:191)
        at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.j
ava:127)
        at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.j
ava:102)
        at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineVal
ve.java:109)
        at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.jav
a:291)
        at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java
:859)
        at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.proce
ss(Http11Protocol.java:602)
        at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:48
9)
        at java.lang.Thread.run(Thread.java:619)
Caused by: org.apache.tika.exception.TikaException: Unexpected RuntimeException
from org.apache.tika.parser.microsoft.ooxml.OOXMLParser@4f14b0
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:199
)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197
)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:1
37)
        at org.apache.solr.handler.extraction.ExtractingDocumentLoader.load(Extr
actingDocumentLoader.java:213)
        ... 18 more
Caused by: java.lang.NullPointerException
        at org.apache.poi.ss.usermodel.DataFormatter.getFormat(DataFormatter.jav
a:183)
        at org.apache.poi.ss.usermodel.DataFormatter.formatRawCellContents(DataF
ormatter.java:536)
        at org.apache.poi.ss.usermodel.DataFormatter.formatRawCellContents(DataF
ormatter.java:516)
        at org.apache.tika.parser.microsoft.ooxml.XSSFExcelExtractorDecorator.bu
ildXHTML(XSSFExcelExtractorDecorator.java:106)
        at org.apache.tika.parser.microsoft.ooxml.AbstractOOXMLExtractor.getXHTM
L(AbstractOOXMLExtractor.java:88)
        at org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse(OO
XMLExtractorFactory.java:83)
        at org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.
java:67)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:197
)
        ... 21 more

2012-3-20 10:06:02 org.apache.solr.core.SolrCore execute

 

这个异常是Tika项目早期的一个bug,现在已经解决了,具体地址:https://issues.apache.org/jira/browse/TIKA-348

 

解决办法1:如果项目允许,将solr升级到最新的3.5即可解决

 

解决办法2:只更新solr3.4里面跟文件解析相关的库即可。可以从solr3.5里面抽取出tika0.10和poi3.8的库,然后替换掉solr3.4里面对应的库即可。

 

分享到:
评论

相关推荐

    solr 3.4 中文分词配置问题

    文件`solr-3.4-query-parser-extend.jar`可能包含了对中文查询解析的扩展支持。 2. **修改schema.xml**:在Solr的配置文件`schema.xml`中定义字段类型(fieldType),指定使用哪个分词器。例如,可以创建一个名为`...

    solr中文解析器以及使用文档

    3. **配置Solr的中文解析器**:在Solr中使用IK Analyzer,需要在solrconfig.xml和schema.xml这两个配置文件中进行设置。首先,需要在solrconfig.xml中指定查询分析器和索引分析器为IK Analyzer;然后,在schema.xml...

    solr-dataimportscheduler-1.1.2.jar

    solr定时任务dataimport报错解决,dataimportscheduler升级包

    解决solr启动404问题

    总之,解决Solr启动404问题需要检查多个方面,包括但不限于Java环境、`solrhome`配置、核心配置文件、端口设置以及可能的容器化部署问题。仔细排查并按照上述步骤操作,通常都能找出问题所在并修复。如果问题持续...

    solr schema solrconfig 配置文件解析

    Solr,作为一款开源的全文搜索引擎,其核心配置文件包括`schema.xml`和`solrconfig.xml`,它们是Solr工作方式的基础。在深入理解这两个文件之前,我们需要先了解Solr的基本架构。 **1. Solr架构简介** Solr采用...

    ambari离线安装solr所需文件

    `solr.tgz`是一个包含Solr软件包的压缩文件,解压后将得到Solr的源代码或者预编译的二进制文件,这取决于tgz文件的内容。`SOLR-github`文件夹可能包含了从GitHub上下载的Solr项目的源代码,方便用户根据特定需求进行...

    solr中文分词器文件及配置.zip

    solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...

    solr所需配置文件

    9. **Tika配置文件**(如tika-config.xml):如果你使用Tika解析器来处理多种格式的文件,Tika的配置文件将定义解析规则。 10. **语言分析器相关文件**:例如stopwords.txt(停用词列表)、synonyms.txt(同义词...

    solr demo文件txt版

    通过以上对Solr配置文件以及Java示例代码的详细解析,我们不仅了解了Solr如何配置外部词典及其监控机制,还学习了一种利用Java库Jsoup进行网页抓取和解析的方法。这些知识点对于从事Web开发、搜索引擎优化、数据抓取...

    Apache Solr最新版任意文件读取0day1

    对于这个问题,Apache Solr的官方文档(如`SolrSecurity`和JIRA跟踪器(SOLR)提供了关于安全性的一般指导,但并未具体针对此漏洞提供解决方案。官方可能认为,用户应确保Solr实例部署在受控环境中,并应用适当的...

    solr_开发入门例子

    - `lucidworks-solr-refguide-官方版solr3.4.pdf`: 这是Solr 3.4的官方参考指南,详细介绍了Solr的功能和使用方法,对于初学者来说是一本很好的入门资料。 - `struts2 core doc`: Struts2是一个流行的Java Web框架...

    solr7部署相关文件.zip

    “classes”目录可能包含了自定义的 Java 类或者资源文件,这些类可能用于扩展 Solr 的功能,比如定制查询解析器、过滤器或者请求处理器。 部署 Solr 7 时,用户需要解压这两个主要的 tar.gz 文件,将 Solr 解压后...

    solr6.6.0源码

    Solr 6.6.0 是 Apache Solr 的一个重要版本,它是一个开源的企业级全文搜索引擎。这个源码包包含了 Solr 的所有源代码,对于理解 Solr 的工作原理、进行二次开发或者定制化配置有着非常重要的意义。接下来,我们将...

    solr启动报错-文件名目录名或卷标语法不正确-问题解决方法

    本文档记录了solr启动报错"文件名目录名或卷标语法不正确"问题的解决方法

    solr文件下载即用

    这个"solr文件下载即用"的压缩包提供了一个便捷的方式,让你能够立即开始使用Solr。以下是对Solr及其相关文件的详细介绍: 1. **Solr的基本概念**: - **Solr核心(Core)**:是Solr处理数据的基本单元,每个核心...

    solr配置中文解析器和将数据导入solr索引库时所需的jar包

    Solr,全称为Apache Solr,是一款开源的全文搜索引擎,被广泛应用于企业级搜索解决方案中。在处理中文数据时,由于中文的复杂性,需要特别配置中文解析器以正确地分词和理解文本内容。本篇文章将深入探讨如何在Solr...

    跟益达学Solr5之索引文件夹下所有文件

    - Solr5默认支持文本文件的索引,但对于非纯文本文件(如PDF、Excel等),需要借助第三方库如Apache Tika进行解析。 - 在`solrconfig.xml`中配置Tika解析器,让Solr能理解多种格式的文件内容。 5. **运行数据导入...

    solr4.10.2与tomcat6的整合

    ##### 3.4 解析 war 包 - 启动 Tomcat,使其自动解析 solr-4.10.2.war 包。 - 停止 Tomcat,进入 webapps 目录,删除 solr-4.10.2.war 并将解析出的 solr-4.10.2 目录重命名为 solr。 ##### 3.5 修改 web.xml - ...

    solr -8.11.1.zip 文件

    solr -8.11.1.zip 文件

    solr安装配置(单核、多核)

    4. 使用 Solr 示例的 `multicore` 目录中的 `solr.xml` 替换 Solr 根目录下的 `solr.xml` 文件,确保文件中包含了所有核心的定义。 5. 重新启动 Tomcat,现在你可以通过访问 `http://localhost:8888/solr` 来管理多...

Global site tag (gtag.js) - Google Analytics