1、索引PDF乱码
这种情况只发生在索引某些pdf文件,在网上找了很久,帖子都是很老的了,一时不知如何解决,于是到solr的contrib/extraction/lib目录下面找找看pdf使用的库:pdfbox-1.3.1.jar、fontbox-1.3.1.jar和jempbox-1.3.1.jar,再到官网上看看,发现最新的版本已经到1.6.0 了,索引下载回来替换掉原有的测试看看。在替换掉这三个jar包之后,重新索引之前乱码的文档,然后搜索,一切OK!
2、搜索时,某些字段返回值太大,影响使用。这个最后在stackoverflow上找到解答了,这里非常感谢作者:http://stackoverflow.com/questions/3452665/how-do-i-return-only-a-truncated-portion-of-a-field-in-solr。
具体操作如下:
添加搜索参数:
fl=id,name&
hl=true&
hl.fl=attr_content&
f.attr_content.hl.snippets=2&
f.attr_content.hl.alternateField=attr_content&
hl.maxAlternateFieldLength=300
第一行定义查询结果返回的字段,第二行定义使用高亮显示关键字,第三行定义需要高亮的字段,第四行我的理解是字段内容切片数,第五行第一高亮字段的可选字段,第六行是定义最大长度300.
3、在索引某些大文件时,会发生内存溢出,不过这个问题在第一个问题解决之后,暂时没有发生,后面还需要测试,以判断是否真正解决。
补充,通过仔细观察,发现如果PDF中使用了很多字体,这个时候会报错,内存溢出,针对这个的解决办法是设置tomcat启动参数,加大java虚拟机内存。
分享到:
相关推荐
这篇博客“solr 3.4 中文分词配置问题”很可能详细介绍了如何在Solr 3.4中为中文内容进行有效的分词处理。 首先,我们需要理解分词器的作用。分词器是将连续的文本分解成独立的词汇单元(如词语或短语)的工具,这...
- `lucidworks-solr-refguide-官方版solr3.4.pdf`: 这是Solr 3.4的官方参考指南,详细介绍了Solr的功能和使用方法,对于初学者来说是一本很好的入门资料。 - `struts2 core doc`: Struts2是一个流行的Java Web框架...
总之,解决Solr启动404问题需要检查多个方面,包括但不限于Java环境、`solrhome`配置、核心配置文件、端口设置以及可能的容器化部署问题。仔细排查并按照上述步骤操作,通常都能找出问题所在并修复。如果问题持续...
这个压缩包包含了一系列与Solr相关的资料和问题解决方案,对于开发者来说是一份宝贵的资源集合。 首先,"eContact+V3.5(3.5.7.4Q1)Solr檢索附件需求分析書V1.0-ZhaoHaiming20100415.docx"文件可能是关于一个特定...
Apache Solr 是一个开源的全文搜索引擎,由Apache软件基金会维护,是Lucene项目的一部分。它提供了高效、可扩展的搜索和导航功能,广泛应用于企业级的搜索应用中。Solr-8.11.1是该软件的一个特定版本,包含了最新的...
Apache Solr是一款开源的企业级搜索平台,由Apache软件基金会维护。它是基于Java的,提供了高效、可扩展的全文检索、数据分析和分布式搜索功能。Solr-8.11.1是该软件的一个特定版本,包含了从早期版本到8.11.1的所有...
##### 3.4 解析 war 包 - 启动 Tomcat,使其自动解析 solr-4.10.2.war 包。 - 停止 Tomcat,进入 webapps 目录,删除 solr-4.10.2.war 并将解析出的 solr-4.10.2 目录重命名为 solr。 ##### 3.5 修改 web.xml - ...
Solr,全称为Apache Solr,是Apache软件基金会的一个开源项目,主要用来处理全文搜索和企业级的搜索应用。它基于Java,利用Lucene库构建,提供了高效、可扩展的搜索和导航功能。Solr-9.0.0是该软件的最新版本,此...
### Solr 4.7 服务搭建详细指南 #### 一、环境准备 为了搭建 Solr 4.7 服务,我们需要确保以下环境已经准备好: 1. **Java Development Kit (JDK) 1.7**:Solr 需要 Java 运行环境支持,这里我们选择 JDK 1.7 ...
Solr8.4.0 是 Apache Solr 的一个版本,这是一个高度可配置、高性能的全文搜索和分析引擎,广泛用于构建企业级搜索应用。 在 Solr 中,ikanalyzer 是一个重要的组件,它通过自定义Analyzer来实现中文的分词处理。...
解答关于Solr使用过程中可能遇到的问题,如乱码和查不到结果的排查方法。 这个SOLR应用教程涵盖了从基础概念到实际应用,包括安装配置、索引和搜索操作、SolrJ的使用以及性能优化等多个方面,为读者提供了一个全面...
Solr是Apache软件基金会的一个开源项目,它是基于Java的全文搜索服务器,被广泛应用于企业级搜索引擎的构建。源码分析是深入理解一个软件系统工作原理的重要途径,对于Solr这样的复杂系统尤其如此。这里我们将围绕...
Solr是Apache软件基金会开发的一款开源全文搜索引擎,它基于Java平台,是Lucene的一个扩展,提供了更为方便和强大的搜索功能。在Solr 6.2.0版本中,这个强大的分布式搜索引擎引入了许多新特性和改进,使其在处理大...
### Solr问题及解决方案 #### 一、Solr服务器配置问题与解决方法 **问题描述:** 当使用JavaBean向Solr服务器提交数据时,如果Solr服务器上的配置字段(Field)与JavaBean中的字段不匹配,则Solr服务器无法识别...
solr.warsolr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包solr.war包...
在当今互联网技术高速发展的背景下,Apache Solr作为一个成熟的搜索引擎解决方案,能很好地解决搜索相关的复杂问题,并在大数据环境下提供高性能的搜索服务。通过阅读这本书,读者可以全面系统地学习Solr从基本的...
Apache Solr 是一个开源的全文搜索引擎,广泛应用于各种企业级数据搜索和分析场景。增量更新是Solr的一个关键特性,它允许系统仅处理自上次完整索引以来发生更改的数据,从而提高了性能并降低了资源消耗。"apache-...
Solr服务器是Apache Lucene项目的一个子项目,是一款开源的企业级搜索平台,专门用于处理大量文本数据的全文检索、搜索和分析。它基于Java开发,能够处理多种数据源,包括XML、JSON、CSV等,提供了高效、可扩展的...
### Solr 学习知识点详解 #### 一、Solr 概述 - **定义**:Solr 是 Apache 下的一个顶级开源项目,采用 Java 开发,它是基于 Lucene 的全文搜索服务器。Solr 可以独立运行在 Jetty、Tomcat 等 Servlet 容器中。 -...
Solr,全称为Apache Solr,是一款开源的企业级全文搜索引擎,由Apache软件基金会开发并维护。它是基于Java的,因此在使用Solr之前,确保你的系统已经安装了Java 8或更高版本是至关重要的。标题"solr-7.4.0.zip"表明...