`
baeiou
  • 浏览: 4374 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

solr中为pdf word excel等文档做索引和存诸时如何把回车空格等去掉

    博客分类:
  • solr
 
阅读更多

当用solr"/update/extract"方法为pdf 或 word 或excel 等文件做索引时,当高亮时总会出现很多回车或空格占了很多空间,让搜索结果时长时短很不好看,而配设中又没有配置可以完成这项目功能,唯一可以实现的就是改源码!

我用的是solr4.7.2的源码去改,源码在以下网址找到

http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.solr/solr-cell/4.7.2/

改的文件是

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.solr/solr-cell/4.7.2/org/apache/solr/handler/extraction/SolrContentHandler.java

改的地方是:

改动如下:

添加 private char LastChar=7;

public void startElement 去掉 bldrStack.getLast().append(' ');

public void endElement 去掉 bldrStack.getLast().append(' ');

public void characters(char[] chars, int offset, int length) throws SAXException

改为如下:

  public void characters(char[] chars, int offset, int length) throws SAXException {

if(chars.length>0)

{

char[] TmpChars=new char[chars.length];

int TmpCharsCount=0;

for(int i=offset;i<chars.length;i++)

{

if(chars[i]=='\n' || chars[i]=='\r' || chars[i]=='\t' || chars[i]==' ' || chars[i]==' ')

{

if(LastChar!=' ')

{

TmpChars[TmpCharsCount]=' ';

TmpCharsCount++;

LastChar=' ';

}

else

{

TmpChars[TmpCharsCount]=chars[i];

TmpCharsCount++;

LastChar=chars[i];

}

}

if(TmpCharsCount>0)

{

bldrStack.getLast().append(TmpChars, 0, TmpCharsCount);

}

}

  }

然后解压solr-cell-4.7.2.jar这个文件,替换里面的SolrContentHandler.class文件,再重新打包成zip文件再把后辍改成jar,这样替换掉原来的solr-cell-4.7.2.jar就OK了!

 

 

分享到:
评论

相关推荐

    Solr 使用文档 pdf版

    - **文档索引**:将文档添加到索引中,包括单个文档索引和批量导入两种方式。 - **查询语言**:支持多种查询语法,如简单查询、短语查询等。 - **分面搜索**:允许用户根据特定维度对结果进行细分,提高搜索的精确性...

    Solr文档.pdf

    安装后,Solr主要目录结构包括bin(运行脚本)、contrib(贡献插件)、dist(war和jar文件及相关依赖)、docs(API文档)、example(Solr工程的例子目录)、licenses(许可信息)等。Solr4.10.3要求使用1.7以上的JDK...

    Solr数据库插入(全量和增量)索引

    Solr 数据库插入全量和增量索引 Solr 是一个基于 Lucene 的搜索引擎,可以快速高效地对大量数据进行索引和查询。在实际应用中,我们需要将数据插入 Solr 索引库中,以便实现高效的搜索功能。本文将详细介绍 Solr ...

    solr7.5官方文档doc加pdf格式

    在阅读Solr7.5官方文档时,用户应重点关注以下主题: - 安装和配置:包括Solr的安装步骤、配置文件解析以及如何启动和停止Solr服务器。 - 文档处理:了解如何添加、更新和删除文档,以及如何定义和管理Schema(模式...

    solr7官方文档

    Apache Solr 是一个开源搜索引擎,基于 Apache Lucene...通过阅读官方文档,用户不仅能够掌握 Solr 的安装、配置、索引和搜索等基础操作,还能了解高级功能和优化技巧,从而高效地构建和维护基于 Solr 的搜索解决方案。

    solr教材-PDF版

    ### Solr教材知识点详解 ...以上是关于《solr教材-PDF版》的详细知识点介绍,涵盖了从Solr的基本概念到具体应用场景,再到性能调优等多个方面,旨在帮助读者全面了解和掌握Solr的核心技术和最佳实践。

    solr7.5官方文档

    无模式模式允许在索引文档时不预先定义模式,使得索引更加灵活。文档中解释了无模式模式的工作原理和应用场景。 #### 理解分析器、分词器和过滤器 文档深入介绍了 Solr 中的文本分析机制,包括如何使用分析器、...

    solr6.5英文版操作说明文档

    ### Solr 6.5 英文版操作说明文档知识点概览 ...通过以上概述,我们可以清晰地了解到 Solr 6.5 版本的操作说明文档涵盖了从安装部署到高级配置等多个方面的内容,旨在帮助用户全面掌握 Solr 的使用方法和技术细节。

    基于Solr4.9.0的搜索系统:包括Solr索引建立、Solr索引查询DUBBO接口等内容。资料齐全+详细文档.zip

    基于Solr4.9.0的搜索系统:包括Solr索引建立、Solr索引查询DUBBO接口等内容。资料齐全+详细文档.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过...

    solr文档solr文档

    1. **Solr的基本概念**:了解什么是索引、查询处理、分词器、过滤器、评分机制等核心概念,它们是构建Solr搜索系统的基础。 2. **安装与部署**:Solr的下载、解压、启动和停止过程,以及如何配置Solr服务器,包括...

    跟益达学Solr5之使用Tika从PDF中提取数据导入索引

    在本篇博文中,“跟益达学Solr5之使用Tika从PDF中提取数据导入索引”,我们将探讨如何利用Apache Solr 5和Tika这两个强大的开源工具,从PDF文档中抽取数据并将其有效地导入到Solr索引库中。Apache Solr是一款功能...

    java solr solrj 带账号密码增量查询添加索引

    主要讲解了 solr客户端如何调用带账号密码的solr服务器调用,实现添加索引和查询索引,以及分组查询

    Solr全文检索.pdf

    8. ElasticSearch 和 Solr 的区别:ElasticSearch 和 Solr 都是基于 Lucene 实现的,全文检索引擎,但是 Solr 在实时建立索引的时候会产生 IO 阻塞查询性能会比 ElasticSearch 差一些,ElasticSearch 支持分布式,...

    Solr 查询,索引

    Solr查询与索引是Apache Solr的核心功能,它是一个基于Lucene的开源搜索引擎服务器,提供了高效、可扩展的全文检索、命中高亮、 faceted search(分面搜索)、拼写检查、动态集群等特性。在本文中,我们将深入探讨...

    solr 7 官方文档

    Solr 7官方文档是关于Apache Solr 7版本的详尽指南,它是一个高度可扩展、高性能的全文搜索引擎服务器,广泛应用于企业级搜索场景。Solr基于Java开发,能够处理大量的索引和查询请求,并提供了丰富的功能来满足各种...

    solr中文解析器以及使用文档

    1. **中文分词**:中文文本不像英文那样以空格作为单词的分隔符,因此在索引和搜索时需要进行分词处理。IK Analyzer是一个广泛使用的开源中文分词工具,适用于Solr。它提供了一种高效的分词算法,能够识别出词汇的...

    solr创建索引并查询

    ### Solr创建索引并查询的关键知识点 #### 一、Solr简介 Apache Solr是一款开源的全文搜索引擎平台,基于Lucene实现。它提供了一套完整的搜索解决方案,并且支持多种高级特性,如高亮显示、分面搜索、地理位置搜索...

    基于solr的网站索引架构(一)

    Solr提供了一套完整的监控工具,如JMX接口、Solr Admin UI等,用于查看索引状态、查询性能和系统资源消耗。定期监控和日志分析可以帮助我们发现潜在问题,及时调整优化。 10. **未来发展趋势**: 随着大数据和...

Global site tag (gtag.js) - Google Analytics