`
lfzhs
  • 浏览: 76154 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

Solr 建立pdf/word/excel索引的方法

    博客分类:
  • Solr
阅读更多

PS: 本文假设你已经成功的搭建了一个Solr服务器
步骤如下:
(1)准备好一份Solr的源码,假设现在保存在c:\apache-solr-1.4.1\目录下
(2)从https://issues.apache.org/jira/browse/SOLR-284 上下载最新的rich.patch, libs.zip和test-files.zip三个文件
(3)解压libs.zip到c:\apache-solr-1.4.1\lib目录下,里面的jar就是负责分析Pdf、word和excel的
(4)新建一个文件patch-build.xml,内容如下:

 <?xml version="1.0" encoding="UTF-8"?>
 <project name="solr-patch" default="apply-patch" basedir=".">
     <target name="apply-patch" description="Apply a patch file. Set -      Dpatch.file">
         <patch patchfile="${patch.file}" strip="0" />
     </target>
 </project>

 
(5) 将rich.patch复制到c:\apache-solr-1.4.1\目录下,运行ant -Dpatch.file=rich.patch -f patch-build.xml 给solr打补丁,注意这里需要ant和Cygwin两个运行环境!
(6)执行ant dist 重新编译Solr包,编译好的文件在dist目录下将它复制到tomcat里面
(7)打开solrconfig.xml,添加如下内容:

 <requestHandler name="/update/rich" class="solr.RichDocumentRequestHandler" startup="lazy">
 </requestHandler>

 然后将 
  

<requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" />

         
 的enableRemoteStreaming属性设为true

(8)解压test-files.zip 到任意目录,假设现在是在c:\apache-solr-1.4.1\test\ 目录下
(9)启动SOLR,在浏览器输入:
http://localhost:8983/solr/update/rich?stream.type=doc&stream.file=c:/apache-solr-1.4.1/test/test-files/complex.doc&fieldnames=id&id=101&stream.fieldname=name&commit=true
为complex.doc 文件建立索引

(10) 打开http://localhost:8983/solr/admin/form.jsp 页输入关键字测试索引,完成!

0
1
分享到:
评论

相关推荐

    (完整word版)大数据技术文档.doc

    1. **本地资源解析模块**:此模块负责解析和索引本地的PDF、Word、Excel等文本内容,按主题分类,便于搜索。 2. **搜索模块**:用户可以针对不同主题进行内容索引和关键词查询,系统返回最相关的前n个文档,并统计...

    大数据技术文档.pdf

    1. 本地资源解析模块:解析本地PDF、Word、Excel文档,按主题分类建立索引。 2. 搜索模块:根据主题进行内容索引,返回最相关的查询结果,并统计高频词汇。 3. 信息爬取模块:包括种子URL设定、关键词选择和抓取深度...

    大数据技术文档 (2).pdf

    1. 本地资源解析模块:解析PDF、Word、Excel等本地文件,按主题分类建立索引。 2. 搜索模块:用户根据主题或关键词进行搜索,返回最相关的前n个文档,并统计高频词汇。 3. 信息爬取模块: - 信息定制采集:设置种子...

    大数据技术文档 (3).pdf

    1. 本地资源解析模块,负责解析PDF、Word、Excel等本地文本内容,按主题分类建立索引。 2. 搜索模块,根据用户输入的主题和关键词,返回最相关的搜索结果,同时统计高频词汇,以帮助用户调整搜索设置。 3. 信息爬取...

    大数据技术文档.docx

    1. 本地资源解析模块:负责解析本地PDF、Word、Excel等文件,将其内容按照主题分类并索引。 2. 搜索模块:用户可以根据不同主题进行内容索引和关键词查询,系统返回最相关的前n个文档,并统计高频词汇。 3. 信息爬取...

    大数据技术文档27.docx

    - **本地资源解析模块**:负责解析本地PDF、Word、Excel等文件,根据主题分类建立索引。 - **搜索模块**:用户可以输入关键词或主题进行查询,系统返回最相关的前n个文档,并统计高频词汇,用户可通过配置文件调整...

    大数据技术文件.docx

    1. 本地资源解析模块:解析PDF、Word、Excel等本地文件,按照主题进行索引,便于搜索。 2. 搜索模块:用户可以根据主题进行内容索引和关键词查询,系统返回最相关的前n个文档,同时统计高频词汇,帮助用户调整搜索...

    大数据技术文档 (2).docx

    1. 本地资源解析模块:解析和索引本地的PDF、Word、Excel等内容,按主题分类,供搜索使用。 2. 搜索模块:用户可以按主题进行索引,返回最相关的查询结果,并统计高频词汇以改善搜索体验。 3. 信息爬取模块:包括...

    毕业论文模板.docx

    - **Microsoft Documents内容提取**:针对Word、Excel等Microsoft Office文档,采用特定的API或工具来提取文档内容,以便进行后续处理和索引建立。例如,可以使用Apache POI库来读取Office文档中的文本。 - **PDF...

    Lucene与中文分词技术的研究及应用

    在这个实例中,不仅实现了对多种文件格式的支持(如PDF、Word、Excel等),还改进了用户界面,使其更加友好。更重要的是,通过集成中文分词技术,提高了搜索的准确性和效率。此外,还进行了不同中文分词器的对比测试...

    tika提取文本内容

    Tika利用Apache的MIME类型识别系统来识别文件类型,并且能够处理大量的文档格式,如PDF、Word、Excel、HTML、XML、图片等。 Tika的核心功能是内容提取,这意味着它可以从不同类型的文件中抽取纯文本,这对于搜索...

    Lucene In Action

    - **Microsoft Office 文档**:如 Word (.doc)、Excel (.xls) 等。 - **PDF 文档**:通过 PDF 解析器库来提取文本内容。 - **HTML 页面**:解析 HTML 内容并提取有用的文本。 #### 八、工具和扩展 为了更好地利用 ...

    tika读取文件专用包

    - **集成其他库**:Tika可与其他Java库如Solr、Elasticsearch等集成,实现内容索引或搜索。 5. **示例代码**: ```java import org.apache.tika.Tika; import org.apache.tika.metadata.Metadata; import org....

Global site tag (gtag.js) - Google Analytics