Solr 建立pdf/word/excel索引的方法

lfzhs

浏览: 76924 次
性别:
来自: 福州

最近访客更多访客>>

GDGZWQZ

summba

hans204

afeulwx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

Solr Excel Ant Apache C

PS: 本文假设你已经成功的搭建了一个Solr服务器
步骤如下:
(1)准备好一份Solr的源码,假设现在保存在c:\apache-solr-1.4.1\目录下
(2)从https://issues.apache.org/jira/browse/SOLR-284 上下载最新的rich.patch, libs.zip和test-files.zip三个文件
(3)解压libs.zip到c:\apache-solr-1.4.1\lib目录下,里面的jar就是负责分析Pdf、word和excel的
(4)新建一个文件patch-build.xml,内容如下：

 <?xml version="1.0" encoding="UTF-8"?>
 <project name="solr-patch" default="apply-patch" basedir=".">
     <target name="apply-patch" description="Apply a patch file. Set -      Dpatch.file">
         <patch patchfile="${patch.file}" strip="0" />
     </target>
 </project>

(5) 将rich.patch复制到c:\apache-solr-1.4.1\目录下,运行ant -Dpatch.file=rich.patch -f patch-build.xml 给solr打补丁,注意这里需要ant和Cygwin两个运行环境!
(6)执行ant dist 重新编译Solr包,编译好的文件在dist目录下将它复制到tomcat里面
(7)打开solrconfig.xml,添加如下内容:

 <requestHandler name="/update/rich" class="solr.RichDocumentRequestHandler" startup="lazy">
 </requestHandler>

然后将

<requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" />

的enableRemoteStreaming属性设为true

(8)解压test-files.zip 到任意目录,假设现在是在c:\apache-solr-1.4.1\test\ 目录下
(9)启动SOLR,在浏览器输入:
http://localhost:8983/solr/update/rich?stream.type=doc&stream.file=c:/apache-solr-1.4.1/test/test-files/complex.doc&fieldnames=id&id=101&stream.fieldname=name&commit=true
为complex.doc 文件建立索引

(10) 打开http://localhost:8983/solr/admin/form.jsp 页输入关键字测试索引,完成!

cygwinsetup.zip (565.3 KB)
下载次数: 232

0
顶

1
踩

分享到：

CS客户端登入CAS(单点登入)方案 | 隐马尔科夫模型HMM自学

2010-09-24 15:39
浏览 10485
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论