PS: 本文假设你已经成功的搭建了一个Solr服务器
步骤如下:
(1)准备好一份Solr的源码,假设现在保存在c:\apache-solr-1.4.1\目录下
(2)从https://issues.apache.org/jira/browse/SOLR-284 上下载最新的rich.patch, libs.zip和test-files.zip三个文件
(3)解压libs.zip到c:\apache-solr-1.4.1\lib目录下,里面的jar就是负责分析Pdf、word和excel的
(4)新建一个文件patch-build.xml,内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<project name="solr-patch" default="apply-patch" basedir=".">
<target name="apply-patch" description="Apply a patch file. Set - Dpatch.file">
<patch patchfile="${patch.file}" strip="0" />
</target>
</project>
(5) 将rich.patch复制到c:\apache-solr-1.4.1\目录下,运行ant -Dpatch.file=rich.patch -f patch-build.xml 给solr打补丁,注意这里需要ant和Cygwin两个运行环境!
(6)执行ant dist 重新编译Solr包,编译好的文件在dist目录下将它复制到tomcat里面
(7)打开solrconfig.xml,添加如下内容:
<requestHandler name="/update/rich" class="solr.RichDocumentRequestHandler" startup="lazy">
</requestHandler>
然后将
<requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" />
的enableRemoteStreaming属性设为true
(8)解压test-files.zip 到任意目录,假设现在是在c:\apache-solr-1.4.1\test\ 目录下
(9)启动SOLR,在浏览器输入:
http://localhost:8983/solr/update/rich?stream.type=doc&stream.file=c:/apache-solr-1.4.1/test/test-files/complex.doc&fieldnames=id&id=101&stream.fieldname=name&commit=true
为complex.doc 文件建立索引
(10) 打开http://localhost:8983/solr/admin/form.jsp 页输入关键字测试索引,完成!
分享到:
相关推荐
1. **本地资源解析模块**:此模块负责解析和索引本地的PDF、Word、Excel等文本内容,按主题分类,便于搜索。 2. **搜索模块**:用户可以针对不同主题进行内容索引和关键词查询,系统返回最相关的前n个文档,并统计...
1. 本地资源解析模块:解析本地PDF、Word、Excel文档,按主题分类建立索引。 2. 搜索模块:根据主题进行内容索引,返回最相关的查询结果,并统计高频词汇。 3. 信息爬取模块:包括种子URL设定、关键词选择和抓取深度...
1. 本地资源解析模块:解析PDF、Word、Excel等本地文件,按主题分类建立索引。 2. 搜索模块:用户根据主题或关键词进行搜索,返回最相关的前n个文档,并统计高频词汇。 3. 信息爬取模块: - 信息定制采集:设置种子...
1. 本地资源解析模块,负责解析PDF、Word、Excel等本地文本内容,按主题分类建立索引。 2. 搜索模块,根据用户输入的主题和关键词,返回最相关的搜索结果,同时统计高频词汇,以帮助用户调整搜索设置。 3. 信息爬取...
1. 本地资源解析模块:负责解析本地PDF、Word、Excel等文件,将其内容按照主题分类并索引。 2. 搜索模块:用户可以根据不同主题进行内容索引和关键词查询,系统返回最相关的前n个文档,并统计高频词汇。 3. 信息爬取...
- **本地资源解析模块**:负责解析本地PDF、Word、Excel等文件,根据主题分类建立索引。 - **搜索模块**:用户可以输入关键词或主题进行查询,系统返回最相关的前n个文档,并统计高频词汇,用户可通过配置文件调整...
1. 本地资源解析模块:解析PDF、Word、Excel等本地文件,按照主题进行索引,便于搜索。 2. 搜索模块:用户可以根据主题进行内容索引和关键词查询,系统返回最相关的前n个文档,同时统计高频词汇,帮助用户调整搜索...
1. 本地资源解析模块:解析和索引本地的PDF、Word、Excel等内容,按主题分类,供搜索使用。 2. 搜索模块:用户可以按主题进行索引,返回最相关的查询结果,并统计高频词汇以改善搜索体验。 3. 信息爬取模块:包括...
- **Microsoft Documents内容提取**:针对Word、Excel等Microsoft Office文档,采用特定的API或工具来提取文档内容,以便进行后续处理和索引建立。例如,可以使用Apache POI库来读取Office文档中的文本。 - **PDF...
在这个实例中,不仅实现了对多种文件格式的支持(如PDF、Word、Excel等),还改进了用户界面,使其更加友好。更重要的是,通过集成中文分词技术,提高了搜索的准确性和效率。此外,还进行了不同中文分词器的对比测试...
Tika利用Apache的MIME类型识别系统来识别文件类型,并且能够处理大量的文档格式,如PDF、Word、Excel、HTML、XML、图片等。 Tika的核心功能是内容提取,这意味着它可以从不同类型的文件中抽取纯文本,这对于搜索...
- **Microsoft Office 文档**:如 Word (.doc)、Excel (.xls) 等。 - **PDF 文档**:通过 PDF 解析器库来提取文本内容。 - **HTML 页面**:解析 HTML 内容并提取有用的文本。 #### 八、工具和扩展 为了更好地利用 ...
- **集成其他库**:Tika可与其他Java库如Solr、Elasticsearch等集成,实现内容索引或搜索。 5. **示例代码**: ```java import org.apache.tika.Tika; import org.apache.tika.metadata.Metadata; import org....