最近发现nutch1.4的index部分采用了solr所以对solr的索引方式进行了一下了解。nutch团队采用solr有他们的道路,没有去分析代码,根据找到的资料显示,nutch的索引没有利用好HDFS,索引还是本地存储的。假设索引也是分布式的,在检索的时候,mapreduce的合并效率也是不高的,为了达到排序的目的会产生大量的网络传输。solr采用索引复制的机制提高IO吞吐量,这也是稳定可靠的方式。
据官方资料显示最新的solr3.5配合lucune3.5可以大幅降低内存的使用,这么说了性能也是有很高的提升。solr的目标是企业级的全文检索,如果复制技术用好了,我想绝大部分检索应用都是没有问题的。这个需要实践验证。
下面把这次配置solr3.5的过程写下来。
相关软件:
solr3.5官方地址地址:http://lucene.apache.org/solr/index.html
tomcat6.0以上
jdk1.6以上
1:
\tomcat\conf\server.xml中修改如下部分
<Connector port="80" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" />
设置编码格式,避免中文乱码。
2:
\tomcat\conf\Catalina\localhost下创建solr.xml文件内容如下:
<Context docBase="${catalina.home}/webapps/solr" reloadable="true" debug="0" privileged="true" allowLinking="true" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="${catalina.home}/webapps/solr/conf/solr" override="true" />
<!--
<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.2"/>
-->
</Context>
注释部分为根据IP控制访问权限。
3:
copy solr-3.5.0\dist\ apache-solr-3.5.0.war to tomcat\webapps\solr.war
4:
启动tomcat后webapps中自解压为solr目录或者自己解压。
将 solr-3.5.0\example中的solr目录拷贝到tomcat\webapps\solr\conf 中
5:
将:solr-3.5.0\contrib 和 solr-3.5.0\dist tomcat\webapps\solr中,原因是:
tomcat\webapps\solr\conf\solr\conf\solrconfig.xml中有如下引用:
<lib dir="../../contrib/extraction/lib" />
<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
步骤2中描述的
solr/home目录即为当前目录,所以拷贝到当前目录的上两级目录中,也可以自行修改
solrconfig.xml中的引用路径。
启动tomcat访问http://localhost:8080/solr 显示
下图则表示配置成功。
- 大小: 6.1 KB
分享到:
相关推荐
### Solr 3.5配置及应用知识点详解 #### 一、Solr简介 - **定义**:Apache Solr是一款高性能、开源的搜索服务器。它使用Java语言开发,并且主要基于HTTP协议和Apache Lucene技术实现。 - **数据模型**:在Solr中,...
同时,Solr 3.5 提供了更强大的管理界面,使得配置和管理索引变得更加便捷。 整合 Solr 3.5 与 Tomcat 的过程主要包括以下步骤: 1. **下载和解压**:首先,你需要从 Apache 官方网站下载 Solr 3.5 的压缩包,然后...
"solr 3.5 msg整合可直接使用"的标题意味着这个压缩包包含了一个已经配置好并且可以立即运行的Solr 3.5实例,特别地,它可能已经集成了某种消息处理或通信机制(可能指的是message5_1),以便于数据的导入和检索。...
总的来说,Solr 3.5的配置和应用涉及到多个层面,包括服务器的搭建、Solr核心组件的配置、分词器的集成以及Schema的定制。这些步骤对于实现一个高效、功能丰富的全文搜索引擎至关重要。通过熟练掌握这些知识,开发者...
### Solr 3.5与Tomcat的部署配置及与Java项目的集成 #### 一、Solr 3.5与Tomcat的部署配置 **1. 下载与安装Solr** 首先,需要从官方或其他可信任来源下载Apache Solr 3.5.0。根据描述中的链接(虽然不可用),...
Solr 3.5与Tomcat的整合是一个关键的步骤,尤其对于那些希望在Java应用服务器上部署Solr搜索引擎的企业。Solr是一个基于Apache Lucene的开源搜索平台,提供了高效、可扩展的全文检索、命中高亮、拼写检查、分类、 ...
下载 Solr 3.5 安装包并解压,然后配置 `solr/home` 目录,这个目录包含了 Solr 的核心配置文件。 2. **配置文件**:`solrconfig.xml` 是 Solr 的核心配置文件,用于定义索引、查询和其他操作的行为。`schema.xml` ...
### Solr 3.5 与 Tomcat 6 集成及自定义分词器配置详解 #### 一、Solr与Tomcat集成概述 Solr 是一个高性能、采用 Java 开发的企业级搜索服务器,它基于 Lucene 库提供了一个完整的全文检索框架。而 Tomcat 是一个...
Solr是一个独立的企业级应用服务器,...同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
通过以上步骤,我们已经完成了在Tomcat环境下搭建Solr 3.5及MMSEG4J中文分词器的基础配置工作。这些配置使得Solr能够更好地处理中文文档,并提供更准确的中文检索结果。此外,通过MMSEG4J提供的不同分词模式,可以...
此外,它还包含了配置文件和示例文档,帮助用户快速启动和配置Solr服务器。 2. `apache-solr-solrj-3.5.0.jar`: SolrJ是Solr的Java客户端库,提供了与Solr服务器进行交互的API。通过SolrJ,开发者可以方便地在Java...
2. **配置文件**:安装包中的配置文件如`solrconfig.xml`定义了Solr的行为,包括如何处理请求、更新策略以及缓存设置。`schema.xml`则定义了字段类型和字段信息,是Solr理解输入数据的关键。 3. **与Tomcat整合**:...
在本教程中,我们将深入探讨Solr 3.5版本的开发应用,重点关注其实战应用,以帮助开发者更好地理解和利用这个强大的搜索引擎。 一、Solr概述 Solr的核心功能包括文本分析、索引构建、查询处理和结果排序。它支持...
标签“全文索引”和“solr3.5”强调了EasyNet.Solr库的核心功能和所兼容的Solr版本。全文索引是Solr的一个关键特性,允许用户对文本数据进行快速且精确的搜索。而“solr3.5”表明该库是为Solr 3.5版本设计的,可能不...
本教程将引导你了解如何搭建 Solr 3.5 实例并进行基本配置。 首先,确保你已经在机器上安装了 Tomcat 6.0、JDK 1.7 和 MySQL 5.0。这些是运行 Solr 所必需的环境。然后,你可以从 Apache 官方网站下载 Solr 3.5 ...