接着上篇nutch1.4的部署应用,我们来部署一下solr,solr是对lucene进行了封装的企业级搜索应用,具体的大家可以去搜一下了解,我这里就不做具体阐述了,我来说一下solr的部署吧。
首先,我们去solr的官网中下载solr,nutch1.4中应用的solr是3.4,那么我们去官网中也下载3.4吧
http://www.apache.org/dyn/closer.cgi/lucene/solr/
找到3.4.0下载apache-solr-3.4.0.zip或者apache-solr-3.4.0.tgz都可以,下载完成后,我们解压缩,解压完毕后,我们去解压一个tomcat,我用的是tomcat6,解压完tomcat6后,我们打开tomcat 的文件夹,
然后我们在tomcat下的conf目录下
创建Catalina\localhost目录(如果存在就不用创建)
然后我们创建solr.xml文件
在里面加入如下语句:
<Context docBase="D:/file/apache-solr-3.4.0/dist/apache-solr-3.4.0.war" reloadable="true" debug="0" privileged="true" allowLinking="true" crossContext="true">
<Environment name="solr/home" type="java.lang.String" value="D:/file/apache-solr-3.4.0/example/solr" override="true" />
<!--
<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/>
-->
</Context>
docBase中是我们的solr的web服务的地址,我们解压solr后,到dist中找到apache-solr-3.4.0.war给引入进来,然后solr/home就是solr的配置和索引地址,测试的话可以引入example/solr,或者把example下的solr 复制到任何位置都可以,只要把solr/home的地址给加正确了就可以。
如果需要控制访问权限则可以配置(上面配置注释的地方):
<Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1,localhost,192.168.0.127"/>
如果不是来自配置的IP则被拦截会显示403
我们全部配置好了,现在还不行,如果要与nutch进行索引的话,还需要把nutch中的solr配置给copy过来,我们在nutch1.4的conf目录下找到schema.xml文件,然后我们将这个文件copy到solr/home的conf目录下即可,如果不将nutch 下的schema.xml文件copy过去,在生成索引时会出现 一些错误如:
org.apache.solr.common.SolrException: ERROR:unknown field 'content'
配置好了后,然后启动tomcat即可,然后nutch爬取完毕后就会生成索引到solr/home下的data下面:
D:/file/apache-solr-3.4.0/example/solr/data/index下(我的solr/home)
下一节会介绍solr中文分词(IK)
分享到:
相关推荐
- 部署Solr到Tomcat,配置Solr的`solrconfig.xml`和`schema.xml`以接收Nutch生成的索引。 - 更新Nutch的配置,使其指向Solr服务器。 **参考文献** - Apache Nutch官方文档 - 相关教程和社区讨论 在完成Nutch ...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...
Nutch 是一个高度可扩展的搜索引擎框架,它提供了从互联网收集数据、建立索引和提供搜索服务的能力。Nutch 0.9 版本发布于较早时期,但其核心原理和技术至今仍然对理解搜索引擎的工作机制具有重要意义。 2. **WAR ...
### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具...注意,在实际部署时还需要确保系统中已安装并配置好 Java、Hadoop、Solr 等依赖组件。
Nutch与Solr的无缝集成,简化了数据检索和管理流程,无需依赖于Apache Tomcat或Apache Lucene来运行和建立索引。 #### 二、安装前准备 在Windows平台上部署Nutch 1.4,需预先安装以下工具和软件: 1. **Java JDK ...
这将把索引的数据推送到Solr服务器(需提前部署),Web UI可以通过浏览器访问`http://localhost:8983/solr/`查看。 **注意**:在实际环境中,你可能还需要配置Solr、Tika等组件,以及考虑更多高级特性如爬虫策略、...
6. **查询和搜索**:一旦索引建立,你可以通过Solr的Web界面或API进行查询,查看抓取和索引的结果。 在深入学习和使用Nutch时,理解其工作原理、掌握配置方法以及如何编写自定义插件是非常重要的。Nutch 提供了一个...
**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的...理解每个步骤的作用,灵活调整配置,是成功部署Nutch搜索引擎的关键。希望这篇详述能对你配置Nutch的过程有所帮助。
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...
- **倒排索引**:Nutch使用Lucene创建倒排索引,加速后续的搜索操作。 4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径...
通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查方法,帮助用户顺利解决问题。此外,本文还简单介绍了如何验证 Solr 的安装情况,确保整个系统可以正常使用。
- Nutch 1.5.1可以将爬取的数据提交给Solr进行索引,但不再支持直接生成Lucene索引。 3. **部署方式** - 由于功能定位的变化,Nutch 1.5.1的部署过程与1.2有所不同。主要是将爬虫程序部署到Tomcat服务器,并配置...
- **索引技术**:Solr 基于索引查询数据,这虽然提高了搜索效率,但也可能会占用较多内存空间。 - **高亮显示**:能够突出显示搜索结果中的关键词。 - **分布式搜索**:支持分布式部署,从而实现更高的可扩展性和...
- **分析**:Nutch 使用 Lucene 或 Solr 等工具进行搜索查询,返回相关文档列表。 ##### 5.4 分析 - **Nutch 的其他一些特性**:包括插件机制、API 接口等,允许用户根据需要扩展和定制功能。 #### 6. Nutch 分析...
- 在`nutch/plugin`目录下创建一个名为`index-self`的新目录,用于存放即将创建的插件文件。 - 该目录将包含`build.xml`和`plugin.xml`两个文件,它们分别用于构建和描述插件的基本信息。 **4. 配置构建脚本** - ...
通过Solr,可以实现对不同主题的索引检索,并且可以进行集群部署,以分摊负载和增强检索性能。Nutch和Solr结合使用,可以实现从网页抓取、信息解析到索引构建的完整流程。 文档的研究目标是深入分析分布式搜索引擎...
5. 查询服务模块:部署Solr集群,提供HTTP接口供用户查询。Solr支持分布式查询,可以快速响应大量并发请求。 四、优化与挑战 1. 性能优化:通过调整Hadoop集群参数,如Block大小、MapReduce任务数量等,提高处理...
Nutch便是建立在Lucene的基础上,提供了一个完整的搜索引擎解决方案。 搜索引擎的关键技术包括爬虫技术、索引技术、查询处理和排名算法。爬虫负责从网络上搜集网页数据,索引技术负责将数据存储并构建快速检索的...
简单的来说,在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后...