`

Nutch学习笔记 部署搜索服务(Tomcat)

阅读更多
crawl完成后,就可以部署到tomcat,提供搜索引擎服务了。步骤如下:

1. 安装WAR文件
   将WAR文件$nutch$/nutch-*.war拷贝到目录$tomcat$/webapps/,
   cp $nutch$/nutch-*.war $tomcat$/webapps/nutch.war
   这样就可以通过URL: http://127.0.0.1:8080/nutch 来打开搜索主页面

   如果是保存为ROOT.war, 对应的URL为http://127.0.0.1:8080
   cp $nutch$/nutch-*.war $tomcat$/webapps/ROOT.war

2. 指定搜索数据目录
   需要为搜索服务程序指定数据文件的位置。
   假设WAR文件保存为nutch.war,重启动Tomcat,解压缩成目录$tomcat$/webapps/nutch/。
   打开文件$tomcat$/webapps/nutch/WEB-INF/classes/nutch-site.xml,添加searcher.dir
   属性,例如数据文件保存在/local/nutch/crawl目录中,则添加:

   <property>
      <name>searcher.dir</name>
      <value>/local/nutch/crawl</value>
   </property>

   这样search.jsp就知道数据文件的在哪里了。

3. 让Tomcat支持中文输入
   如果要用中文词汇做为关键词来搜索,Tomcat必须要支持中文输入。为此必须修改tomcat的
   配置文件$tomcat$/conf/server.xml, 在端口8080上的Connector中加入两个属性URIEncoding
   和useBodyEncodingForURI。代码如下:

    <Connector port="8080" maxHttpHeaderSize="8192"
               maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true"/>


4. 如果要搜索大型网站,例如网络门户,还需要修改一些配置,因为缺省配置是搜索intranet的。
   修改db.max.outlinks.per.page,它定义一个网页的最大link数,超过此数的链接都要被忽略掉。缺省是100,改为1000足够了。

<property>
  <name>db.max.outlinks.per.page</name>
  <value>1000</value>
  <description>The maximum number of outlinks that we'll process for a page.
  If this value is nonnegative (>=0), at most db.max.outlinks.per.page outlinks
  will be processed for a page; otherwise, all outlinks will be processed.
  </description>
</property>


   修改urlfilter.order,指定URL过滤器的顺序。作者比较喜欢用正则表达式,所以设置为org.apache.nutch.urlfilter.regex.RegexURLFilter。
<property>
  <name>urlfilter.order</name>
  <value>org.apache.nutch.urlfilter.regex.RegexURLFilter</value>
  <description>The order by which url filters are applied.
  If empty, all available url filters (as dictated by properties
  plugin-includes and plugin-excludes above) are loaded and applied in system
  defined order. If not empty, only named filters are loaded and applied
  in given order. For example, if this property has value:
  org.apache.nutch.urlfilter.regex.RegexURLFilter org.apache.nutch.urlfilter.prefix.PrefixURLFilter
  then RegexURLFilter is applied first, and PrefixURLFilter second.
  Since all filters are AND'ed, filter ordering does not have impact
  on end result, but it may have performance implication, depending
  on relative expensiveness of filters.
  </description>
</property>



5. 再次重启Tomcat
   用浏览器打开URL: "http://127.0.0.1:8080/nutch", 大功告成,现在开始enjoy nutch。
分享到:
评论

相关推荐

    Nutch在Tomcat下的部署.doc

    4. **启动Nutch搜索界面**:完成上述步骤后,重启Tomcat服务器,然后在浏览器中输入`http://localhost:8080/nutch`,你应该能看到Nutch的搜索界面。 5. **解决中文乱码问题**:如果出现中文乱码,这是因为Tomcat...

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    Nutch全文搜索学习笔记

    ### Nutch全文搜索学习笔记 #### 一、Nutch安装与配置 **1. Linux环境下的JDK安装** 为了能够顺利地安装并运行Nutch,首先确保系统中已安装Java Development Kit (JDK) 并且正确配置了`JAVA_HOME`环境变量。如果...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    windows下nutch的安装配置以及与tomcat的集成.doc

    ### Windows下Nutch的安装配置与Tomcat集成详解 #### Nutch概述 Nutch是一款开源的搜索引擎框架,基于Java开发,旨在提供一个完整的搜索引擎解决方案。它由两大部分组成:抓取部分(Crawler),负责抓取网页数据并...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的源码结构清晰,便于理解和学习。 2. **关键目录**: - **crawldb, linkdb**:这些目录存储 URL 及其相互链接关系,用于爬行和重新爬行的决策。默认情况下,页面信息30天后过期。 - **segments**:主要...

    Apache Nutch 1.7 学习总结

    - 部署Solr到Tomcat,配置Solr的`solrconfig.xml`和`schema.xml`以接收Nutch生成的索引。 - 更新Nutch的配置,使其指向Solr服务器。 **参考文献** - Apache Nutch官方文档 - 相关教程和社区讨论 在完成Nutch ...

    基于lucene和nutch的开源搜索引擎资料集合

    Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf ...

    nutch帮助文档;nutch学习 入门

    Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...

    分享一个Nutch入门学习的资料

    标题中的“Nutch入门学习”指的是Apache Nutch,这是一个开源的网络爬虫项目,用于抓取Web内容并建立搜索引擎。Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习...

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

    nutch1.3在myclipse部署工程源码

    本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    总结,Nutch 0.9 版本为用户提供了完整的网络爬虫解决方案,包括Web界面、命令行工具和源代码,使得用户能够快速搭建和运行一个搜索引擎,同时也为开发者提供了深入学习和定制的机会。对于研究和实践搜索引擎技术的...

    Nutch搜索引擎培训讲义

    主要是将爬虫程序部署到Tomcat服务器,并配置Solr作为索引服务。 4. **环境搭建** - 下载并安装Apache Tomcat 7.x版本。 - 下载Nutch 1.5.1源码或预编译包。 - 配置Solr服务器。 5. **配置与运行** - 类似于...

    nutch框架 搜索引擎

    5. **启动服务**:运行Nutch的爬虫、索引和搜索服务,可通过命令行或图形界面进行操作。 6. **监控与维护**:定期检查Nutch系统的运行状态,处理可能出现的错误或性能瓶颈,优化爬虫策略和索引质量。 #### 灵活性...

Global site tag (gtag.js) - Google Analytics