`
zolomon
  • 浏览: 23081 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类
最新评论

二,nutch 1.0 web应用部署

阅读更多
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr

  a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
  使用winrar打开.war文件,修改里边的配置文件.
 
  b)修改WEB-INF\classes\crawl-urlfilter.txt
  -[?*!@=]
  -.*(/[^/]+)/[^/]+\1/[^/]+\1/
  -.
  改为
  +[?*!@=]
  +.*(/[^/]+)/[^/]+\1/[^/]+\1/
  +.
 
  c)修改nutch-site.xml,在<configuration></configuration>内增加这样两属性:
    <property>
      <name>searcher.dir</name>
      <value>file:///d:/indexes/</value>
    </property>
<property>
      <name>http.agent.name</name>
      <value>RIDER</value>
    </property>
    <property>
      <name>hadoop.job.ugi</name>
      <value>rider(读者的计算机名),iamsolomon(读者的计算机密码)</value>
    </property>
  searcher.dir的值是我们抓取的内容生成的索引所存放的位置,
  http.agent.name属性写个有效的url或者计算机名即可
  第三个属性为计算机名与密码,貌似可以随便写,但是去掉这个属性的话会报错.
  此2属性均可根据自己的情况配置.

然后启动tomcat,访问http://localhost:8080/nutch-1.0即可访问我们架设的nutch了.效果如图:


nutch 1.0 的快照,貌似比以前的漂亮多了:

  • 描述: nutch 1.0 首页
  • 大小: 19.8 KB
  • 描述: nutch 1.0 搜索效果图
  • 大小: 26.5 KB
  • 描述: nutch 快照
  • 大小: 89.7 KB
分享到:
评论
1 楼 talangniao 2010-01-15  
怎么在nutch1.0使用ikanalyzer分词,有没有尝试和solr结合?

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    Nutch1.0是一款著名的开源网络爬虫项目,它的主要目标是提供一个可扩展、高效且可靠的搜索引擎解决方案。在这个特定的“Nutch1.0修改版”中,开发者已经对原始代码进行了调整,以整合中文分词功能。这使得Nutch能够...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    nutch1.3在myclipse部署工程源码

    Nutch是Apache软件基金会开发的一款开源的Web爬虫系统,主要设计用于收集、索引和检索互联网上的数据。Nutch1.3是其一个稳定版本,提供了强大的爬虫功能和可扩展性。MyEclipse(这里误写为myclipse)是基于Eclipse的...

    Nutch在Tomcat下的部署.doc

    Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,而Tomcat是一款流行的Java应用服务器,常用来部署Web应用程序。在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先...

    Nutch-1.0 part2

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    搭建nutch web开发环境

    此外,由于Nutch 1.2的Web界面在1.3版本后被移除,这意味着在更现代的Nutch版本中,你需要寻找其他方式来展示和交互索引结果,例如使用自定义的Web应用程序与Solr API交互。 总的来说,搭建Nutch Web开发环境是一个...

    基于Nutch的Web网站定向

    综上所述,基于Nutch的Web网站定向采集技术是一种非常有效的信息采集手段,尤其适用于那些需要持续监控特定领域最新进展的应用场景。通过合理的设计和技术选型,可以大大提高信息采集的效率和准确性,为科学研究和...

    基于Nutch的Web网站定向采集系统

    ### 基于Nutch的Web网站定向采集系统 #### 摘要 本文主要讨论了基于Nutch的Web网站定向采集系统的构建方法和技术细节。首先对比分析了几款主流的开源网络抓取软件:Nutch、Heritrix、WCT(The Web Curator Tool)...

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...

Global site tag (gtag.js) - Google Analytics