1、确保这台机子上已经安装了tomcat.
2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps.
3、进入$TOMCAT_HOME/webapps/WEB-INF/classes.
3.1 配置nutch-site.xml
<property>
<name>http.agent.name</name>
<value>nutch-1.0</value>
<description>HTTP 'User-Agent' request header.</description>
</property>
<property>
<name>searcher.dir</name>
<value>/opt/hadoop/51crawl< alue>
<description>Path to root of crawl.</description>
</property>
3.2、配置hadoop-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.9.170:9080</value>
<description> </description>
</property>
这个配置很重要,主要是通过RPC链接到HDFS上,路径:hdfs://192.168.9.170:9080/opt/hadoop/51crawl
,然后做检索。
3.3、配置master
这里面写上你hadoop运行的master即可。
3.4、配置slave
这里面写上你hadoop运行的slave即可。
4、启动tomcat
总结:在单机上配置和分布式配置唯一的区别是在多了一步hadoop-site.xml。