论坛首页 Java企业应用论坛

linux下如何配置分布式检索

浏览 1182 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-02-18  

1、确保这台机子上已经安装了tomcat.
2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps.
3、进入$TOMCAT_HOME/webapps/WEB-INF/classes.
   3.1 配置nutch-site.xml
       <property>
             <name>http.agent.name</name>
      <value>nutch-1.0</value>
      <description>HTTP 'User-Agent' request header.</description>
       </property>
       <property>
      <name>searcher.dir</name>
      <value>/opt/hadoop/51crawl< alue>
      <description>Path to root of crawl.</description>
       </property>
   3.2、配置hadoop-site.xml
       <property>
          <name>fs.default.name</name>
          <value>hdfs://192.168.9.170:9080</value>
          <description> </description>
       </property>
       这个配置很重要,主要是通过RPC链接到HDFS上,路径:hdfs://192.168.9.170:9080/opt/hadoop/51crawl ,然后做检索。
   3.3、配置master
       这里面写上你hadoop运行的master即可。
   3.4、配置slave
       这里面写上你hadoop运行的slave即可。
4、启动tomcat
总结:在单机上配置和分布式配置唯一的区别是在多了一步hadoop-site.xml。

论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics