`
mr_lonely_hp
  • 浏览: 91142 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

nutch-1.0 的分布式查询部署

阅读更多

nutch -1.0 的分布式 查询部署

nutch-1.0集成了hadoop的mapreduce 实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs 用于查询是不切实际的,所以建议copy到本地 之后做搜索 查询。但如果索引文件 很多,索引数据 量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中;

下面是分布式查询方式的部署方式:

首先定义两点:
1. search-servers.txt 所在的机器为主节点,设IP为172.16.100.1;
2. search-servers.txt 中定义的各个节点为subserver,作为查询服务 器提供者,这里定义两个:172.16.100.2及172.16.100.3;

主节点(172.160100.1)的安装
1. 安装tomcat,细节略去,安装目录为:/usr/local/tomcat。
2. 下载nutch-1.0.tar.gz,并解压缩,设解压缩到/data /nutch;
3. 将/data/nutch/nutch-1.0.war解压到tomcat的webapps目录下,即/usr/local/tomcat/webapps/nutch;
4. 修改 /usr/local/tomcat/webapps/nutch/WEB-INF/classes/nutch-site.xml,补充1个属性定义:
<property>
<name>searcher.dir</name>
<value>/data/winter/search-dir</value>
<description> Path to root of crawl. 即 search-servers.txt 所在的父目录
</description>
</property>

subserver(172.16.100.2及172.16.100.3)的配置:
1. 设subserver配置地址为: /data/search-server
2. 将/data/nutch下的bin、conf、lib、plugin s等拷贝到/data/search-server下;
3. chmod +x bin,使得bin下的脚本可执行;
4. 在conf/nutch-site.xml中添加两个属性:
<property>
<name>plugin.folders</name>
<value>/data/search-server/plugins</value>
<description>Directories where nutch plugins are located.
</description>
</property>

<property>
<name>searcher.dir</name>
<value>/data/indexes</value>
<description> Path to root of crawl.
</description>
</property>

searcher.dir指向本地的索引文件路径 ,可以包含多个index,但每个index下都必须包含index.done文件。

配置完毕,然后把hdfs上的索引分散拷贝到subserver中(为简单起见,可以先拷贝到一个subserver)。

启动方法:
1. 在主机器上编辑search-servers.txt,指定所有的subserver的IP及端口号,如:
172.16.100.1 9999
172.16.100.2 9999

2. 在各个subserver上启动DistributedSearch.Server进程:nohup bin/nutch server 9999 > server.log 2>&1 &;
3. 启动172.16.100.1上的tomcat;
4. 测试以下地址:http://172.16.100.1:8080/nutch ,为搜索首页;

如果测试不成功,可以从以下两个日志中分析:
1. subserver上的 server.log ;
2. 主节点上的tomcat日志;

nutch-1.0的分布式查询只能作为研究学习用,应用在实际搜索阶段有以下几个问题:
1. 搜索的idf信息只是各个subserver相对的idf,未参考整体的idf,这个在nutch jira中有人提过,也有提交过一些patch,可以参考下;
2. DistributedSegmentBean 中getSummary(HitDetails[] detailsArr, Query query)方法会导致summary乱序,修改下源代码可以解决;
3. HitDetails 的write 及read方法,用UTF方法传输field 及value,如果长度超过65536,会出现 UTFDataFormatException异常,换Text吧;

分享到:
评论

相关推荐

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    apache-nutch-1.6-bin.tar.gz最新版

    $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行...

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    Nutch-1.0 part2

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    ant-eclipse-1.0.bin.tar.bz2

    ant-eclipse-1.0 nutch

    开源搜索引擎nutch-1.0.part03.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part06.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part02.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part04.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part05.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    Eclipse中编译Nutch-0.9

    - 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定插件目录的相对或绝对路径。 - 在`nutch-site.xml`中,同样更新`http.agent.name`,并提供详细的描述信息。 - **设置爬虫入口**:在...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    apache-nutch-1.7-src.tar.gz

    在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...

Global site tag (gtag.js) - Google Analytics