nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:
1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。
2、执行 chmod +x runtime/local/bin/nutch 修改权限。
3、runtime/local 目录下运行命令 ./bin/nutch
4、安装提示说明做配置调整。
5、以上操作过程完成后nutch即可以正常爬取数据。
注意事项:
1、本地模式的nutch不需要在conf目录中添加hadoop的配置文件,一旦添加就会在hadoop中运行服务,此处要注意。
2、在local中添加urls文件并创建任意文本,内容为待排去的网站地址。
自定义nutch:
1、将编译好的runtime/local/lib中的apache-nutch-*.jar 同步覆盖服务器中的runtime/local/lib中的apache-nutch-*.jar
2、覆盖runtime/local/plugins文件夹中的插件。
相关推荐
而`local`模式则更适合于开发和测试环境中的调试和验证。 #### 五、Nutch与Hadoop的集成 Nutch和Hadoop之间的集成主要通过Nutch提供的脚本来完成。具体步骤包括: 1. 使用Nutch脚本将任务提交给Hadoop的**...
- **目的:** 若计划在Hadoop集群上测试Nutch的功能,则需搭建Hadoop集群,可以选择伪分布模式或全分布模式。 - **共享:** 开发团队可以共用一个集群来降低成本和资源消耗。 #### 二、代码获取与项目配置 **1. SVN...
- 在伪分布式模式下,需要配置Hadoop的配置文件,指定数据节点和名称节点的本地路径,设置启动脚本,然后启动DataNode、NameNode和ResourceManager等服务。 通过这份资料,读者将能够掌握Hadoop的基本概念,学会...
配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动...
配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 ...
- **启动集群**:根据实际情况选择启动本地模式还是集群模式。 - **示例程序运行**:通过运行官方提供的示例程序来验证 Spark 的安装配置。 ##### 3.4 MPI 的安装配置 - **编译源码**:从 Open MPI 官网下载源代码...
这些模式允许开发者在不同环境下来调试和运行Hadoop应用。 2. Hadoop的作者是Doug Cutting,他最初是为Nutch搜索引擎项目开发Hadoop的。 3. NameNode通常与JobTracker在同一节点启动,但现在这个信息可能已过时,...
配置伪分布式模式通常涉及到修改`conf/core-site.xml`和`conf/hdfs-site.xml`文件,设置`fs.defaultFS`为`hdfs://localhost:9000`,并指定本地数据存储路径。 接下来,打开Eclipse并创建一个新的Java项目。项目的...
- **本地模式**:在单个节点上运行,主要用于测试和调试。 - **伪分布式模式**:在同一台机器上模拟分布式环境,用于小型集群测试。 - **完全分布式模式**:在多台机器组成的集群上运行,用于实际生产环境。 ##### ...