`
peigang
  • 浏览: 172125 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch本地模式调试环境配置

 
阅读更多

    nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:

   1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。

   2、执行 chmod +x runtime/local/bin/nutch 修改权限。

   3、runtime/local 目录下运行命令 ./bin/nutch

   4、安装提示说明做配置调整。

   5、以上操作过程完成后nutch即可以正常爬取数据。

注意事项:

   1、本地模式的nutch不需要在conf目录中添加hadoop的配置文件,一旦添加就会在hadoop中运行服务,此处要注意。

    2、在local中添加urls文件并创建任意文本,内容为待排去的网站地址。

 

自定义nutch:

1、将编译好的runtime/local/lib中的apache-nutch-*.jar 同步覆盖服务器中的runtime/local/lib中的apache-nutch-*.jar

2、覆盖runtime/local/plugins文件夹中的插件。

 

 

分享到:
评论

相关推荐

    Nutch相关框架视频教程 讲义 杨尚川

    而`local`模式则更适合于开发和测试环境中的调试和验证。 #### 五、Nutch与Hadoop的集成 Nutch和Hadoop之间的集成主要通过Nutch提供的脚本来完成。具体步骤包括: 1. 使用Nutch脚本将任务提交给Hadoop的**...

    Nutch1.7二次开发培训讲义

    - **目的:** 若计划在Hadoop集群上测试Nutch的功能,则需搭建Hadoop集群,可以选择伪分布模式或全分布模式。 - **共享:** 开发团队可以共用一个集群来降低成本和资源消耗。 #### 二、代码获取与项目配置 **1. SVN...

    hadoop内部培训资料

    - 在伪分布式模式下,需要配置Hadoop的配置文件,指定数据节点和名称节点的本地路径,设置启动脚本,然后启动DataNode、NameNode和ResourceManager等服务。 通过这份资料,读者将能够掌握Hadoop的基本概念,学会...

    Hadoop权威指南 第二版(中文版)

     配置开发环境  配置管理  辅助类GenericOptionsParser,Tool和ToolRunner  编写单元测试  mapper  reducer  本地运行测试数据  在本地作业运行器上运行作业  测试驱动程序  在集群上运行  打包  启动...

    Hadoop权威指南(中文版)2015上传.rar

    配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 ...

    HADOOP学习

    - **本地模式**:适用于单机环境下的调试和开发。 - **伪分布式模式**:在同一台机器上模拟多节点集群,用于测试和调试。 - **完全分布式模式**:真正的多节点集群环境,适用于生产环境。 #### 七、Hadoop的应用...

    bigdata bench 用户手册

    - **启动集群**:根据实际情况选择启动本地模式还是集群模式。 - **示例程序运行**:通过运行官方提供的示例程序来验证 Spark 的安装配置。 ##### 3.4 MPI 的安装配置 - **编译源码**:从 Open MPI 官网下载源代码...

    Hadoop试题题库.doc.docx

    这些模式允许开发者在不同环境下来调试和运行Hadoop应用。 2. Hadoop的作者是Doug Cutting,他最初是为Nutch搜索引擎项目开发Hadoop的。 3. NameNode通常与JobTracker在同一节点启动,但现在这个信息可能已过时,...

    Eclipse中编译运行Hadoop-0.20.1源码

    配置伪分布式模式通常涉及到修改`conf/core-site.xml`和`conf/hdfs-site.xml`文件,设置`fs.defaultFS`为`hdfs://localhost:9000`,并指定本地数据存储路径。 接下来,打开Eclipse并创建一个新的Java项目。项目的...

    Hadoop入门学习文档

    - **本地模式**:在单个节点上运行,主要用于测试和调试。 - **伪分布式模式**:在同一台机器上模拟分布式环境,用于小型集群测试。 - **完全分布式模式**:在多台机器组成的集群上运行,用于实际生产环境。 ##### ...

Global site tag (gtag.js) - Google Analytics