`
peigang
  • 浏览: 171526 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch本地模式调试环境配置

阅读更多

    nutch本地模式调试可以跟踪详细的爬取过程,便于调试。现将环境配置做如下说明:

   1、apache官网下载nutch文件,我们以apache-nutch-1.4-bin.tar.gz 为例。将apache-nutch-1.4-bin.tar.gz解压到linux工作目录。

   2、执行 chmod +x runtime/local/bin/nutch 修改权限。

   3、runtime/local 目录下运行命令 ./bin/nutch

   4、安装提示说明做配置调整。

   5、以上操作过程完成后nutch即可以正常爬取数据。

注意事项:

   1、本地模式的nutch不需要在conf目录中添加hadoop的配置文件,一旦添加就会在hadoop中运行服务,此处要注意。

    2、在local中添加urls文件并创建任意文本,内容为待排去的网站地址。

 

自定义nutch:

1、将编译好的runtime/local/lib中的apache-nutch-*.jar 同步覆盖服务器中的runtime/local/lib中的apache-nutch-*.jar

2、覆盖runtime/local/plugins文件夹中的插件。

 

 

分享到:
评论

相关推荐

    Nutch相关框架视频教程 讲义 杨尚川

    而`local`模式则更适合于开发和测试环境中的调试和验证。 #### 五、Nutch与Hadoop的集成 Nutch和Hadoop之间的集成主要通过Nutch提供的脚本来完成。具体步骤包括: 1. 使用Nutch脚本将任务提交给Hadoop的**...

    Nutch1.7二次开发培训讲义

    - **目的:** 若计划在Hadoop集群上测试Nutch的功能,则需搭建Hadoop集群,可以选择伪分布模式或全分布模式。 - **共享:** 开发团队可以共用一个集群来降低成本和资源消耗。 #### 二、代码获取与项目配置 **1. SVN...

    hadoop内部培训资料

    - 在伪分布式模式下,需要配置Hadoop的配置文件,指定数据节点和名称节点的本地路径,设置启动脚本,然后启动DataNode、NameNode和ResourceManager等服务。 通过这份资料,读者将能够掌握Hadoop的基本概念,学会...

    Hadoop权威指南 第二版(中文版)

     配置开发环境  配置管理  辅助类GenericOptionsParser,Tool和ToolRunner  编写单元测试  mapper  reducer  本地运行测试数据  在本地作业运行器上运行作业  测试驱动程序  在集群上运行  打包  启动...

    Hadoop权威指南(中文版)2015上传.rar

    配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 ...

    bigdata bench 用户手册

    - **启动集群**:根据实际情况选择启动本地模式还是集群模式。 - **示例程序运行**:通过运行官方提供的示例程序来验证 Spark 的安装配置。 ##### 3.4 MPI 的安装配置 - **编译源码**:从 Open MPI 官网下载源代码...

    Hadoop试题题库.doc.docx

    这些模式允许开发者在不同环境下来调试和运行Hadoop应用。 2. Hadoop的作者是Doug Cutting,他最初是为Nutch搜索引擎项目开发Hadoop的。 3. NameNode通常与JobTracker在同一节点启动,但现在这个信息可能已过时,...

    Eclipse中编译运行Hadoop-0.20.1源码

    配置伪分布式模式通常涉及到修改`conf/core-site.xml`和`conf/hdfs-site.xml`文件,设置`fs.defaultFS`为`hdfs://localhost:9000`,并指定本地数据存储路径。 接下来,打开Eclipse并创建一个新的Java项目。项目的...

    Hadoop入门学习文档

    - **本地模式**:在单个节点上运行,主要用于测试和调试。 - **伪分布式模式**:在同一台机器上模拟分布式环境,用于小型集群测试。 - **完全分布式模式**:在多台机器组成的集群上运行,用于实际生产环境。 ##### ...

Global site tag (gtag.js) - Google Analytics