这个东西在linux下面配置,写文件权限是最开始可能会遇到的问题,主要应该把默认的tmp目录配置到可写目录里面;之后可能就会遇到socket访问类似的错误,这主要是因为fs.default.name配置参数的问题,使用hdfs://localhost类似的串代替就好了;再有的问题就是网络访问授权的问题,使用ssh-keygen使得可以不用密码就可以正常运行#sshlocalhost就好,这是针对单机配置,如果是cluster,就需要配置namenode到datanode的访问权限,照着单机的类似步骤配置即可,完了使用sshhost验证一下。一个很好的命令jps很好用,这是java1.5之后的版本的才用的,用来查看java虚拟机里面在跑着那些程序。比如使用bin/start-all.sh运行了hadoop后使用jps命令检查一下是不是所有的node和tracker都起来了。
在配置nutch非分布式的时候,注意恢复hadoop-site.xml到hadoop-default.xml的默认值,即都使用本地文件存储。简单的方法就是重命名hadoop-site.xml,全部使用hadoop-default.xml的默认值。所以不要直接改动hadoop-default.xml里面的配置,如果改动太多的话,一个最笨的方法就是直接拷贝一份hadoop-default.xml命名为hadoop-site.xml,然后修改相应的配置。
调试过程中可能会有修改了hadoop-site.xml或者nutch-site.xml后配置不生效的问题,这个主要可能的原因就是别的地方有一份老的hadoo-site.xml或者nutch-site.xml配置,比如jar包里面;比如build目录里面;对于分布式部署,比如job包里面。
hadoop注意如上的一些地方,基本上就可以跑起来,接下来就是nutch了。参考文献有http://wiki.apache.org/nutch/Nutch0.9-Hadoop0.10-Tutorial?highlight=%28hadoop%29%7C%28tutorial%29。不过开始经常会遇到在depth0即停止不抓的情况,以前遇到过几回了,但是没有记录下来,现在有麻烦了。解决过程中……
更多信息请查看 java进阶网 http://www.javady.com
分享到:
相关推荐
本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...
总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...
总结来说,配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫涉及多个步骤,包括安装和编译软件、配置相关参数、启动服务以及运行爬虫。每个组件的配置都需要细致入微,确保它们能够协同工作。同时,由于不同版本...
4. **配置Hadoop** 如果你使用Hadoop,确保在`conf/hadoop-site.xml`中正确设置了Hadoop的相关参数,例如`fs.defaultFS`和`mapreduce.framework.name`。 5. **配置爬虫范围** 在`conf/regex-urlfilter.txt`中定义...
1. 配置Nutch的`conf/nutch-site.xml`,添加Hadoop的相关配置,如`hadoop.root.dir`,`fs.defaultFS`等。 2. 将Hadoop的`conf`目录添加到Nutch的类路径中,可以通过修改`bin/nutch`脚本来实现。 **六、监控和优化**...
Nutch 配置涉及的是一个开源的网络爬虫项目,它与Hadoop相结合,用于大规模的网页抓取和索引。Nutch 1.6是该项目的一个版本,这个版本的配置过程主要涵盖以下几个步骤: 1. **下载Nutch源代码**:首先,你需要从...
学习 Nutch 需要掌握 Hadoop 相关知识,包括配置 Hadoop 环境、理解 MapReduce 工作原理等。Nutch 的配置文件(如 `conf/nutch-site.xml`)需要根据实际需求进行调整,比如设置抓取策略、设置抓取间隔、调整抓取范围...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
标题中的“Lucene Nutch和安装说明文档”暗示了我们要讨论的是一个关于Apache Lucene和Nutch的安装过程。Lucene是一个全文搜索引擎库,它提供了核心的搜索功能,而Nutch则是一个基于Lucene的开源网络爬虫项目,用于...
- 安装并配置Hadoop,确保Hadoop环境变量已设置,如`HADOOP_HOME`,并能正常运行`hadoop fs`命令。 7. **运行Nutch**: - 使用命令行运行`bin/nutch inject`将种子URL注入到Nutch数据库。 - 接下来,执行`bin/...
### Linux下载、安装、JDK配置、Hadoop安装相关知识点 #### 一、Linux环境准备与安装 **1.1 Linux版本选择** - **CentOS 6.5**:适用于本教程,是一款稳定且广受支持的企业级操作系统。 **1.2 下载Linux** - **...
总结来说,Nutch安装配置涉及Java环境、源码编译、Cygwin模拟环境(针对Windows用户)、Hadoop集成、Nutch配置、种子URL设置、执行生命周期管理和日志监控等多个环节。理解并熟练掌握这些步骤,将有助于顺利地搭建和...
在配置Nutch运行环境时,需要注意兼容性和版本匹配,确保所有依赖库和软件都是与Nutch版本相匹配的。此外,保持良好的编程习惯,定期更新依赖,以及熟悉Hadoop和Java的相关知识,都将有助于更高效地进行Nutch的开发...
同时,你也需要配置 Hadoop 环境,因为 Nutch 可以与 Hadoop 集成,利用其分布式处理能力。 2. **项目结构**:Nutch 1.2 的项目结构包括源代码、配置文件、工作目录等。主要的代码集中在 `src` 目录下,包括 `java`...