从昨天晚上开始陆陆续续配置hadoop的分布式运行环境,一直到现在才配置运行成功,算是学习hadoop征程上迈出的一小步。期间也遇到了一系列问题,通过各种方法也慢慢解决了,解决过程中发现由于hadoop的异常处理系统还不够完善(本人这样认为的)不同原因导致的问题会有相同的错误提示,这使得排除错误显得异常复杂,所以在这里做一下总结,为自己也为别人尽量提供些方便。
我搭建的hadoop分布式系统配置:两台ubuntu10.10(木有三台机器啊),一台做namenode,一台做datanode。
个人经验在配置分布式hadoop时最好对网络知识有一定的了解,这对安装过程中解决问题有很大帮助,我就觉的hadoop在遇到网络问题时的错误提示相当模糊,基本上都是靠个人经验和个人理解来定位和解决问题,期间遇到的问题大部分也都是网络问题。
遇到的第一个问题:在datanode上创建用户后,在namenode上通过ssh登录datanode时发现tab键无法自动补全,这就相当恶心了。
解决办法:点击
这里
遇到的第一个错误:HDFS格式工程中遇到的问题“Format aborted in /tmp/hadoop-charles/dfs/name”
解决办法:将namenode和datanode的/tmp文件下以hadoop开头的文件全部删除。然后再格,成功。
第三个错误:namenode running as process 18472. Stop it first.等等,类似的出现了好几个。
解决办法:在重新启动hadoop之前要先stop掉所有的hadoop服务。
第三个错误:Could not resolve hostname charles: Name or service not known
这是由于在参考书上看的配置都是采用的hostname,开始没注意这些,原来在hosts文件中的hostname与配置的不匹配。
解决办法:在配置文件中出现hostname的地方全部采用ip(这样可能不利于维护,但是比较简单)。另外一种方法是正确设置每台机器的hostname即/etc/hostname中的内容,然后再在hosts文件即/etc/hosts中正确配置hostname与其对应的ip。
第四个错误:(hadoop)could only be replicated to 0 nodes, instead of 1
这个问题可能有多种原因,搜索到了以下几种可能:
1.dfs的空间不足 。
2.namenode运行在safemodel下。
3.namenode所在机器的防火墙开着是的datanode无法访问master 。
4.datanode无法连接到namenode。
我遇到这个问题的原因是3和4共同出现(这种情况特别悲剧,当你解决了一个问题后还是出现同样的错误提示会让你认为先前的解决方法不正确)
解决方法:每一个可能的原因的解决方法都试一遍
第五个错误:java.net.ConnectException: Call to /192.168.0.17:9000 failed on connection exception: java.net.ConnectException: Connection refused和org.apache.hadoop.ipc.RPC: Server at /192.168.0.17:9001 not available yet, Zzzz。
这是由于datanode无法连接到namenode,可以通过打开http://namenode:50070来看live的node数目来确定,遇到这个问题时我的live node是0.
这个问题是我遇到的问题中最难解决的一个,首先是把配置文件重新检查了N遍,问题依旧,各种百度,各种google,各种解决方案都试了还是不好用。后来分析了一下:配置文件肯定不会出错,而这有事datanode无法链接到namenode所以问题很有可能出在网络传输上,于是将问题的原因定位到hosts文件和hostname上,打开hosts文件里面有好多配置(翻|墙的,以及其他软件的需要)于是试着删除所有的(前提是提前备份)留下127.0.0.1 和127.0.1.1以及其对应的hostname,再重启hadoop,成功启动。
分享到:
相关推荐
分布式部署时,还需要配置 `mapred-site.xml` 和 `yarn-site.xml`。MapReduce是Hadoop的数据处理框架,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器,这两者共同负责任务调度和资源分配。 集群的...
使用vmware复制了三个ubuntu18.04虚拟机系统,模拟多台服务器,安装配置完全分布式hadoop。 想修改成免费的,不会修改。有问题可以留言一起交流
本教程提供了一个全面的指南,帮助读者了解如何在Linux环境下安装和配置Hadoop完全分布式集群。需要注意的是,实际部署过程中还可能遇到各种细节问题,如网络配置、权限管理等方面的问题,需要根据实际情况灵活处理...
在开始配置Hadoop伪分布式之前,需要确保已经完成了基本的环境搭建工作。主要包括: 1. **系统环境准备**:一般情况下,推荐使用Linux操作系统,因为它提供了良好的稳定性和性能。 2. **JDK安装**:Hadoop基于Java...
Ubuntu是一个广泛使用的Linux发行版,适合部署大型分布式系统如Hadoop。这个压缩包可能包括了安装指南、配置文件示例、命令行操作教程等资源。 描述中提到"基于Java的Hadoop分布式文件系统",意味着Hadoop是用Java...
### 基于Ubuntu的Hadoop简易集群安装与配置知识点详解 #### 一、绪论 ##### 1.1 研究背景及意义 在当前信息化社会中,随着科技的发展与进步,尤其是互联网技术的普及,我们正处在一个数据爆炸的时代。各行各业都在...
总之,Hadoop的一键安装脚本是大数据领域的一个实用工具,它结合了Linux自动化命令和Hadoop的配置知识,使得部署大规模分布式数据处理环境变得更加便捷。对于想要学习和使用Hadoop的开发者来说,掌握这种安装方式...
1. 操作系统:Linux或Unix类系统,如Ubuntu、CentOS等。 2. Java环境:Java Development Kit (JDK) 8或更高版本,因为Hadoop是用Java编写的。 3. 空闲磁盘空间:至少10GB,用于安装Hadoop和存储测试数据。 4. 内存:...
2. Ubuntu系统的ISO镜像文件:用于在虚拟机内安装和配置Linux操作系统。 3. Java SDK(Java Software Development Kit):Hadoop的运行依赖于Java环境。 4. Eclipse集成开发环境(IDE):用于编写和编译Java代码,...
整个安装过程分为六个主要部分:安装虚拟化工具VMware、在VMware上安装Ubuntu系统、安装JDK与SSH服务作为Hadoop安装前的准备、配置Hadoop、安装Eclipse以及运行一个简单的Hadoop程序——WordCount.java。 #### 二、...
下面将详细介绍 Hadoop 的部署模式、单机安装、伪分布式配置和 MapReduce 示例。 Hadoop 部署模式 Hadoop 有三种部署模式:单机模式、伪分布式模式和完全分布式模式。 * 单机模式:这是 Hadoop 的默认模式,用于...
《Hadoop安装配置与部署运行》 在大数据处理领域,Hadoop是一个不可或缺的开源框架,它为分布式存储和计算提供了强大的支持。对于初学者来说,理解并掌握Hadoop的安装、配置和部署运行过程至关重要。本教程将带你一...
通过对Hadoop的简单应用实践,不仅可以巩固之前所学知识,还能够进一步提升解决实际问题的能力。此外,这也是一个很好的机会去深入了解Hadoop生态圈内的其他组件,如Hive、HBase等。 综上所述,通过本次实验,学生...
7. 在 Ubuntu 操作系统上搭建 Hadoop 单节点需要完成环境准备、软件安装和配置过程。 8. 配置 SSH 免密钥登录可以确保可以无需密码登录。 9. 修改配置文件,包括 core-site.xml 和其他文件,是搭建 Hadoop 单节点的...
本教程将详细介绍如何在Linux环境下,特别是Ubuntu操作系统上进行Hadoop的安装与配置,包括单机版和完全分布式模式。 首先,我们需要一个运行环境,这里选择的是Ubuntu操作系统。Ubuntu以其稳定性和对开源软件的...
接下来,我们需要在新创建的Ubuntu虚拟机上按照伪分布式模式配置Hadoop。伪分布式模式实际上是在单个物理节点上模拟一个完整的Hadoop集群环境,这对于学习和测试非常有用。配置内容包括设置JAVA_HOME环境变量、修改...
实验目的: 1. 熟悉常用的基本命令操作 2. 掌握搭建环境部署项目 3. 体会云计算虚拟化等概念 实验环境: 1. 个人电脑 Windows10 2. 远程访问 jupyterlab 虚拟机(Ubuntu20.04) ...3. Linux+hadoop 完全分布式集群搭建
- **安装操作系统**:常用的操作系统为Linux,如CentOS或Ubuntu,因为它们对Hadoop有更好的支持。 - **开启SSH服务**:SSH(Secure Shell)用于远程登录和命令执行,是配置集群的基础。 - **修改Linux最大打开...