遇到问题以后先查看日志,以下是常见的错误情况及解决方法,希望对大家有所帮助。
1、启动hadoop时没有NameNode的可能原因:
(1) NameNode没有格式化
(2) 环境变量配置错误
(3) Ip和hostname绑定失败
2、地址占用
报错:org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use
解决方法:查找被占用的端口号对应的PID:netstat –tunl
Pkill -9 PID
实在不行就killall -9 java
3、safeMode
报错:
bin/hadoop fs -put ./input input
put: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/input. Name node is in safe mode.
hadoop dfsadmin -safemode leave
解决方法:
NameNode在启动的时候首先进入安全模式,如果dataNode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统一直处于安全模式状态,即只读状态。
dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的block个数的0999倍才可以离开安全模式,否则一直是这种只读模式。如果设置为1,则HDFS一直处于安全模式。
下面这行摘录自NameNode启动时的日志(block上报比例1达到了阈值0.999)
The ratio of reported blocks 1.0000 has reached the threshold 0.9990. Safe mode will be turned off automatically in 14 seconds.
有两种方法离开这种安全模式:
(1) 修改dfs.safeMode.threshold.pct为一个比较小的值,缺省是0.999;
(2) hadoop dfsadmin –safemode leave命令强制离开
用户可通过dfsadmin –safemode value来操作安全模式,参数value说明如下:
Enter : 进入安全模式
Leave :强制NameNode离开安全模式
Get : 返回安全模式是否开启的信息
Wait:等待,一直到安全模式结束。
4、could only be replicatied to 0 nodes, instead of 1
报错:
hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop
.ipc.RemoteException: java.io.IOException: ... could only be replicated to 0 nodes, instead of 1 ...
可能出现的现象:用jps查看进程都正常。但是用web查看的话,live nodes 为0,这说明datanode没有正常启动,可是datanode进程又启动了。
解决方法:
(1) 防火墙原因:
永久关闭防火墙命令:chkconfig iptables stop
(2) 磁盘空间原因:
df –ah #查看磁盘空间
如果是磁盘空间不够,则调整磁盘空间(像下图就是磁盘空间不够)
如果上述方法不行,可用以下方法(只不过会丢失数据,慎用)
A. 先运行stop-all.sh
B. 格式化namenode,不过在这之前先删除原目录,
即core-site.xml下配置的<name>hadoop.tmp.dir</name>指向的目录,
删除后切记重新建立配置的空目录,然后运行命令hadoop namenode-format。
5、启动时报错java.net. UnknownHostException
原因分析:通过localhost.localdomain根本无法映射到一个IP地址。
解决方法:查看/etc/hosts,将主机名hostname添加到hosts文件中。
6、启动时报错: java.io.IOException: File jobtracker.info could only be replicated to 0 nodes, instead of 1。
解决方法:
首先,检查防火墙是否关闭,是否对各节点的通信产生了影响;
其次,可以检查namenode和datanode中的namespaceID的值是否相同,在不同的情况下,会造成该问题,修改为相同的值后,重启该节点;
然后,将safemode设置为off状态
Hadoop dfsadmin –safemode leave
此外,还需检查/etc/hosts文件中主机名的映射是否正确,不要使用127.0.0.1或localhost。
将safemode设置为off状态可以有两种方法:
执行上面的命令可以强制设置为off状态,或者在hdfs-site.xml文件中添加如下代码,将safemode的threshold.pct设置为较小的值,这种方法避免了在执行hadoop过程中经常性遇到错误Name node is in safe mode而导致需强制将safemode置为off。
- <span style="font-size:18px;"><property>
- <name>dfs.safemode.threshold.pct</name>
- <value>0.95f</value>
- </property>
- </span>
7、ip和域名解析问题
也会造成File jobtracker.info could only be replicated to 0 nodes, instead of 1的问题,此时要检查/etc/hosts文件中主机名的映射是否正确,不要使用127.0.0.1或localhost。
8、报错:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
结果:执行任务时,任务卡死在reduce上,不执行。
原因:任务会在最后将所有的reduce task 复制到一台机器上,做最后总的reduce,此时需要ip和主机域名的配置正确。
解决方法:将个节点的ip和主机名配置正确,不能使用127.0.0.1或localhost,使用内网ip可加快通信速度。
9、hive执行报错: java.lang.OutOfMemoryError: GC overhead limit exceeded
原因:
这个是jdk6新增的错误类型,是发生在GC占用大量时间为释放很小空间的时候发生的,是一种保护机制。
解决方法:
关闭该功能,可以添加JVM的启动参数来限制使用内存:
在mapred-site.xml里新增项:mapred.child.java.opts,
内容:-XX:-UseGCOverheadLimit
10、datanode节点TaskTracker任务启动,但是DataNode任务为启动
这一般是由于对hadoop进行升级后导致的,需要删除hadoop.tmp.dir所对应的文件夹,然后对namenode重新格式化,删除之前先将数据导出,否则数据就over了。
相关推荐
hadoop常见问题及解决方法 Hadoop是大数据处理的重要工具,但是在安装和使用Hadoop时,可能会出现一些常见的问题,这些问题可能会导致Hadoop无法正常工作,或者无法达到预期的性能。下面是Hadoop常见的问题及解决...
1. **Spark Core**:这是Spark的基础,提供分布式任务调度、内存管理、错误恢复以及与存储系统的接口。 2. **Spark SQL**:Spark SQL允许开发者使用SQL或DataFrame/Dataset API来处理结构化数据,同时支持Hive查询...
大数据技术之 Hadoop 运行模式及常见错误及解决方案 Hadoop 运行模式是大数据技术中的一个重要概念,它决定了 Hadoop 集群的运行方式和性能。在本文中,我们将详细介绍 Hadoop 的三种运行模式:本地运行模式、伪...
Hadoop常见问题及解决办法汇总 Hadoop是一个基于Apache的开源大数据处理框架,广泛应用于大数据处理、数据分析和机器学习等领域。然而,在使用Hadoop时,经常会遇到一些常见的问题,这些问题可能会导致Hadoop集群...
### Hadoop集群遇到的问题及其解决方法 #### 异常一:DataNode无法连接到NameNode **问题描述:** 在Hadoop集群部署过程中,经常会出现DataNode无法成功连接到NameNode的情况,导致集群无法正常启动。 **原因分析...
在Windows环境下运行Apache Hadoop或Spark相关程序时,可能会遇到一个常见的问题,即"winutils.exe"缺失的错误。这个错误通常是因为系统缺少一个名为"winutils.exe"的可执行文件,它是Hadoop在Windows上运行所必需的...
问题" 暗示了在Eclipse环境中配置和运行Hadoop项目时遇到的常见错误。这个错误通常是因为Eclipse找不到Hadoop的可执行文件,这可能是由于环境变量配置不正确或者Hadoop安装路径没有正确设置。要解决这个问题,开发者...
4. **可能出现的问题及解决方法**:`erro.txt`可能是记录了在使用这些工具时遇到的错误及其解决方案的文档。这可以帮助开发者快速识别和解决在Hadoop环境中遇到的常见问题。 5. **hadoop-learn**:这可能是一个...
但是在使用 Hadoop 过程中,我们经常会遇到一些错误和问题,本文将为您提供一些常见的 Hadoop 故障解决方法。 一、Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 这个错误是由于系统默认的打开...
- **错误日志分析**:当遇到问题时,检查Hadoop的日志文件,如`logs/hadoop-root-namenode-localhost.out`和`logs/hadoop-root-datanode-localhost.out`,它们会提供错误信息帮助解决问题。 - **防火墙配置**:...
#### 四、常见问题解决 - **问题1**:无法启动Hadoop服务。 - 检查JDK环境变量是否正确配置。 - 检查Hadoop配置文件是否有误。 - **问题2**:HDFS无法正常工作。 - 检查`hdfs-site.xml`配置是否正确。 - 检查...
NULL 博文链接:https://shirley-ren.iteye.com/blog/1174622
在编译安装过程中可能会遇到各种问题,下面列举了一些常见的问题及其解决方案。 ##### 3.1 CENTOS 64BIT安装HADOOP 2.2.0中出现文件编译位数异常 在64位操作系统上安装Hadoop时,可能会遇到编译位数不匹配的问题。...
在博客中,作者可能详细记录了他们在安装过程中遇到的具体问题和解决方法,如遇到的问题.doc文件可能包含了这些内容。如果遇到类似问题,建议参照这个文档进行排查,或者参考其他安装教程和在线问答平台,如Stack ...
正确配置HADOOP_HOME是避免常见错误的基础,而理解其内部结构和关键文件,有助于更好地管理和优化Hadoop集群。通过不断学习和实践,我们可以充分利用Hadoop Common的强大功能,解决大数据处理中的各种挑战。
在Windows环境下搭建Hadoop 2.7.3时,可能会遇到一些常见的问题,尤其是在Win10和Win7操作系统上。本文将详细介绍如何解决这些问题,确保Hadoop服务的正常运行。 首先,Hadoop是一个分布式文件系统,它允许在廉价...
这个文档包含了Hadoop相关的常见笔试题答案,涵盖了Hadoop的基本概念、架构组件、配置文件以及操作命令等多个方面。 1. Hadoop的核心组成部分是HDFS(Hadoop Distributed File System),它是一个分布式文件系统,...
针对上述问题,有两种常见且有效的解决方法: **方法一:清理临时文件并重新格式化** 1. **定位问题文件夹**:首先,需要找到Hadoop集群中的临时文件存储位置。这通常是通过配置文件(如`hdfs-site.xml`)指定的`...
在Hadoop环境中,客户端权限问题是常见的困扰用户的问题之一。这个特定的错误日志"org.apache.hadoop.security.AccessControlException: Permission denied: user=xudsa, access=WRITE, inode="/uploaddemo1.txt":...