- Failed to set setXIncludeAware(true) for parser
遇到此问题一 般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突。解决方案就是删除我们自己向 系统添加的jar包,重新配置。将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改 CLASSPATH的方式指定jar包路径。
- Cannot lock storage /tmp/hadoop-root/dfs/name. The directory isalready locked
这个错误一般是我们在某次配置失败后,hadoop创建该目录,锁定之后失败退出造成的。解决方案就是删除tmp目录下hadoop创建的相关目录,然后重新配置。
- localhost Name or service not known
在配置hadoop单节点环境时,需要利用ssh登录localhost。如果按照网 上的方式配置之后还是不能正确登录localhost,并报上述错误,可以检查/etc/sysconfig/network和 /etc/hosts下的localhost名字是否一致。有时在某个文件中localhost是注释掉的。
- ls: Cannot access .: No such file or directory.
当在hadoop中运行ls命令时常会出现这个错误,这个错误是指hdfs文件系统中 当前目录为空,并不是指本地文件系统中当前目录为空。当我们使用hdfs文件系统时,会默认进入/user/username下,这个目录不存在于本地文 件系统,而是由hdfs内部管理的一个目录。当我们第一次使用ls命令时,/user/username下是空的,所以会提示上述错误。当我们添加新的文 件之后就不再报该错。
- Call to localhost/127.0.0.1:9000 failed on connection exception
当在伪分布式环境下运行wordcount示例时,如果报上述错误说明未启动hadoop,利用start-all.sh脚本启动hadoop环境。
- jps命令没有datanode运行
一个原因是执 行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个 current/VERSION文件,记录namespaceID,标识了所格式化的namenode的版本。如果我们频繁的格式化namenode,那 么datanode中保存(即配置文件中dfs.data.dir在本地系统的路径)的current/VERSION文件只是你第一次格式化时保存的 namenode的ID,因此就会造成datanode与namenode之间的id不一致。解决方案是清空hadoop的tmp文件,重启格式化 hdfs。
- Retrying connect to server: localhost/127.0.0.1:9000
说明hadoop的namenode进程没有启动,导致与namenode无法连接而报错。可以先执行stop-all.sh脚本停止hadoop,然后调用start-all.sh重启hadoop。
- jps命令没有namenode运行
一个可能原因是tmp文件,默认的tmp文件每次重新开机会被清空,与此同时namenode的格式化信息就会丢失,于是我们得重新配置一个tmp文件目录。可以通过修改hadoop/conf目录里面的core-site.xml文件,加入以下节点:
<property>
<name>hadoop.tmp.dir</name>
<value>/home/chjzh/hadoop_tmp</value>
<description>A base for othertemporary directories.</description>
</property>
然后重新格式化hdfs。
此外,我们可以通过查看hadoop的logs目录下相关namenode日志查看问题来源。datanode不能启动时也可查看日志查找问题来源。
- Input path does not exist: hdfs://localhost:9000/user/root/inputfile
运行hadoop程序的时候,输入文件必须先放入hdfs文件系统中,不能是本地文件,如果是本地文件就会报上述找不到文件的错误。解决方案是首先利用put或者copyFromLocal拷贝文件到hdfs中,然后再运行hadoop程序。
- 提示
利用jps命令查看当前运行的hadoop进程时,和hadoop相关的一系列进程 jobtracker、tasktracker、datanode、namenode和SecondaryNameNode的进程号也是非常接近的,不会 出现上千的差异。如果发现它们的进程号差异过大,则往往会出错,这时可以通过重启解决问题。如果多次重启某些进程依旧没有改变,还可以利用kill -9命令强制杀死进程,然后再重启。
1、执行bin/hadoopnamenode –format时提示没有配置JAVA_HOME
linux自带的SDK并不是Sun公司的SDK,而是开源的OpenSDK。为了保险,还是决定重新配置java环境,使用SUN jdk。
2、执行启动命令bin/start-all.sh后出现:JAVA_HOMEis not set
但是执行java -version后可以看到java版本信息,证明系统的jdk没有配置错误。
再次检查hadoop-env.sh中的配置。发现路径虽然改了,但是那个语句还在注释里(#),我忘记把注释去掉了。(摔!)
3、执行jps发现没有启动NameNode以及JobTracker
www.linuxidc.com@www.linuxidc.com:~/hadoop-0.20.2$jps
5457SecondaryNameNode
7491Jps
5672TaskTracker
5323DataNode
根据网友提示,可能是由于运行hadoop的用户对/data/hadoop/name1这个目录没有访问权限。因此,进入root中执行上述命令 运行hadoop,结果显示完全正确,只是每次启动一个java程序都要输入密码很麻烦。根据ppt提示进行了免密码ssh设置
4、输入hadoop文件命令的时候总是提示hadoop命令未找到,发现应该输入bin/hadoop所有的hadoop命令由bin/hadoop脚本调用。也可以编辑/etc/profile,如下命令,并执行source /etc/profile
export HADOOP_HOME=XXX
export PATH=$HADOOP/bin:$PATH
5. hadoop datanode启动不起来.转自:http://book.51cto.com/art/201110/298602.htm
如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。
无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。
例如:
NameNode和DataNode的namespaceID不一致,这个错误是很多人在安装时会遇到的,日志信息为:
java.io.IOException: Incompatible namespaceIDs in /root/tmp/dfs/data:
NameNode namespaceID = 1307672299; DataNode namespaceID = 389959598
若HDFS一直没有启动,读者可以查询日志,并通过日志进行分析,以上提示信息显示了NameNode和DataNode的namespaceID不一致。
这个问题一般是由于两次或两次以上的格式化NameNode造成的,有两种方法可以解决,第一种方法是删除DataNode的所有资料(及将集群中每个 datanode的/hdfs/data/current中的VERSION删掉,然后执行hadoop namenode -format重启集群,错误消失。<推荐>);第二种方法是修改每个DataNode的namespaceID(位于/hdfs/data /current/VERSION文件中)<优先>或修改NameNode的namespaceID(位于/hdfs/name /current/VERSION文件中),使其一致。
下面这两种方法在实际应用中也可能会用到。
1)重启坏掉的DataNode或JobTracker。当Hadoop集群的某单个节点出现问题时,一般不必重启整个系统,只须重启这个节点,它会自动连入整个集群。
在坏死的节点上输入如下命令即可:
bin/Hadoop-daemon.sh start DataNode
bin/Hadoop-daemon.sh start jobtracker
2) 动态加入DataNode或TaskTracker。这个命令允许用户动态将某个节点加入集群中。
bin/Hadoop-daemon.sh --config ./conf start DataNode
bin/Hadoop-daemon.sh --config ./conf start tasktracker
相关推荐
这个"hadop 2.6.0 安装包"是为了帮助用户搭建和配置Hadoop环境,特别适用于大数据处理和分析。 1. **Hadoop的核心组件** - **HDFS(Hadoop Distributed File System)**:分布式文件系统,负责数据的存储。HDFS...
《Spark编程核心组件:spark-assembly-1.5.2-hadoop2.6.0.jar详解》 在大数据处理领域,Spark以其高效、易用和灵活性脱颖而出,成为了许多开发者的首选框架。Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark中的一个...
在实际应用中,安装和配置这些组件对于在Windows上搭建本地Hadoop开发环境或进行测试至关重要。用户需要将这些文件放置在正确的路径下,并配置相应的环境变量,例如HADOOP_HOME和PATH,以便系统能够正确识别和调用...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在集群环境中处理大规模数据。Hadoop 2.6.0是Hadoop发展过程中的一个...通过不断地学习和实践,我们可以充分利用Hadoop的优势,解决各种复杂的数据问题。
hadoop-2.6.0.tar.gz + ideaIC-13.1.6.tar.gz + jdk-7u75-linux-i586.tar.gz + scala-2.10.4.tgz + spark-1.0.0-bin-hadoop2.tgz
spark-assembly-1.6.1-hadoop2.6.0.jar,欢迎下载,,,,,,,,,,,,,,,,,,,,
hadoop 2.6.0 eclipse 插件 测试可用
此外,由于此jar是预先编译并集成了所有依赖的"fat jar",因此它消除了可能的版本冲突问题,使得在多版本Hadoop环境中的部署变得更加简单。但同时,这也意味着该jar文件可能体积较大,可能会增加网络传输和存储的...
4. **安装与配置**: 在Windows上搭建Hadoop 2.6.0环境时,需要正确配置环境变量,包括HADOOP_HOME,指向Hadoop的安装目录,以及Path变量,包含%HADOOP_HOME%\bin,以便系统能够找到hadoop.dll和winutils.exe。...
在Ubuntu上搭建Hadoop集群时,可能会遇到网络配置、权限问题、磁盘空间不足等问题,需要根据错误日志进行排查和解决。此外,为了提高集群的稳定性和性能,还应考虑使用虚拟化技术(如KVM或VirtualBox)进行隔离,...
标题"Hadoop2.6.0-64-bin.zip"指的是Hadoop 2.6.0版本的64位二进制发行版。Hadoop是一个开源的分布式计算框架,由Apache软件基金会开发,它允许在廉价硬件上处理大量数据,实现了大数据的存储和处理能力。这个压缩包...
本文将详细介绍如何在Windows环境下搭建Hadoop2.6.0版本。首先,我们需要从指定的下载地址获取CDH(Cloudera Distribution Including Apache Hadoop)提供的Hadoop2.6.0-cdh5.13.0的压缩包,地址为:...
下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。
hadoop2.6.0.chm由hadoop的doc制成,包含User Guide、Javadocs等
用户可以通过解压此文件,编译安装来搭建自己的Hadoop环境,进行分布式计算和数据存储。这个版本还包含了其他相关工具,如Hadoop命令行工具、Hadoop守护进程等,用于管理和操作Hadoop集群。 而hadoop-2.6.0-cdh...
spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar
hadoop2.6.0 jdk1.7 ant 1.9.4 eclipse最新版 使用说明:放置到eclipse/plugins下 重启eclipse即可
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说。本文将详细介绍这两个文件以及它们在Hadoop ...正确配置和使用这些文件,对于在Windows上搭建和管理Hadoop集群至关重要。
自己下载完整的API文档后编译的,Hadoop 2.6.0 API CHM版
Hadoop 2.6.0分布式部署参考手册.doc