`
teleyic
  • 浏览: 23802 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Hadoop安装问题处理备忘

阅读更多

前几天在Window和Linux主机安装了Hadoop,版本是hadoop-0.21.0,出现了一些环境的问题,记录一下,做下备忘

 

1. cygwin启动Hadoop时候,总是报以下异常:

java.lang.NoClassDefFoundError: org/apache/hadoop/util/PlatformName

问题分析:出现该错误通常是找不到Main函数,而Hadoop是通过Shell脚本调用Java的Main类的

    解决方法:

a.修改conf/hadoop-env.sh的JAVA_HOME到本机的正确位置

export JAVA_HOME=/cygdrive/d/Soft/Java/jdk1.6.0_26

b. 将${HADOOP_HOME}/bin/hadoop-config.sh文件中的第190行的以下内容

 

JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m ${HADOOP_JAVA_PLATFORM_OPTS} org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`

修改成以下的内容

JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`

 

2.bin/start-all.sh正常,输入bin/start-fds.sh出错,显示以下提示:Hadoop common not found。

    问题分析:出现该问题的原因是没有定义HADOOP_NAME

    处理方法:Linux中为在.bashrc文件中加入 export HADOOP_HOME=$HOME/hadoop-0.21.0

 

3、在操作HDFS的时候发现总是提示以下错误,而无法完成功能的操作:java.io.IOException: File /user/administrator/chen3/NOTICE.txt could only be replicated to 0 nodes, instead of 1

检查datanode日志,发现DateNode与NameNode的命名空间版本不匹配

2011-08-04 11:23:23,065 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /tmp/hadoop-linzm/dfs/data: namenode namespaceID = 775148417; datanode namespaceID = 1771400337

    问题分析:看日志应该是DataNode的命名空间版本与NameNode不一致,重启后也是不能解决。

    处理方法:将/tmp/hadoop-linzm/dfs/data/current/VERSION文件中的namespaceID改为错误日志的提示版本

 

4、将jar放到hadoop中,并执行时候,报以下异常

 

[linzm@vm-360-149-11 test]$ hadoop jar wordcount/wordcount.jar org.myorg.WordCount wordcount/input wordcount/outpu
Exception in thread "main" java.io.IOException: Error opening job jar: wordcount/wordcount.jar
        at org.apache.hadoop.util.RunJar.main(RunJar.java:130)
Caused by: java.util.zip.ZipException: error in opening zip file
        at java.util.zip.ZipFile.open(Native Method)
        at java.util.zip.ZipFile.<init>(ZipFile.java:114)
        at java.util.jar.JarFile.<init>(JarFile.java:133)
        at java.util.jar.JarFile.<init>(JarFile.java:70)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:128)

  问题分析:通常出现这种情况有两种原因:jar报格式坏、文件路径不对。

处理方法:检查hadoop中文件的大小与本地是一致的,最后查明原因是jar包路径没有输入正确

 

5.官方例子中:http://hadoop.apache.org/common/docs/current/mapred_tutorial.html

运行:bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output会抛异常

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/linzm/wordcount/input already exists

        at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:125)

        at org.apache.hadoop.mapreduce.JobSubmitter.checkSpecs(JobSubmitter.java:375)

        at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:334)

问题分析:事实上input目录是作为输入,是肯定要的,而Main类已经在jar报中定义了

处理方法:可以运行的结果命令如下hadoop jar wordcount.jar wordcount/input wordcount/output

 

6、最后是备忘,默认启动的时候NameNode与DataNode管理端口为:

NameNode:http://localhost:50070/,基本功能:列出当前cluster的DataNodes,cluster的基本信息,还可以浏览HDFS文件系统

JobTracker - http://localhost:50030/,基本功能:管理MapReduce

 

 

 

 

分享到:
评论

相关推荐

    Hadoop期末操作备忘录

    【Hadoop期末操作备忘录】是一份针对学习和使用Hadoop技术的学生或专业人士的重要参考资料。这份备忘录旨在帮助用户在期末复习阶段系统地回顾和掌握Hadoop的核心概念、关键组件以及实际操作技巧,从而在考试或项目中...

    mac环境下hadoop集群搭建

    在当今的大数据时代,Hadoop作为一个广泛使用的开源框架,它允许使用简单的编程模型跨计算机集群存储和处理大规模数据集。搭建一个Hadoop集群是一个复杂的过程,但为了更好的理解,我们将这个过程拆解成几个主要步骤...

    华为OD系列--华为od,备忘录.zip

    这涵盖了Hadoop、Spark等大数据处理框架,以及华为自研的数据仓库和数据湖服务。 3. **人工智能集成**:AI是华为OD平台的重要组成部分,提供了模型开发、训练、部署的一站式服务。这包括机器学习、深度学习、自然...

    按知识领域整理面试题,包括C++、Java、Hadoop、机器学习等.zip

    本题库旨在帮助求职者全面准备C++相关的面试,涵盖从基础到高级的各种问题,包括但不限于:C++的基础语法、面向对象编程(OOP)、模板、STL(Standard Template Library)、内存管理、异常处理、设计模式、数据结构...

    eclipse-plugin

    Hadoop是一个开源的大数据处理框架,由Apache软件基金会维护。它主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。开发者使用Java编写Hadoop应用程序,因此,对于Java开发人员来说,...

    HCDE438-Cheatsheets:HCDE 438 2020年夏季备忘单

    - Hadoop生态系统:包括HDFS、MapReduce、HBase、Hive等组件及其作用。 - Spark框架:了解Spark Core、Spark SQL、Spark Streaming和MLlib等模块,以及如何使用Spark进行大数据处理和机器学习。 - 数据流处理:...

    java设计模式+算法

    在大数据领域,"MapReduceOverview.pdf"可能介绍了Apache Hadoop的MapReduce编程模型,这是一种分布式计算框架,常用于处理大规模数据集。Map阶段将任务分解,Reduce阶段负责整合结果,这种模式在处理海量数据时表现...

    云计算及网站技术运营dr.ppt

    - **Apache Hadoop**:分布式处理框架,用于大规模数据集的并行处理。 - **MooseFS**:分布式文件系统,构建高性能的虚拟存储系统。 - **虚拟化技术**:如VMware和Xen,实现平台级虚拟化。 - **集中管理工具**:如...

    云计算及网站技术运营.ppt

    例如,Amazon的弹性云平台提供了稳定且灵活的Web服务部署选项,而Hadoop这样的开源项目则用于大规模日志分析和数据处理。分布式文件系统如MooseFS则帮助构建大规模、高性能和高可靠的虚拟存储。平台虚拟化技术,如...

    notes:我的笔记-PWA笔记本

    Hadoop 数据科学 统计数据 机器学习 代码 前处理 分类 聚类 机器学习资源 图分析 并行预处理 深度学习 神经网络 自然语言处理 图像处理 计算机视觉 AI-强化学习 工具 朱皮特 大熊猫 脾气暴躁的 张量流 火炬 可视化 ...

    设计模式代码

    虽然Hadoop本身不直接关联设计模式,但其架构和组件,如MapReduce,可以作为分布式系统设计的实例,展示如何在大规模数据处理场景下应用设计模式。 "desPatten"可能是对设计模式的进一步讨论或实现,可能是文档或...

    Cloudera Product Comparison

    描述中提到的“社区版和企业版区别”以及“备忘一下”说明了本文档的核心内容将聚焦于Cloudera两种版本之间的主要差异,并且可能是作为学习或决策参考的目的。 标签“社区版 企业版”进一步确认了文档的焦点是这两...

    JAVA技术体系

    - **开发环境**:介绍如何设置 Java 开发环境,包括 JDK(Java Development Kit)的安装与配置。 - **基础语法**:涵盖 Java 语言的基本概念,如变量、数据类型、运算符、控制结构等。 - **面向对象**:介绍类、对象...

    the-apache-ignite-book:The Apache Ignite Book的所有代码示例,脚本和更深入的示例。 包括Apache Ignite 2.6或更高版本

    例如,备忘录部分的清单放置在章/ chapter-5 / memoization文件夹中。 这本书是关于什么的? Apache Ignite是使用最广泛的以开源内存为中心的分布式,缓存和处理平台之一。 这使用户可以将该平台用作内存计算框架...

Global site tag (gtag.js) - Google Analytics