`

hadoop 2(0.23.x) 与 0.20.x比较

 
阅读更多

以下大部分内容来自网络,这里主要是进行学习,比较

 

1、Hadoop 0.20.*的局限性

HDFS单NameNode的不足
1)扩展性问题。可以随着数据量进行水平扩展,而元数据服务器不能扩展。
 
   2)随着文件数目的增长,元数据服务器的压力变大。据统计,2.5亿个文件在NameNode中Namespace占据  的大概64GB的内存空间。
    3)文件操作的吞吐率受到单个元数据服务器的限制。目前,Hadoop 0.20.*版本可以达到120k readops/sec,6000 writeops/sec.
    4)隔离性的问题。

MapReduce编程模型与运行时环境紧耦合

1)集群资源利用率较低。整个集群资源按照固定Slot为单位进行资源分配,没有考虑MapTask、ReduceTask任务的特点和逻辑关系进行不同的配置。

   2)仅支持MapReduce编程模型。



单个JobTracker的单点故障和扩展性

1)JobTracker的负载较重。JobTracker负责作业和任务的初始化、以及提供TaskTracker的RPC Server、任务的调度等任务。因此,JobTracker一旦故障,所有执行的任务的状况丢失。

   2)扩展性问题。

 

2.Hadoop-2(0.23)的New Features

HDFS Federation

1) Namespace与block Management解耦。

 

MapReduce NextGen aka YARN

1)编程模型与运行时框架解耦。 

2)运行时环境的扩展性与单点故障问题。

 

 

可见,hadoop 2是针对性地解决了hadoop 0.20.x中的问题.

 

ref:

Hadoop0.23.0初探1---前因后果

 

补充一下线上资源:

  • 1.0.X - current stable version, 1.0 release
  • 1.1.X - current beta version, 1.1 release
  • 2.X.X - current alpha version
  • 0.23.X - simmilar to 2.X.X but missing NN HA.
  • 0.22.X - does not include security
  • 0.20.203.X - legacy stable version
  • 0.20.X - legacy version
分享到:
评论

相关推荐

    1.Hadoop入门进阶课程_第1周_Hadoop1.X伪分布式安装.pdf

    - 0.20.x, 0.21.x, 0.22.x - **最终版本**: 0.20.x 演化为 1.0.x 成为稳定版本。 - **新特性**: 0.21.x 和 0.22.x 引入了 NameNodeHA 等新特性。 - **Hadoop 2.0**: - **版本**: - 0.23.x, 2.x - **架构革新**...

    hadoop版本差异详解.doc

    第一代Hadoop包含了0.20.x、0.21.x和0.22.x三个大版本,最终0.20.x演变为稳定的1.0.x版本。0.21.x和0.22.x则引入了如NameNode HA这样的新特性。第二代Hadoop则包括0.23.x和2.x,这两个版本带来了全新的架构,主要...

    hadoop,hbase,hive版本整合兼容性最全,最详细说明【适用于任何版本】

    Hive早期版本0.10.0至0.13.1支持Hadoop的多个版本,包括0.20.x、0.23.x、1.x和2.x。用户可以通过访问Hive的下载页面,查看与特定Hive版本兼容的Hadoop版本列表。Hive的官方文档中也通常会列出兼容的Hadoop版本信息。...

    hadoop、hbase、hive、zookeeper版本对应关系续(最新版)(2015)

    Hive 1.0.0与Hadoop 1.x.y和2.x.y兼容,以及Hive 0.13.1、0.13.0、0.12.0、0.11.0、0.10.0和0.9.0的版本都支持Hadoop的1.x.y、2.x.y系列以及早期版本0.20.x、0.23.x.y。这些对应关系说明在这些版本组合中,Hive可以...

    大数据分析技术基础教学课件3-大数据处理平台Hadoop.pptx

    Apache Hadoop经历了多次版本迭代,从最初的Hadoop 1.0(0.20.x,0.21.x,0.22.x)到Hadoop 2.0(0.23.x,2.x),引入了如HDFS Federation、YARN、NameNode HA等重要改进,增强了系统的可扩展性和稳定性。...

    大数据运维技术第2章 Hadoop平台安装课件.pptx

    * 1.x版本系列:是0.20.x发行版系列的延续。其架构仅包括HDFS和MapReduce两大组件。 * 2.x版本系列:架构产生变化,引入了YARN平台等许多新特性,是0.23.x发行版系列的延续。 * 3.x版本系列:HDFS增加了Erasure编码...

    Hadoop系统安装运行与程序开发

    Apache Hadoop官方提供多个版本供下载,包括0.20.x.x、0.21.x、0.22.x、0.23.x、1.0.x稳定版本,以及1.1.x版本(beta版)和2.x.x版本(alpha版)。不同的版本有不同的特性、稳定性和适用场景。例如,0.20.203.x版本...

    hadoop版本差异详解.docx.doc

    首先,Hadoop 1.0(基于0.20.x系列)是第一代Hadoop,它的主要特点是单一的NameNode作为整个HDFS(Hadoop Distributed File System)的元数据管理节点。然而,这种设计导致了NameNode的单点故障问题和存受限问题。...

    Hadoop学习资料

    Hadoop的版本衍化历史可以追溯到第一代Hadoop,主要包含三个大版本,分别是0.20.x,0.21.x和0.22.x。0.20.x版本最终演化为1.0.x稳定版,属于第一代Hadoop,即Hadoop 1.0。第二代Hadoop包括两个版本,0.23.x和2.x。这...

    第6章-Hadoop—分布式大数据系统78.pptx

    第一代Hadoop包含了0.20.x、0.21.x和0.22.x版本,最终演变为1.0.x版本。第二代Hadoop则有0.23.x和2.x版本,其中2.x版本引入了NameNode HA(High Availability)和Wire-compatibility特性,增强了系统的稳定性和兼容...

    hadoop技术

    Hadoop的版本衍化历史中,第一代版本(Hadoop 1.0)包含三个主要版本,即0.20.x、0.21.x和0.22.x,其中0.20.x最终演变成1.0.x的稳定版。第二代版本(Hadoop 2.0)包含两个版本,即0.23.x和2.x,其采用了全新的架构,...

    大数据实战手册

    Hadoop 1.0代的版本主要包括0.20.x、0.21.x和0.22.x,而Hadoop 2.0代的版本则包括0.23.x和2.x,其中2.x版本相较于0.23.x增加了NameNode高可用性(HA)和线性兼容性(Wire-compatibility)等特性。此外,市面上存在多...

    Hadoop大数据实战手册

    - **Hadoop 1.0**:第一代Hadoop,包含了0.20.x、0.21.x和0.22.x三个主要版本,最终0.20.x演化成了稳定的1.0.x版本。 - **Hadoop 2.0**:第二代Hadoop,包括0.23.x和2.x两个版本。这些版本相比1.0进行了重大重构,...

    hadoop权威指南 第三版 英文版

    - **涵盖版本**:本书覆盖了Hadoop 1.x(原0.20版)以及更新的0.22和0.23版本。所有示例都已在这些版本上运行,且书中详细标注了任何例外情况。 - **新API**:大部分示例采用新API编写,同时考虑到旧API仍被广泛使用...

    Doug Cutting:Apache Hadoop和大数据平台

    针对Hadoop生态系统的新发展,文章提到了Apache Hadoop 0.20.205版本的推出,该版本包含了附加的特性(append)和安全性增强。随后,0.23版本的到来预期将带来HDFS性能的提升、可扩展性(通过联邦机制实现)和可用性...

    hadoop-fixedlengthinputformat:Hadooppatches 等的一些实用代码沙箱,用于原始 FixedLengthInputFormat

    hadoop-定长输入格式 许可证: : 注意:这里的代码已经过时,这个原始补丁现在包含在最新的 Hadoop 发行版中。... 它创建的版本是 0.20.x 行,应该很容易更新 0.23.x+ bitsofinfo.wordpress.com

    sqoop1.4.5用户手册.docx

    在使用 Sqoop 之前,确保已安装并配置好 Hadoop 环境,因为 Sqoop 支持 Hadoop 的多个版本,包括 0.20、0.23、1.0 和 2.0。对于非 Linux 系统(如 Windows 或 Mac OS X),可能需要使用 Cygwin 或解决特定平台的兼容...

    Hive语法详解.docx (排版清晰,覆盖全面,含目录)

    - 类似于Hadoop0.20的配置,但需要使用适合Hadoop0.23的配置文件。 - 构建命令:`mvn clean package -Phadoop-0.23 -Dmaven.test.skip=true` **1.4 运行Hive** - **运行HiveCLI**:使用`hive`命令启动CLI界面。 ...

    Hadoop版本生态圈MapReduce模型

    造成Hadoop版本混乱的原因:--主要功能在分支版本开发:0.20分支发布之后,主要功能一直在该分支上进行开发,主干分支并没有合并这个分支,0.20分支成为了主流;--低版本的后发布:0.22版本发布要晚于0.23版本;--版本重命

Global site tag (gtag.js) - Google Analytics