以下大部分内容来自网络,这里主要是进行学习,比较
1、Hadoop 0.20.*的局限性
HDFS单NameNode的不足
1)扩展性问题。可以随着数据量进行水平扩展,而元数据服务器不能扩展。
2)随着文件数目的增长,元数据服务器的压力变大。据统计,2.5亿个文件在NameNode中Namespace占据
的大概64GB的内存空间。
3)文件操作的吞吐率受到单个元数据服务器的限制。目前,Hadoop 0.20.*版本可以达到120k readops/sec,6000
writeops/sec.
4)隔离性的问题。
MapReduce编程模型与运行时环境紧耦合
1)集群资源利用率较低。整个集群资源按照固定Slot为单位进行资源分配,没有考虑MapTask、ReduceTask任务的特点和逻辑关系进行不同的配置。
2)仅支持MapReduce编程模型。
单个JobTracker的单点故障和扩展性
1)JobTracker的负载较重。JobTracker负责作业和任务的初始化、以及提供TaskTracker的RPC
Server、任务的调度等任务。因此,JobTracker一旦故障,所有执行的任务的状况丢失。
2)扩展性问题。
2.Hadoop-2(0.23)的New
Features
HDFS Federation
1)
Namespace与block Management解耦。
MapReduce NextGen aka YARN
1)编程模型与运行时框架解耦。
2)运行时环境的扩展性与单点故障问题。
可见,hadoop 2是针对性地解决了hadoop 0.20.x中的问题.
ref:
补充一下线上资源:
-
1.0.X -
current stable version, 1.0 release
-
1.1.X -
current beta version, 1.1 release
-
2.X.X -
current alpha version
-
0.23.X -
simmilar to 2.X.X but missing NN HA.
-
0.22.X -
does not include security
-
0.20.203.X -
legacy stable version
-
0.20.X -
legacy version
分享到:
相关推荐
- 0.20.x, 0.21.x, 0.22.x - **最终版本**: 0.20.x 演化为 1.0.x 成为稳定版本。 - **新特性**: 0.21.x 和 0.22.x 引入了 NameNodeHA 等新特性。 - **Hadoop 2.0**: - **版本**: - 0.23.x, 2.x - **架构革新**...
第一代Hadoop包含了0.20.x、0.21.x和0.22.x三个大版本,最终0.20.x演变为稳定的1.0.x版本。0.21.x和0.22.x则引入了如NameNode HA这样的新特性。第二代Hadoop则包括0.23.x和2.x,这两个版本带来了全新的架构,主要...
Hive早期版本0.10.0至0.13.1支持Hadoop的多个版本,包括0.20.x、0.23.x、1.x和2.x。用户可以通过访问Hive的下载页面,查看与特定Hive版本兼容的Hadoop版本列表。Hive的官方文档中也通常会列出兼容的Hadoop版本信息。...
Hive 1.0.0与Hadoop 1.x.y和2.x.y兼容,以及Hive 0.13.1、0.13.0、0.12.0、0.11.0、0.10.0和0.9.0的版本都支持Hadoop的1.x.y、2.x.y系列以及早期版本0.20.x、0.23.x.y。这些对应关系说明在这些版本组合中,Hive可以...
Apache Hadoop经历了多次版本迭代,从最初的Hadoop 1.0(0.20.x,0.21.x,0.22.x)到Hadoop 2.0(0.23.x,2.x),引入了如HDFS Federation、YARN、NameNode HA等重要改进,增强了系统的可扩展性和稳定性。...
* 1.x版本系列:是0.20.x发行版系列的延续。其架构仅包括HDFS和MapReduce两大组件。 * 2.x版本系列:架构产生变化,引入了YARN平台等许多新特性,是0.23.x发行版系列的延续。 * 3.x版本系列:HDFS增加了Erasure编码...
Apache Hadoop官方提供多个版本供下载,包括0.20.x.x、0.21.x、0.22.x、0.23.x、1.0.x稳定版本,以及1.1.x版本(beta版)和2.x.x版本(alpha版)。不同的版本有不同的特性、稳定性和适用场景。例如,0.20.203.x版本...
首先,Hadoop 1.0(基于0.20.x系列)是第一代Hadoop,它的主要特点是单一的NameNode作为整个HDFS(Hadoop Distributed File System)的元数据管理节点。然而,这种设计导致了NameNode的单点故障问题和存受限问题。...
Hadoop的版本衍化历史可以追溯到第一代Hadoop,主要包含三个大版本,分别是0.20.x,0.21.x和0.22.x。0.20.x版本最终演化为1.0.x稳定版,属于第一代Hadoop,即Hadoop 1.0。第二代Hadoop包括两个版本,0.23.x和2.x。这...
第一代Hadoop包含了0.20.x、0.21.x和0.22.x版本,最终演变为1.0.x版本。第二代Hadoop则有0.23.x和2.x版本,其中2.x版本引入了NameNode HA(High Availability)和Wire-compatibility特性,增强了系统的稳定性和兼容...
Hadoop的版本衍化历史中,第一代版本(Hadoop 1.0)包含三个主要版本,即0.20.x、0.21.x和0.22.x,其中0.20.x最终演变成1.0.x的稳定版。第二代版本(Hadoop 2.0)包含两个版本,即0.23.x和2.x,其采用了全新的架构,...
Hadoop 1.0代的版本主要包括0.20.x、0.21.x和0.22.x,而Hadoop 2.0代的版本则包括0.23.x和2.x,其中2.x版本相较于0.23.x增加了NameNode高可用性(HA)和线性兼容性(Wire-compatibility)等特性。此外,市面上存在多...
- **Hadoop 1.0**:第一代Hadoop,包含了0.20.x、0.21.x和0.22.x三个主要版本,最终0.20.x演化成了稳定的1.0.x版本。 - **Hadoop 2.0**:第二代Hadoop,包括0.23.x和2.x两个版本。这些版本相比1.0进行了重大重构,...
- **涵盖版本**:本书覆盖了Hadoop 1.x(原0.20版)以及更新的0.22和0.23版本。所有示例都已在这些版本上运行,且书中详细标注了任何例外情况。 - **新API**:大部分示例采用新API编写,同时考虑到旧API仍被广泛使用...
针对Hadoop生态系统的新发展,文章提到了Apache Hadoop 0.20.205版本的推出,该版本包含了附加的特性(append)和安全性增强。随后,0.23版本的到来预期将带来HDFS性能的提升、可扩展性(通过联邦机制实现)和可用性...
hadoop-定长输入格式 许可证: : 注意:这里的代码已经过时,这个原始补丁现在包含在最新的 Hadoop 发行版中。... 它创建的版本是 0.20.x 行,应该很容易更新 0.23.x+ bitsofinfo.wordpress.com
在使用 Sqoop 之前,确保已安装并配置好 Hadoop 环境,因为 Sqoop 支持 Hadoop 的多个版本,包括 0.20、0.23、1.0 和 2.0。对于非 Linux 系统(如 Windows 或 Mac OS X),可能需要使用 Cygwin 或解决特定平台的兼容...
- 类似于Hadoop0.20的配置,但需要使用适合Hadoop0.23的配置文件。 - 构建命令:`mvn clean package -Phadoop-0.23 -Dmaven.test.skip=true` **1.4 运行Hive** - **运行HiveCLI**:使用`hive`命令启动CLI界面。 ...
造成Hadoop版本混乱的原因:--主要功能在分支版本开发:0.20分支发布之后,主要功能一直在该分支上进行开发,主干分支并没有合并这个分支,0.20分支成为了主流;--低版本的后发布:0.22版本发布要晚于0.23版本;--版本重命