1 简介
Hdfs federation实际是把多个hdfs集群统一到一个命名空间下。
Hdfs federation 作用扩大NN容量,共享DN数据,且方便客户端访问。
如何实现federation哪?使用client side mount table。
使用场景:
a) 集群一部分对内使用,一部分对外开放 可以做成两个ha下的federation,第一个对内访问 第二个对外使用
b) 一般发部分应用下 namenode内存在64G已经算是很不错了 可以不使用federation,仅扩大内存即可
c) 使用federation的好处是 增强namenode的吞吐量,在namenode吞吐量收到瓶颈下可以考虑使用federation
2 结构图:
不同namenode管理不同集群的datanode 但是这些datanode针对不同nn共享磁盘,防止某集群dn使用率不高问题。
看上图,可以看到不同颜色的dn data block 会存储在dn中,同时根据颜色他们(幼儿园的孩子)会自动找到他们的妈妈(nn)
多个NN共用一个集群里DN上的存储资源,每个NN都可以单独对外提供服务 每个NN都会定义一个存储池,有单独的id,每个DN都为所有存储池提供存储 DN会按照存储池id向其对应的NN汇报块信息,同时,DN会向所有NN汇报本地存储可用资源情况 如果需要在客户端方便的访问若干个NN上的资源,可以使用客户端挂载表,把不同的目录映射到不同的NN,但NN上必须存在相应的目录 这样设计的好处大致有: 改动最小,向前兼容 现有的NN无需任何配置改动. 如果现有的客户端只连某台NN的话,代码和配置也无需改动。 分离命名空间管理和块存储管理 提供良好扩展性的同时允许其他文件系统或应用直接使用块存储池 统一的块存储管理保证了资源利用率 可以只通过防火墙配置达到一定的文件访问隔离,而无需使用复杂的Kerberos认证 客户端挂载表 通过路径自动对应NN 使Federation的配置改动对应用透明
3 安装待补充
相关推荐
2. **安装Hadoop**:在所有节点上安装相同版本的Hadoop,并配置基本的Hadoop环境变量。 3. **配置HDFS**: - 修改`hdfs-site.xml`,设置HA相关属性,如`dfs.nameservices`定义名称服务,`dfs.ha.namenodes.*`定义...
【Hadoop HA + Federation】是Hadoop 2.0架构中的关键特性,旨在解决Hadoop 1.0中单点故障和性能瓶颈的问题。在Hadoop 1.0中,NameNode作为HDFS的核心组件,负责存储所有元数据,这导致了单一命名空间的局限性和资源...
《Hadoop2lib:构建大数据处理的基石》 在当今数据驱动的世界中,Hadoop作为开源的大数据处理框架,已经成为企业级数据存储和分析的重要工具。Hadoop2lib.tar.gz是一个专门为Hadoop开发准备的Java开发工具包,它...
Eclipse Hadoop2 插件是为开发人员提供的一种强大工具,它允许用户在Eclipse集成开发环境中(IDE)直接编写、调试和管理Hadoop项目。这个插件针对Hadoop 2.x版本进行了优化,提供了丰富的功能来简化Hadoop应用程序的...
### Hadoop 2 的安装与配置详解 #### 一、Hadoop 2 概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它由Apache基金会开发。Hadoop 最初的设计是为了处理海量数据的存储和计算需求,通过将大数据集...
【Hadoop2x-Eclipse-Plugin插件详解】 在大数据处理领域,Apache Hadoop是一个不可或缺的开源框架,它主要用于分布式存储和计算。Eclipse作为Java开发的主流集成开发环境(IDE),提供了强大的代码编辑、调试和管理...
在探讨Hadoop1.x与Hadoop2.x配置的异同之前,我们首先简要回顾一下GridGain In-Memory HDFS的特性,这是基于行业首个高性能双模式内存文件系统,完全兼容HDFS。GridGain FileSystem(GGFS)作为Hadoop HDFS的即插即...
2. HDFS Federation:通过增加多个NameNode,解决了单点故障问题,提高了可用性。 3. HA(High Availability)支持:为NameNode提供了热备份,确保服务连续性。 4. 更强的稳定性与性能优化:包括Block Size调整、网络...
《Hadoop2x-eclipse-plugin-master:Eclipse插件与Hadoop环境的深度融合》 在大数据处理领域,Hadoop作为开源框架的翘楚,扮演着不可或缺的角色。它为分布式存储和计算提供了强大的支持,而Hadoop2x-eclipse-plugin...
hadoop2.x 介绍,及对比hadoop1.x的区别。hadoop2.x的新特性的详细介绍。
2. **高扩展性**:Hadoop的架构设计使得它可以轻松地将计算任务分配到成千上万的节点上,支持PB级数据的处理,随着业务规模的扩大,系统可以通过添加更多节点来线性提升处理能力。 3. **高效性**:Hadoop的并行处理...
赠送jar包:hbase-hadoop2-compat-1.2.12.jar; 赠送原API文档:hbase-hadoop2-compat-1.2.12-javadoc.jar; 赠送源代码:hbase-hadoop2-compat-1.2.12-sources.jar; 赠送Maven依赖信息文件:hbase-hadoop2-compat-...
0103 高级Hadoop 2.x、0102 深入Hadoop 2.x这两部分可能涉及更深层次的Hadoop技术,如Hadoop生态系统的其他组件(如Hive、Pig、Spark),Hadoop的安全管理,以及高级优化技巧。 总之,Hadoop 2.0作为一个全面的...
【Hadoop与Spark简介】 Hadoop是一个开源的分布式计算平台,由Apache软件基金会维护,它为用户提供了在分布式环境中处理海量数据的能力。Hadoop的核心包括两个主要组件:Hadoop分布式文件系统(HDFS)和MapReduce。...
hadoop1升级到hadoop2具体步骤及方法
hadoop2.x安装指南.