Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629
Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927
Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955
1.NameNode
作用:管理文件目录结构、管理数据节点。名字节点维护两套数据,一套是文件目录与数据块之间的关系, 另一套是数据块与节点之间的关系。 前一套数据是静
态的,是存放在磁盘上的,通过 fsimage 和 edits 文件来维护;后一套数据是动态的,不持久化到磁盘的,每当集群启动的时候,会自动建立这些信息。
配置信息:core-site.xml中的hadoop.tmp.dir系统默认的配置文件:core-default.xml(源码)
目录结构 :/usr/local/hadoop/tmp/dfs/name (/usr/local 为Hadoop安装目录,文件路径配置在源码中的core-default.xml中和用户的core-site.xml中)
2.DataNode
作用:数据存储
配置信息:默认大小64M ,默认3份备份 系统默认的配置文件:core-default.xml 配置项:dfs.block.size dfs.replication
目录结构:/usr/local/hadoop/tmp/data
3.SecondaryNameNode
作用:edis、fsimage、fstime为HDFS目录结构文件,fstime的作用是事务,edits的作用是临时文件,fsimage是镜像文件,SecondaryNameNode负责将NameNode中的edits合并到fsimage中。
欢迎大家一起讨论学习!
有用的自己收!
记录与分享,让你我共成长!欢迎查看我的其他博客;我的博客地址:http://blog.csdn.net/caicongyang
相关推荐
Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构...
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理...Hadoop MapReduce原理之核心类Yarn.Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析.
IT十八掌第三期配套课堂笔记 Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生...Hadoop MapReduce原理之核心类Yarn.Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析.
一、Hadoop的体系结构 1. **HDFS(Hadoop Distributed File System)**:Hadoop的核心之一,是一个分布式文件系统,能够将大型数据集分布在大量的计算机节点上,提供高吞吐量的数据访问。HDFS具有高容错性和高可用...
Hadoop和Spark生态圈是大数据处理领域中两个非常重要的生态体系。Hadoop生态圈基于Hadoop框架,主要由HDFS、MapReduce、YARN等核心组件构成,用于处理大规模数据集。Spark生态圈则基于Spark,提供了一个快速的分布式...
#### 五、Hive体系结构 1. **客户端(Client)**:用户与Hive交互的前端,可以是命令行工具、Web UI或其他工具。 2. **元数据(Metastore)**:存储关于表的定义、分区和其他元数据信息。 - **内嵌metastore**:适用于...
在大数据技术体系中,Hadoop是一个重要的开源框架,它由Apache基金会开发,主要用于分布式存储和计算。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了高容错性的分布式文件...
Hadoop提供分布式存储(HDFS)和计算(MapReduce)能力,Spark则提供了更快的批处理和实时流处理,Hive用于数据仓库,HBase是NoSQL数据库,适用于海量半结构化数据。理解这些技术的工作原理和应用场景,是处理大规模...
"分布式文件系统"部分,可能重点讲解了Hadoop的HDFS(Hadoop Distributed File System),它是大数据处理中的基石,能够高效地存储和检索大量数据。"淘宝云梯分布式计算平台整体架构.pdf"可能展示了实际企业中如何...
- **Hadoop**:分布式计算框架,包括HDFS(分布式文件系统)和MapReduce(分布式计算模型)。 - **Hive**:基于Hadoop的数据仓库工具,用于处理和分析大数据集。 - **MapReduce**:并行编程模型,用于处理和生成...
Hadoop是大数据处理的一个重要工具,它由HDFS(分布式文件系统)和MapReduce(并行计算模型)组成。Spark是另一种快速、通用的大数据处理框架,它的内存计算机制使其在处理大规模数据时具有显著优势。数据存储方面,...