Hadoop读书笔记（四）HDFS体系结构 - xianlincai - ITeye博客

`

xianlc

浏览: 56543 次
性别:
来自: 成都

最近访客更多访客>>

zhangmin53

liuxl0205

liliang_68

zdd_yatou

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Hadoop读书笔记（四）HDFS体系结构

博客分类：

Hadoop

阅读更多

Hadoop读书笔记（一）Hadoop介绍：http://blog.csdn.net/caicongyang/article/details/39898629

Hadoop读书笔记（二）HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927

Hadoop读书笔记（三）Java API操作HDFS：http://blog.csdn.net/caicongyang/article/details/41290955

1.NameNode

作用：管理文件目录结构、管理数据节点。名字节点维护两套数据，一套是文件目录与数据块之间的关系，另一套是数据块与节点之间的关系。前一套数据是静
态的，是存放在磁盘上的，通过 fsimage 和 edits 文件来维护；后一套数据是动态的，不持久化到磁盘的，每当集群启动的时候，会自动建立这些信息。

配置信息：core-site.xml中的hadoop.tmp.dir系统默认的配置文件：core-default.xml（源码）

目录结构：/usr/local/hadoop/tmp/dfs/name （/usr/local 为Hadoop安装目录，文件路径配置在源码中的core-default.xml中和用户的core-site.xml中）

2.DataNode

作用：数据存储

配置信息：默认大小64M ,默认3份备份系统默认的配置文件：core-default.xml 配置项：dfs.block.size dfs.replication

目录结构：/usr/local/hadoop/tmp/data

3.SecondaryNameNode

作用：edis、fsimage、fstime为HDFS目录结构文件，fstime的作用是事务，edits的作用是临时文件，fsimage是镜像文件，SecondaryNameNode负责将NameNode中的edits合并到fsimage中。

欢迎大家一起讨论学习！

有用的自己收!

记录与分享，让你我共成长！欢迎查看我的其他博客；我的博客地址：http://blog.csdn.net/caicongyang

分享到：

Hadoop读书笔记（五）MapReduce统计单词de ... | Hadoop读书笔记（三）Java API操作HDFS

2014-11-20 22:23
浏览 330
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

妳那伊抹微笑_云计算之Hadoop完美笔记2.0: Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构...

hadoop笔记: Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理...Hadoop MapReduce原理之核心类Yarn.Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析.

IT十八掌_Hadoop阶段学习笔记(课堂笔记与源码流程): IT十八掌第三期配套课堂笔记 Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生...Hadoop MapReduce原理之核心类Yarn.Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析.

hadoop文档: 一、Hadoop的体系结构 1. **HDFS（Hadoop Distributed File System）**：Hadoop的核心之一，是一个分布式文件系统，能够将大型数据集分布在大量的计算机节点上，提供高吞吐量的数据访问。HDFS具有高容错性和高可用...

spark,hadoop生态圈总结: Hadoop和Spark生态圈是大数据处理领域中两个非常重要的生态体系。Hadoop生态圈基于Hadoop框架，主要由HDFS、MapReduce、YARN等核心组件构成，用于处理大规模数据集。Spark生态圈则基于Spark，提供了一个快速的分布式...

Hive学习笔记（更新版）: #### 五、Hive体系结构 1. **客户端(Client)**：用户与Hive交互的前端，可以是命令行工具、Web UI或其他工具。 2. **元数据(Metastore)**：存储关于表的定义、分区和其他元数据信息。 - **内嵌metastore**：适用于...

大数据技术原理学习笔记.docx: 在大数据技术体系中，Hadoop是一个重要的开源框架，它由Apache基金会开发，主要用于分布式存储和计算。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供了高容错性的分布式文件...

Java后端学习笔记。包括Linux、maven、git、互联网架构、大数据体系等.zip: Hadoop提供分布式存储（HDFS）和计算（MapReduce）能力，Spark则提供了更快的批处理和实时流处理，Hive用于数据仓库，HBase是NoSQL数据库，适用于海量半结构化数据。理解这些技术的工作原理和应用场景，是处理大规模...

清华大学—学堂在线—高级大数据系统课件笔记.zip: "分布式文件系统"部分，可能重点讲解了Hadoop的HDFS（Hadoop Distributed File System），它是大数据处理中的基石，能够高效地存储和检索大量数据。"淘宝云梯分布式计算平台整体架构.pdf"可能展示了实际企业中如何...

JavaNotes：Java重新学习笔记。包括Linux，maven，git，互联网架构，大数据体系等: - **Hadoop**：分布式计算框架，包括HDFS（分布式文件系统）和MapReduce（分布式计算模型）。 - **Hive**：基于Hadoop的数据仓库工具，用于处理和分析大数据集。 - **MapReduce**：并行编程模型，用于处理和生成...

jahoo.github.io：计算机基础，Java，大数据开发: Hadoop是大数据处理的一个重要工具，它由HDFS（分布式文件系统）和MapReduce（并行计算模型）组成。Spark是另一种快速、通用的大数据处理框架，它的内存计算机制使其在处理大规模数据时具有显著优势。数据存储方面，...

Global site tag (gtag.js) - Google Analytics