一.物理文件夹和文件与类的对应关系
- Storage:存储信息文件的集合。由一系列StorageDirectory组成,这些StorageDirectory的VERSION相同。Storage对应着Hdfs的dfs.data.dir或dfs.name.dir目录,默认为%hadoop_home%/dfs/data或%hadoop_home%/dfs/name。DataNode可以配置多个dfs.data.dir,如dfs/data,dfs/data2,此时就有两个Sorage。
- StorageDirectory:一个存储信息文件。代表Storage下涉及到升级方面的文件,它们共享一个in_use.lock(图上未标出这层关系)。
- StorageInfo:存储信息文件的父类。
二.类图
三.StorageInfo
public class StorageInfo { //Hadoop版本号,如果Hadoop调整文件结构布局,版本号就会修改,这样可以保证文件结构和应用一致 //参考FSConstants.LAYOUT_VERSION=-32的定义: // Version is reflected in the dfs image and edit log files. Version代表image和editlos存储文件的结构 // Version is reflected in the data storage file. Version代表data存储文件的结构 // Versions are negative. Versions是负数。 // Decrement LAYOUT_VERSION to define a new version. public int layoutVersion; //NameNode节点的namespaceID在它format是生成,每格式化一次,就会产生一个新的namespaceID //DataNode节点的每一个StorageDirectory的namespaceID必须与NameNode节点的namespaceID保持一致 public int namespaceID; //FsImage format时赋值 public long cTime; // creation timestamp } //参考FsImage.format() //public void format() throws IOException { // this.layoutVersion = FSConstants.LAYOUT_VERSION; // this.namespaceID = newNamespaceID(); // this.cTime = 0L; // this.checkpointTime = FSNamesystem.now(); // ... // } // }
四.StorageDirectory
//一个Storage包含一系列StorageDirectory,它们共享一个in_use.lock public class StorageDirectory { File root; //对应dfs.data.dir或dfs.name.dir目录 FileLock lock; //对应dfs.data.dir或dfs.name.dir目录下in_use.lock StorageDirType dirType; // storage dir type //读取dfs.data.dir/current/VERSION或dfs.name.dir/current/VERSION //read里调用getFields,读取dfs.data.dir/current/VERSION或dfs.name.dir/current/VERSION到this public void read() throws IOException { read(getVersionFile()); } //write里调用setFields,把this的属性写到dfs.data.dir/current/VERSION或dfs.name.dir/current/VERSION public void write() throws IOException { corruptPreUpgradeStorage(root); write(getVersionFile()); } //读取Storage下任何一个StorageDirectory public File get*Dir() { return new File(root, ...); } //During startup Hadoop servers (name-node and data-nodes) read their local * storage information from them. //根据启动参数判断系统处于哪个状态 public StorageState analyzeStorage(StartupOption startOpt) throws IOException { //见图状态分析 } //Complete or recover storage state from previously failed transition. public void doRecover(StorageState curState) throws IOException { //见图恢复操作 } //lock this storage public void lock() throws IOException { this.lock = tryLock(); } //unlock this storage public void unlock() throws IOException { this.lock.release(); lock.channel().close(); lock = null; } }
五.Storage
public abstract class Storage extends StorageInfo { private static final String STORAGE_FILE_LOCK = "in_use.lock"; protected static final String STORAGE_FILE_VERSION = "VERSION"; public static final String STORAGE_DIR_CURRENT = "current"; private static final String STORAGE_DIR_PREVIOUS = "previous"; private static final String STORAGE_TMP_REMOVED = "removed.tmp"; private static final String STORAGE_TMP_PREVIOUS = "previous.tmp"; private static final String STORAGE_TMP_FINALIZED = "finalized.tmp"; private static final String STORAGE_TMP_LAST_CKPT = "lastcheckpoint.tmp"; private static final String STORAGE_PREVIOUS_CKPT = "previous.checkpoint"; public enum StorageState { NON_EXISTENT, NOT_FORMATTED, COMPLETE_UPGRADE, RECOVER_UPGRADE, COMPLETE_FINALIZE, COMPLETE_ROLLBACK, RECOVER_ROLLBACK, COMPLETE_CHECKPOINT, RECOVER_CHECKPOINT, NORMAL; } //StorageDirectory下的文件类型 public interface StorageDirType { public StorageDirType getStorageDirType(); public boolean isOfType(StorageDirType type); } //节点类型 private NodeType storageType; // Type of the node using this storage protected List<StorageDirectory> storageDirs = new ArrayList<StorageDirectory>(); //迭代Storage包含的所有StorageDirectory public Iterator<StorageDirectory> dirIterator(StorageDirType dirType) { return new DirIterator(dirType); } protected Storage(NodeType type) { super(); this.storageType = type; } //StorageDirectory.read()调用此方法,读取dfs.data.dir/current/VERSION或dfs.name.dir/current/VERSION到this //因为所有的StorageDirectory具有相同的VERSION,所以可以把任意一个StorageDirectory的VERSION写到this的这四个属性 //write同read protected void getFields(Properties props, StorageDirectory sd ) throws IOException { String sv, st, sid, sct; sv = props.getProperty("layoutVersion"); st = props.getProperty("storageType"); sid = props.getProperty("namespaceID"); sct = props.getProperty("cTime"); layoutVersion = rv; storageType = rt; namespaceID = rid; cTime = rct; } //StorageDirectory.write()调用此方法,把this的属性写到dfs.data.dir/current/VERSION或dfs.name.dir/current/VERSION protected void setFields(Properties props, StorageDirectory sd ) throws IOException { props.setProperty("layoutVersion", String.valueOf(layoutVersion)); props.setProperty("storageType", storageType.toString()); props.setProperty("namespaceID", String.valueOf(namespaceID)); props.setProperty("cTime", String.valueOf(cTime)); } }
六.VERSION例子
#Sun May 12 10:25:01 CST 2013 namespaceID=1378739863 storageID=DS-1718846927-192.168.1.164-50010-1368305080745 cTime=0 storageType=DATA_NODE layoutVersion=-32 #Mon May 13 03:26:48 CST 2013 namespaceID=1378739863 cTime=0 storageType=NAME_NODE layoutVersion=-32
七.最核心的方法StorageDirectory.analyzeStorage和doRecover
- 这两个方法就是对整个Storage状态分析和恢复操作。
- 下文会结合DataNode启动流程把整个串起来。本文先了解这两个方法,当然你必须先了解Hadoop的系统状态。
- 说明:第二张图少了一步。lastcheckpoint.tmp存在之前,首先分析当前StorageDirectory的root是否存在或是否可写或是否文件夹,不满足以上任何一点返回状态StorageState.NON_EXISTENT;满足后才是判断lastcheckpoint.tmp存在。
八.感谢作者的最后一张图
http://www.cnblogs.com/xuxm2007/archive/2012/07/04/2576745.html
相关推荐
在分布式文件系统中,HDFS(Hadoop Distributed File System)扮演着核心角色,而HDFS的源码分析则是深入了解HDFS架构和实现机理的关键。本文将对HDFS源码进行详细的分析和整理,涵盖了HDFS的目录结构、对象序列化、...
### Hadoop 学习总结 #### 一、HDFS简介 **1.1 数据块(Block)** ...通过对HDFS和MapReduce的学习,不仅可以了解如何存储和处理大规模数据,还可以进一步探索Hadoop生态系统中的其他组件和技术。
Javaweb课程作业基于Hadoop的中文词频统计工具源码+使用说明.zip 一、Linux下配置hadoop集群(伪分布式或完全分布式) 1、https://blog.csdn.net/z1148059382/article/details/89459182 2、Windows下管理HDFS的神器...
Hadoop 源码解析 - DataNode Hadoop 作为一个大数据处理框架,其核心组件之一是分布式文件系统(HDFS),而 DataNode 是 HDFS 中的重要组件之一。DataNode 负责存储和管理数据块,提供数据访问服务。本文将对 ...
源码阅读有助于提升对 Hadoop 架构的理解,以及学习分布式系统的设计原则。 总之,Hadoop 3 是一个强大且功能丰富的平台,旨在处理大数据的挑战。无论是性能提升、资源管理还是安全增强,Hadoop 3 都为大数据处理...
- 更新`DataXEngine provides core scheduler and data swap storage for DataX`部分的描述信息。 #### 三、DataX开发实例 DataX支持多种数据源的读写操作,包括但不限于MySQL、Oracle、HDFS等。开发者可以根据...
源码中的 `org.apache.hadoop.hive.ql.metadata.Partition` 类表示分区,`org.apache.hadoop.hive.ql.plan.CreateTableDesc` 中定义了如何创建分区的规则。 5. **MapReduce 与 Tez 执行引擎** Hive 默认使用 ...
《Hadoop云计算和云存储源码实现解析》是针对大数据技术初学者及进阶者的一份宝贵资料,它深入探讨了Hadoop在云计算和云存储领域的应用与源码解析。Hadoop作为开源的大数据处理框架,是理解大数据处理机制的关键。本...
HDFS(Hadoop Distributed File System)是Apache Hadoop项目的一部分,是一种分布式文件系统,用于处理和存储大规模数据。HDFS是基于流数据模式访问和处理大规模数据集的设计,具有高容错性和高吞吐量的特点。 1. ...
《Spark源码分析》这本书是针对那些希望深入了解大数据处理框架Spark以及与其紧密相关的Hadoop技术的专业人士所编写的。Spark作为一个快速、通用且可扩展的数据处理引擎,已经在大数据领域占据了重要地位,而深入...
4. **分布式存储**:随着大数据时代的到来,单机存储无法满足需求,分布式存储如Hadoop HDFS、Google Cloud Storage等应运而生。这些系统如何解决数据一致性、容错性及扩展性问题,是设计中的重要课题。 5. **存储...
hadoop-cos(CosN文件系统)为Apache Hadoop、Spark以及Tez等大数据计算框架集成提供支持,可以像访问HDFS一样读写存储在腾讯云COS上的数据。同时也支持作为Druid等查询与分析引擎的Deep Storage. 各领域数据集,...
- 大数据存储:支持PB级别的数据处理,如Hadoop HDFS。 - 人工智能:高效存储模型和训练数据,加速AI计算。 - 物联网:实时存储和分析来自无数设备的海量数据。 综上所述,存储技术涵盖了广泛的概念和应用,从...
5. **分布式存储**:随着大数据的增长,分布式存储系统如Hadoop HDFS和Google File System(GFS)变得越来越重要。这些系统通过在多台服务器上分散数据,提供高可用性和可扩展性。 6. **数据备份与恢复**:源码可能...
在Hive环境中,如果你选择MySQL作为元数据存储(metadata storage),这个驱动是必需的,因为它允许Hive与MySQL通信,存储表定义、分区信息等元数据。 3. **`hive-site.xml`**:这是Hive配置文件,包含了运行Hive...
tsd.storage.hbase.zk_quorum=master:2181,slave1:2181,slave2:2181 tsd.storage.fix_duplicates=true ``` **7. 启动 tsd 服务** - 执行以下命令启动服务: ```bash ./tsdb tsd ``` - 在启动前,请确保...
Hadoop分布式文件系统(HDFS)为大规模数据提供了高容错性和可扩展性的存储方案,而MapReduce则为处理这些数据提供了计算框架。Spark可以很好地与Hadoop集成,利用Hadoop的数据存储能力,进行高效的数据分析。 ...
与Hadoop HDFS相比,FastDFS更专注于小文件存储,适合处理百万级别的小文件,而Hadoop更适合处理PB级别的大文件和批量数据处理。与NFS相比,FastDFS在分布式环境下的性能和扩展性更优。 7. **FastDFS的优化策略** ...