Hadoop学习二十二：Hadoop-Hdfs INode源码

zy19982004

浏览: 666051 次
性别:
来自: 深圳

最近访客更多访客>>

apex53

h416373073

lyvslu

gaoming1990

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hadoop学习
浏览量：253020

文章分类

社区版块

存档分类

博客分类：

Hadoop

一. INode类图

二. INode

We keep an in-memory representation of the file/block hierarchy.This is a base INode class containing common fields for file and directory inodes.INode是文件层次结构的反应。
INode两个子类：INodeDirectory代表文件目录；INodeFile对应文件。INodeDirectoryWithQuota代表带容量限制的目录，限制了INodeDirectory的使用空间，包含namespace和磁盘空间；INodeFileUnderConstruction代表正在构建的文件，因为有些文件创建时间比较长，目录系统用INodeFileUnderConstruction维护这一信息。

INode

abstract class INode implements Comparable<byte[]> {
  protected byte[] name;	//文件/目录名
  protected INodeDirectory parent;	//父目录
  protected long modificationTime;	//最后修改时间
  protected long accessTime;	//最后访问时间
  private long permission;	//permission是访问权限。HDFS采用了和UNIX/Linux类似的访问控制机制。
  							//系统维护了一个类似于UNIX系统的组表（group）和用户表（user），并给每一个组和用户一个ID
  							//permission在INode中是long型，它同时包含了组和用户信息。
}

三. INodeDirectory

INodeDirectory是HDFS管理的目录的抽象。
INodeDirectory维护着多个INode。其方法不外乎增删改查这些INode。
```
private List<INode> children;
```

四.DatanodeID

DatanodeID代表一个DataNode，包含了DataNode的配置信息。

  public String name;       // hostname:port (data transfer port)
  public String storageID;  // unique per cluster storageID
  protected int infoPort;   // info server port
  public int ipcPort;       // ipc server port

五.DatanodeInfo

DatanodeInfo继承DatanodeID。

DatanodeInfo增加了一些动态信息。

  protected long capacity;
  protected long dfsUsed;
  protected long remaining;
  protected long lastUpdate;
  protected int xceiverCount;

六.DatanodeDescriptor

DatanodeDescriptor继承DatanodeInfo。
DatanodeDescriptor增加了DataNode上block的动态信息。
DatanodeDescriptor.BlockTargetPair：代表一个block和此block所处DataNodes的信息的对应关系。
```
    public final Block block;
    public final DatanodeDescriptor[] targets; 
```

DatanodeDescriptor.BlockQueue：维护者一系列BlockTargetPair。

private final Queue<BlockTargetPair> blockq = new LinkedList<BlockTargetPair>();

DatanodeDescriptor维护者一个BlockInfo和两个BlockQueue和一个Set<Block>。

  private volatile BlockInfo blockList = null;

  /** A queue of blocks to be replicated by this datanode */
  //该DataNode上正在复制（replicateBlocks）的Block
  private BlockQueue replicateBlocks = new BlockQueue();
  /** A queue of blocks to be recovered by this datanode */
  //该DataNode上正在Lease恢复（recoverBlocks）的Block
  private BlockQueue recoverBlocks = new BlockQueue();
  /** A set of blocks to be invalidated by this datanode */
  //该DataNode上已经失效的Block
  private Set<Block> invalidateBlocks = new TreeSet<Block>();

七.BlockInfo

BlockInfo继承Block。
BlockInfo保存了该Block归属的INodeFile和DatanodeDescriptor，同时还包括了它的前继和后继Block。
```
private INodeFile  inode;
private Object[] triplets;
```
一个BlockInfo结构如下，tripltes[0]指向此BlockInfo所在的DatanodeDescriptor，tripltes[1]指前继BlockInfo，tripltes[2]指向后继BlockInfo。

八.BlocksMap

BlocksMap保存了一系列Block到BlockInfo对应关系的。
```
 private GSet<Block, BlockInfo> blocks;
```
结合上图可知，有了BlocksMap，就可以通过Block找对应的文件和这个Block所存放的DataNode的相关信息。

九.INodeFile

INodeFile是HDFS管理文件的抽象。
一个INodeFile对应着多Block。如上图示。
```
protected BlockInfo blocks[] 
```

十.分析一条线

http://zy19982004.iteye.com/blog/1890775文中三.8我们提到：定期调用namenode.blockReport()发送block report 告诉NameNode此DataNode上的block信息。接着分析：

看看远程RPC代理类NameNode的blockReport()方法，调用namesystem.processReport(DatanodeRegistration, blockList)。

  public DatanodeCommand blockReport(DatanodeRegistration nodeReg,
                                     long[] blocks) throws IOException {
    namesystem.processReport(nodeReg, blist);
     }

FSNamesystem的processReport方法：找到是哪个DataNode发送过来的信息；执行此DataNode的reportDiff方法，找出和现在FSNamesystem维护着的block的差别；FSNamesystem修改差别。

public synchronized void processReport(DatanodeID nodeID, 
                                         BlockListAsLongs newReport
                                        ) throws IOException {
    DatanodeDescriptor node = getDatanode(nodeID);
    //
    // Modify the (block-->datanode) map, according to the difference
    // between the old and new block report.
    //
    node.reportDiff(blocksMap, newReport, toAdd, toRemove, toInvalidate);
    ...
}

DatanodeDescriptor.reportDiff(...newReport...)：分析差别。因为DatanodeDescriptor保存着此DataNode上所有Block的动态信息，把newReport(就是2里面的blockList)与之比较即可。

十一.说明

本文有些地方并没有完全区分BlockInfo和Block，为了理解的方便，我会把BlockInfo当成Block；同样的我会把DatanodeDescriptor，DatanodeInfo当成DaNode。

分享到：

Hadoop学习二十三：Hadoop-Hdfs FSDirector ... | Hadoop学习二十一：Hadoop-Hdfs DataNode ...

2013-06-22 09:52
浏览 3018
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论