Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码成员变量

zy19982004

浏览: 666063 次
性别:
来自: 深圳

最近访客更多访客>>

apex53

h416373073

lyvslu

gaoming1990

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hadoop学习
浏览量：253026

文章分类

社区版块

存档分类

博客分类：

Hadoop

一. FSNamesystem概述

FSNamesystem为DataNode做簿记工作，直接点就是到DataNode的请求都是经过FSNamesystem运算后的。FSNamesystem管理着几个主要的数据结构。

文件名 -> 数据块(存放在FSImage和日志中)
合法的数据块列表(上面关系的逆关系)
数据块 -> DataNode(只保存在内存中，根据DataNode发过来的信息动态建立)
DataNode上保存的数据块(上面关系的逆关系)
最近发送过心跳信息的DataNode(LRU)

二. FSNamesystem成员变量

依次见下面

三. FSDirectory

一个文件系统，一个FSNamesystem 一个FSDirectory。FSNamesystem 初始化时会初始化FSDirectory。

  public FSDirectory dir;

四. 权限相关

  //本地文件的用户文件属主和文件组，可以通过hadoop.job.ugi设置，如果没有设置，那么将使用启动HDFS的用户（通过whoami获得）和该用户所在的组（通过groups获得）作为值。
  private UserGroupInformation fsOwner;
  //对应配置项dfs.permissions.supergroup(默认是supergroup，启动hadoop所使用的用户通常是superuser)，应用在defaultPermission中，是系统的超级组。
  private String supergroup;
  //缺省权限，缺省用户为fsOwner;缺省用户组为supergroup;缺省权限为0777，可以通过dfs.upgrade.permission修改。
  private PermissionStatus defaultPermission;

五. 系统内各种状态的数据块

  //正在复制的数据块
  volatile long pendingReplicationBlocksCount = 0L;
  //损坏的数据块
  volatile long corruptReplicaBlocksCount = 0L;
  //需要复制的数据块
  volatile long underReplicatedBlocksCount = 0L;
  //当前正在处理的复制工作数目
  volatile long scheduledReplicationBlocksCount = 0L;
  //超过配额的数据块
  volatile long excessBlocksCount = 0L;
  //正在删除的数据块
  volatile long pendingDeletionBlocksCount = 0L;



  //保存需要进行复制的数据块
  private UnderReplicatedBlocks neededReplications = new UnderReplicatedBlocks();
  // We also store pending replication-orders.
  //保存正在复制的数据块的相关信息
  private PendingReplicationBlocks pendingReplications;
  //保存每个DataNode上无效但还存在的数据块, StorageID -> ArrayList<Block>的对应关系。
  private Map<String, Collection<Block>> recentInvalidateSets = 
    new TreeMap<String, Collection<Block>>();
  //保存每个DataNode上有效，但超过配额需要删除的数据, StorageID -> TreeSet<Block>的对应关系
  Map<String, Collection<Block>> excessReplicateMap = 
    new TreeMap<String, Collection<Block>>();
  //保存失效（如：校验没通过）的Block -> DataNode的对应关系
  public CorruptReplicasMap corruptReplicas = new CorruptReplicasMap();

六. 系统内DataNode的状态

  //Block -> BlockInfo(INode, datanodes, previous BlockInfo, next BlockInfo)的对应
  final BlocksMap blocksMap = new BlocksMap(DEFAULT_INITIAL_MAP_CAPACITY, DEFAULT_MAP_LOAD_FACTOR);
  //保存系统内所有的Datanode, StorageID -> DatanodeDescriptor的对应关系
  NavigableMap<String, DatanodeDescriptor> datanodeMap = 
    new TreeMap<String, DatanodeDescriptor>();
  //保存所有目前活着的DataNode，线程HeartbeatMonitor会定期检查。
  ArrayList<DatanodeDescriptor> heartbeats = new ArrayList<DatanodeDescriptor>();
  private Host2NodesMap host2DataNodeMap = new Host2NodesMap();

七. 系统容量

  //系统总容量/已使用容量/剩余容量
  private long capacityTotal = 0L, capacityUsed = 0L, capacityRemaining = 0L;
  //系统总连接数，根据DataNode心跳信息跟新。
  private int totalLoad = 0;

八. 租约管理器

  //租约管理器
  public LeaseManager leaseManager = new LeaseManager(this);

九. 复制因子

  //  The maximum number of replicates we should allow for a single block
  private int maxReplication;
  //  How many outgoing replication streams a given node should have at one time
  private int maxReplicationStreams;
  // MIN_REPLICATION is how many copies we need in place or else we disallow the write
  private int minReplication;
  // Default replication
  private int defaultReplication;

十. 心跳周期

  // heartbeatRecheckInterval is how often namenode checks for expired datanodes
  private long heartbeatRecheckInterval;
  // heartbeatExpireInterval is how long namenode waits for datanode to report
  // heartbeat
  private long heartbeatExpireInterval;
  //replicationRecheckInterval is how often namenode checks for new replication work
  private long replicationRecheckInterval;

十一. 网络拓扑结构

  // datanode networktoplogy
  NetworkTopology clusterMap = new NetworkTopology();
  private DNSToSwitchMapping dnsToSwitchMapping;
  
  // for block replicas placement
  ReplicationTargetChooser replicator;

十二. 线程

  //HeartbeatMonitor thread
  Daemon hbthread = null;   
  //LeaseMonitor thread
  public Daemon lmthread = null;
  //SafeModeMonitor thread
  Daemon smmthread = null;  
  //Replication thread
  public Daemon replthread = null;  
  //Replication metrics
  private ReplicationMonitor replmon = null;

0
顶

0
踩

分享到：

Hadoop学习二十九：Hadoop-hdfs NameNode源 ... | Hadoop学习二十七：Hadoop-Hdfs 权限相关 ...

2013-08-03 14:55
浏览 2408
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码成员变量

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码 成员变量

评论

发表评论

相关推荐

Hadoop学习四十四：某项目技术小结概述

Hadoop学习四十三：MapReduce的二次排序

Hadoop学习四十二：HBase 过滤器

Hadoop学习四十一：HBase基础

Hadoop学习四十：Phoenix二级索引浅谈

Hadoop学习三十九：HBase与MapReduce集成

Hadoop学习三十八：MapReduce job.setNumReduceTasks(0)思考

Hadoop学习三十六：使用BulkLoad时Bulk load operation did not find any files

Hadoop学习三十五：Hadoop-MapReduce MapTask and ReduceTask

Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

Hadoop学习三十三：Hadoop-HBase Bulk Load使用翻译

Hadoop学习三十二：Win7下无法提交MapReduce Job到集群环境

Hadoop学习三十一：Win7下HBase与MapReduce集成时XXX.jar is not a valid DFS filename

Hadoop学习三十：Win7 Eclipse调试Centos Hadoop2.2-Mapreduce

Hadoop学习二十九：Hadoop-hdfs NameNode源码 成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关 源码

Hadoop学习二十六：Hadoop-Hdfs Lease源码

Hadoop学习二十五：Hadoop-Hdfs FSImage源码

Hadoop学习二十四：Hadoop-Hdfs FSEditLog 源码

Hadoop学习二十三：Hadoop-Hdfs FSDirectory 源码

最近访客更多访客>>

Hadoop学习二十八：Hadoop-hdfs FSNamesystem源码成员变量

Hadoop学习二十九：Hadoop-hdfs NameNode源码成员变量

Hadoop学习二十七：Hadoop-Hdfs 权限相关源码