namenode任务线程之FSNamesystem$SafeModeMonitor

jlins_you

浏览: 300676 次

最近访客更多访客>>

金易aa

yekong1225

nlskyfree

hufu321

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop 专题

Hadoop hadoop教程 hadoop入门

前面5个任务线程一般会一直运行，而SafeModeMonitor当namenode满足一定条件就不执行检测了，在分析这个后台任务之前我们先来看下什么是safeMode，摘录《Hadoop权威指南》10.1.2安全模式的定义如下：

          名称节点启动时，它所做的第一件事情是加载其镜像文件（fsimage）到内存，并应用编辑日志（edits）中的编辑
记录。一旦重新创建与文件系统元数据一致的内存映像，它就会创建一个新的fsimage文件（自己创建一个检查点而不是
求助于第二名称节点，这样的效率更高）和一个空的编辑日志。只有在这个时候，名称节点才开始监听RPC和http请求。
如果名称节点以安全模式运行，则意味着它只向客户端提供文件系统的只读视图。
        注意：
              严格说来，在安全模式下，只能保证访问文件系统元数据的操作（如产生一个目录列表）能工作。只有当块在集
群的当前数据节点时，才可以进行读取文件，而且对文件进行修改（写入，删除或重命名）都是不允许的。
         构想一下，系统中的块的存储位置并不是由名称节点来保存的----此信息以块列表的形式储存在数据节点中。执行
系统常规操作期间，名称节点在内存中储存块地址的分布。在安全模式下，需要给数据节点一些时间来登入名称节点及其
块列表，使名称节点能有足够多的块地址来高效运行文件系统。如果名称节点没有等到足够多的数据节点，则会启动程序
，开始复制块到新的数据节点，在大多数情况下，都不需要如此（因为它只需要等更多数据节点登入），并且这将造成集
群资源非常的紧张。事实上，在安全模式下，名称节点并不为数据节点发出任何块复制或者删除的指令。
        到达最小副本条件后，再过30秒，系统便会退出安全模式。最小副本条件是指在整个文件系统中99.9%的块达到
最低复制水平（默认是1，由dfs.replication.min设定）。

启动一个新格式化的HDFS集群时，因为系统中没有数据块，所以名称节点不会进入安全模式。

针对安全模式还有一些基本配置属性：

属性名称	类型	默认值	描述
dfs.replication.min	int	1	写操作成功所需要的最小副本数
dfs.safemode.threshold.pct	float	0.999	名称节点退出安全模式之前系统中满足dfs.replication.min定义的最小副本数级别的块的百分比。将其设置成0或者更少将强制名称节点不以安全模式启动，将这个值设置成大于1，意味着名称节点永远不会退出安全模式
dfs.safemode.extension	int	30000	满足最小副本条件dfs.safamode.threhole.pct后持续到安全模式的时间，单位是毫秒。对于小型集群（十来个节点）此属性的值可以设置为0

这个是官方的描述，那么我们接下来开始看代码，在进入safeModeMonitor之前先看看什么情况下会进入到safeModeMonitor中，在NameNode初始化时会新建一个SafeModeInfo对象，然后将读取到的blockMap的size传递给这个对象，在这个对象中依据threshold，blockMapSize，reached等3个属性的值来判断是否进入到safeMode，其中reached比较特殊，它的描述如下：

Java代码 

/** Time when threshold was reached.
 
     * 
 
     * <br>-1 safe mode is off
 
     * <br> 0 safe mode is on, but threshold is not reached yet 
 
     */
  
    private
 
long
 reached = -
1
;

如果fsimage里没有块信息，例如是namenode第一次format时，那么safeMode默认就是关的，这样你也不会进入到safeModeMonitor，但是我们还是可以看下在safeModeMonitor里的逻辑，首先看下检测的间隔：

Java代码 

private
 
static
 
final
 
long
 recheckInterval = 
1000
; 
//一秒钟

在monitor里检测的依据是靠canLeave定夺的，我们看下canLeave的java doc

Java代码 

/** 
 
     * Safe mode can be turned off iff 
 
     * the threshold is reached and 
 
     * the extension time have passed.
 
     * @return true if can leave or false otherwise.
 
     */

其实具体的实现里完全是依据处于safeblock的百分比来判断的，那么我们就要问了，什么时候这个百分比会涨，或者说这个safeblock会变，通过跟踪代码发现其实是在datanode向namenode注册时会增加safeblock的个数，同时也需要说明的是在namenode心跳datanode时如果发现损坏的节点或者说有损坏的block时，safeblock也会减少的。

下面再来看看当检测可以离开safemode时所做的操作：

Java代码 

1
：启动一个UpgradeManagerNamenode  

2
：processMisReplicatedBlocks

第一个操作会在下一篇blog里单独分析。

这里简单说下第2个操作，它包括如下2个逻辑：

Java代码 

1
：验证文件块和文件的关系是否还存在，如果不存在对应关系则说明某个块是无效的了，然后加入到无效队列（这个  

无效队列是干啥的，以后会分析）  

2
：验证文件块是否到达复制因子，如果没有达到就加入到需要复制队列，如果超出了复制因子就将超出的块加入到无  

效队列

更多信息请查看 java进阶网 http://www.javady.com

分享到：

程序实现启动和停止嵌入式Tomcat Web服务器 | namenode任务线程之FSNamesystem$Replicati ...

2012-04-19 16:27
浏览 975
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论