`
奔跑的羚羊
  • 浏览: 577723 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Namenode恢复

阅读更多
Namenode恢复

1.修改conf/core-site.xml,增加
        <property>
                <name>fs.checkpoint.period</name>  
                <value>3600</value>  
                <description>The number of seconds between two periodic checkpoints.  </description>
        </property>
        <property>  
                <name>fs.checkpoint.size</name>  
                <value>67108864</value>  
                <description>The size of the current edit log (in bytes) that triggers       a periodic checkpoint even if the fs.checkpoint.period hasn't expired.  </description>
        </property>

        <property>  
                <name>fs.checkpoint.dir</name>  
                <value>/data/work/hdfs/namesecondary</value>  
                <description>Determines where on the local filesystem the DFS secondary      name node should store the temporary images to merge.      If this is a comma-delimited list of directories then the image is      replicated in all of the directories for redundancy.  </description>
        </property>

fs.checkpoint.period表示多长时间记录一次hdfs的镜像。默认是1小时。
fs.checkpoint.size表示一次记录多大的size,默认64M

2.修改conf/hdfs-site.xml,增加
        <property>  
                <name>dfs.http.address</name>  
                <value>master:50070</value>  
                <description>    The address and the base port where the dfs namenode web ui will listen on.    If the port is 0 then the server will start on a free port.  </description>
        </property>

0.0.0.0改为namenode的IP地址

3.重启hadoop,然后检查是否启动是否成功。
登录secondarynamenode所在的机器,输入jps查看secondarynamenode进程
进入secondarynamenode的目录/data/work/hdfs/namesecondary
正确的结果:

如果没有,请耐心等待,只有到了设置的checkpoint的时间或者大小,才会生成。

4.恢复
制造namenode宕机的情况
1) kill 掉namenode的进程
[root@master name]# jps
11749 NameNode
12339 Jps
11905 JobTracker
[root@master name]# kill 11749


2)删除dfs.name.dir所指向的文件夹,这里是/data/work/hdfs/name
[root@master name]# rm -rf *

  删除name目录下的所有内容,但是必须保证name这个目录是存在的

3)从secondarynamenode远程拷贝namesecondary文件到namenode的namesecondary
[root@master hdfs]# scp -r slave-001:/data/work/hdfs/namesecondary/ ./


4)启动namenode
[root@master /data]# hadoop namenode –importCheckpoint

正常启动以后,屏幕上会显示很多log,这个时候namenode就可以正常访问了

5)检查
使用hadoop fsck /user命令检查文件Block的完整性

6)停止namenode,使用crrl+C或者会话结束

7)删除namesecondary目录下的文件(保存干净)
[root@master namesecondary]# rm -rf *


8)正式启动namenode
[root@master bin]# ./hadoop-daemon.sh  start namenode


恢复工作完成,检查hdfs的数据



balancer

在使用start-balancer.sh时,
默认使用1M/S(1048576)的速度移动数据(so slowly...)
修改hdfs-site.xml配置,这里我们使用的是20m/S
<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>20971520</value>
<description>  Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
</property>

然后结果是导致job运行变得不稳定,出现一些意外的长map单元,某些reduce时间处理变长(整个集群负载满满的情况下,外加20m/s的balance),据说淘宝的为10m/s,需要调整后实验,看看情况如何。

hadoop balancer -threshold 5



安全模式
有两个方法离开这种安全模式:
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
dfs.safemode.threshold.pct(缺省值0.999f)
HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。

(2)hadoop dfsadmin -safemode leave命令强制离开
dfsadmin -safemode value 参数value的说明:
enter - 进入安全模式
leave - 强制NameNode离开安全模式
get -  返回安全模式是否开启的信息
wait - 等待,一直到安全模式结束。
  • 大小: 8.1 KB
分享到:
评论

相关推荐

    Hadoop Namenode恢复

    Hadoop Namenode 恢复 Hadoop Namenode 是 Hadoop 分布式文件系统的核心组件之一,负责管理文件系统的命名空间。然而,在生产环境中,namenode 的崩溃可能会导致整个集群的不可用。因此,namenode 的恢复是非常重要...

    HDFS中NameNode节点的配置、备份和恢复.doc

    HDFS 中 NameNode 节点的配置、备份和恢复 HDFS(Hadoop Distributed File System)是 Hadoop 生态系统中的分布式文件系统,它提供了高效、可靠、可扩展的文件存储解决方案。 NameNode 是 HDFS 集群中的中心服务器...

    大数据面试题-.docx

    10. **故障处理**:NameNode意外终止时,SecondaryNameNode并不能直接接管,而是协助NameNode恢复。HDFS的多副本特性可以缓解NameNode的单点问题,但并不意味着NameNode没有单点故障。 11. **MapReduce**:...

    hadoop相关图片.rar

    - "检查节点用到的文件.png":可能展示的是检查点过程中涉及的文件,如fsimage和edit logs,以及它们在Namenode恢复过程中的作用。 - "文件下载.png":可能描绘了用户或应用程序从HDFS下载文件的流程,包括Namenode...

    大厂数据仓库面试题.docx

    * NameNode的高可用性:NameNode的高可用性可以通过 Secondary NameNode来实现,即使NameNode中的元数据丢失,仍可以从Secondary NameNode恢复部分元数据信息。 Flink * Flink运行时角色:Flink运行时由JobManager...

    Hadoop2.2.0中HDFS的高可用性实现原理.pdf )

    这种单点故障对HDFS的可用性造成两方面的影响:一方面,在不可预测的情况下,比如NameNode所在机器崩溃,集群将完全不可用,直到NameNode恢复;另一方面,在可预知的情况下,如进行硬件或软件升级,也同样会导致HDFS...

    大数据技术Hadoop笔试题.doc.docx

    16. 如果NameNode意外终止,SecondaryNameNode并不能直接接替其工作,而是协助NameNode恢复。 17. Cloudera CDH有免费和付费版本,免费版即社区版。 18. Hadoop虽然基于Java,但MapReduce支持多种编程语言编写,如...

    hadoop练习题--带答案.pdf

    2. SecondaryNameNode:在NameNode意外宕机时,SecondaryNameNode并不能立即接管,而是作为辅助角色帮助NameNode恢复。 3. Cloudera CDH:Cloudera的CDH是开源的,但某些高级功能可能需要付费。 4. MapReduce语言...

    大数据面试题.docx

    16. **NameNode故障**:如果NameNode意外终止,SecondaryNameNode并不会直接接替其工作,而是帮助NameNode恢复(填空:×)。 17. **Cloudera CDH的费用**:Cloudera CDH有免费和付费版本(填空:×)。 18. **...

    HDFS High Availability(HA)高可用配置.doc

    一旦NameNode所在的机器或进程出现问题,整个集群将无法正常工作,直至NameNode恢复或在其他机器上重启。为了解决这个问题,Hadoop引入了HA配置,允许在同一个集群中运行两个或更多冗余NameNode,通过快速故障转移...

    Hadoop分布式系统:系统设计与架构

    它不是NameNode的实时备份,但在系统重启时可以减少NameNode恢复的时间。 #### HDFS的关键特性 - **高容错性**:HDFS自动将数据块复制到多个节点上,从而确保即使部分节点出现故障也能保证数据的完整性。 - **...

    大数据面试题

    - **客户端写数据宕机**:DataNode检测到缺失块,通知NameNode恢复。 - **DataNode宕机恢复**:NameNode重新分配缺失块到新的DataNode。 11. **HDFS底层存储设计**: - 文件按块存储,块的大小可配置,默认为128...

    namenode启动失败参考

    - 从备份恢复:如果配置了Secondary Namenode或HDFS HA,可以尝试从这些备份源获取健康的fsimage。 - 使用`hdfs oiv`工具检查fsimage的结构完整性,如果可能,修复损坏的部分。 - 在没有备份的情况下,可能需要从...

    【HDFS篇08】NameNode故障处理1

    Secondary NameNode(SNN)并非NameNode的热备份,而是辅助NameNode定期保存检查点,以减少NameNode重启时的数据恢复时间。当NameNode出现问题时,我们可以通过SNN来尝试恢复。 方法一: 1. 强制停止NameNode进程,...

    NameNode机制.docx

    通过这种方式,可以在NameNode发生故障后利用SecondaryNameNode的数据恢复HDFS的状态,保证文件系统的可用性和一致性。 #### 四、多个目录配置 在实际应用中,可能会遇到单个目录无法满足存储需求的情况,这时可以...

    hadoop namenode双机热备

    6. 故障恢复与维护:定期检查系统状态,确保DRBD和Heartbeat的正常运行。在故障发生后,应分析原因,修复问题,并考虑是否需要调整热备策略。 总结,实现"Hadoop namenode双机热备"是一个复杂但必要的过程,涉及到...

    【HDFS篇07】NameNode和SecondearyNameNode1

    3. **日志滚动:** 为了确保系统的容错性和恢复能力,NameNode会定期滚动Edits日志。当达到某个条件(如日志大小限制或时间间隔),NameNode会创建一个新的Edits文件,并将后续操作写入新文件,旧的Edits文件则作为...

    Hadoop守护者:NameNode与DataNode故障恢复全攻略

    ### Hadoop Hadoop是一个开源框架,由Apache软件基金会开发,用于在普通硬件集群上存储和处理大量数据。它的核心组件包括: 1. **Hadoop Distributed File System (HDFS)** - 一个分布式文件系统,设计用于在多个...

Global site tag (gtag.js) - Google Analytics