- 浏览: 141805 次
- 性别:
- 来自: 深圳
文章分类
- 全部博客 (43)
- web服务器 (1)
- Linux (6)
- MySQL (3)
- xen (1)
- SpringSide (2)
- Windows (1)
- WebService (1)
- Hadoop (12)
- hbase (0)
- sqoop (1)
- Java (1)
- SQL Server 存储过程 xml (0)
- hive mysql (1)
- Eclipse Hadoop 源码 编译 (1)
- Perl (2)
- Shell (1)
- Nutch (1)
- NFS (0)
- CHM (0)
- SVN (1)
- eclipse (1)
- NekoHTML (0)
- MapReduce (0)
- hive (2)
- spring hibernate (0)
- jsp (0)
- CYGWIN (0)
- maven (0)
- selenium server (0)
- CentOS (1)
- hibernate (1)
- spring mvc (0)
- Mahout (0)
- openvpn (0)
- vpn (0)
- kvm (0)
- git (1)
- CPU (1)
- thrift avro (0)
最新评论
-
rmn190:
不错, 多谢分享!
hdfs mount为linux本地文件系统 -
melburg:
请教一下,hadoop 1.0.3版本中,为什么无法启动bac ...
Hadoop SecondaryNameNode备份及恢复
1、同步各个服务器时间
yum install ntp
ntpdate ntp.fudan.edu.cn
hdfs-site.xml配置
如果没有配置这一项,hadoop默认是0.0.0.0:50090,如果你的namenode和secondarynamenode配置在同一台服务器上,是没有问题的。如果分开部署没有指定该值,则hadoop会在namenode本机上找,就会出错
<property>
<name>dfs.secondary.http.address</name>
<value>snn0001:50090</value>
</property>
<property>
<name>dfs.http.address</name>
<value>nn0001:50070</value>
</property>
1、edits和fsimage
NameNode会把用户对FileSystem的操作保存在日志文件edits中
每次NameNode重启时,首先从镜像文件fsimage中读取HDFS数据,并把日志文件合并到fsimage中。
2、checkpoint
有两个参数控制SecondaryNameNode checkpoint
fs.checkpoint.period表示两次checkpoint的时间间隔,默认为3600s
fs.checkpoint.size规定edits文件最大值,超过该值即checkpoint,默认64M
可以通过NameNode的start-dfs.sh启动SecondaryNameNode
也可以通过./hadoop secondarynamenode -checkpoint或者./hadoop secondarynamenode -checkpoint force
3、恢复数据:
配置一台和NameNode一样的服务器
创建dfs.name.dir文件夹,注意:该文件夹不能包含合法的fsimage,否则会执行失败。因为NameNode会检查fs.checkpoint.dir目录下镜像的一致性,但是不会做任何改动。
注意:可以使用nfs备份dfs.name.dir和${hadoop.tmp.dir}/dfs/namesecondary
新建目录/hadoop/dfs/namenode和/hadoop/dfs/secondarynamenode
执行命令:./hadoop namenode -importCheckpoint,NameNode会读取checkpoint文件,保存到dfs.name.dir
出现以下错误:
12/01/24 00:02:56 WARN mortbay.log: /getimage: java.io.IOException: GetImage failed. java.net.ConnectException: Connection refused
这是因为没有在hdfs-site.xml配置dfs.secondary.http.address,上面已经配置了
下面的错误是由于数据块完整率没有达到hadoop规定的0.9990要求,所以namenode处于安全状态
把dfs.repliation值设置为2,重新格式化namenode,并上传数据,再次执行./hadoop namenode -importCheckpoint
在0.21.0中,可以通过Checkpoint Node和Backup Node做checkpoint
以下是官网对SecondaryNameNode的说明
The NameNode stores modifications to the file system as a log appended to a native file system file (edits). When a NameNode starts up, it reads HDFS state from an image file (fsimage) and then applies edits from the edits log file. It then writes new HDFS state to the fsimage and starts normal operation with an empty edits file. Since NameNode merges fsimage and edits files only during start up, the edits log file could get very large over time on a busy cluster. Another side effect of a larger edits file is that next restart of NameNode takes longer.
The secondary NameNode merges the fsimage and the edits log files periodically and keeps edits log size within a limit. It is usually run on a different machine than the primary NameNode since its memory requirements are on the same order as the primary NameNode. The secondary NameNode is started by bin/start-dfs.sh on the nodes specified in conf/masters file.
The start of the checkpoint process on the secondary NameNode is controlled by two configuration parameters.
- fs.checkpoint.period, set to 1 hour by default, specifies the maximum delay between two consecutive checkpoints, and
- fs.checkpoint.size, set to 64MB by default, defines the size of the edits log file that forces an urgent checkpoint even if the maximum checkpoint delay is not reached.
The secondary NameNode stores the latest checkpoint in a directory which is structured the same way as the primary NameNode's directory. So that the check pointed image is always ready to be read by the primary NameNode if necessary.
The latest checkpoint can be imported to the primary NameNode if all other copies of the image and the edits files are lost. In order to do that one should:
- Create an empty directory specified in the dfs.name.dir configuration variable;
- Specify the location of the checkpoint directory in the configuration variable fs.checkpoint.dir;
- and start the NameNode with -importCheckpoint option.
The NameNode will upload the checkpoint from the fs.checkpoint.dir directory and then save it to the NameNode directory(s) set in dfs.name.dir. The NameNode will fail if a legal image is contained in dfs.name.dir. The NameNode verifies that the image in fs.checkpoint.dir is consistent, but does not modify it in any way.
评论
发表评论
-
升级hadoop
2013-10-09 10:21 1452在没有更换前先备份数据 [hadoop@Hadoop-1 ... -
hadoop的Avatar机制
2013-08-21 15:45 0http://www.wangyuxiong.com/arch ... -
hive
2013-07-31 14:12 0hive行号 select row_number() o ... -
Hadoop RACK ID Awareness Configuration
2013-01-25 17:21 0The configuration includes ... -
window hadoop
2012-12-28 14:31 0http://hayesdavis.net/2008/06/1 ... -
hadoop读写流程
2012-07-27 15:20 0客户端通过调用FileSystem ... -
hadoop三个配置文件的参数含义说明
2012-07-14 13:03 02 常用的端口配置 2.1 HDFS端 ... -
编译hadoop 1.0.3 eclipse plugin jar包
2012-09-13 10:32 2379环境:Win 7 32bit 1、修改hadoop- ... -
编译hadoop 1.0.3 eclipse plugin jar包
2012-07-07 23:21 3970环境:Win 7 32bit 1、修改hadoop-1. ... -
hadoop fsck使用
2012-05-08 15:05 0首先,执行fsck命令行的客户端必须在hdfs-site.xm ... -
hive使用
2012-05-03 17:33 0[root@cnn001 hive-0.8.1]# bin/h ... -
AvatarNode
2012-04-24 13:28 0http://blog.csdn.net/rzhzhz/art ... -
hdfs mount为linux本地文件系统
2012-03-21 00:08 45431、软件下载 hdfs-webdav.war http:/ ... -
扩展hadoop hdfs,实现WebDav协议,将hdfs mount为linux本地文件系统
2012-03-15 16:18 1556本文引自:http://badqiu.iteye.com/bl ... -
Hadoop MapReduce统计指定目录下所有文本文件中数字总和
2012-03-06 16:16 0package org.apache.hadoop.exa ... -
Hadoop Zookeeper HBase集群
2012-02-16 16:19 9211注:Hadoop环境搭建请参考上一篇文档。 环境: ... -
Hadoop NameNode NFS备份及恢复
2012-02-16 14:28 1517准备任意一台Linux服务器 [root@localhost ... -
Hadoop 0.20.205.0安装配置
2012-02-15 15:55 1281环境: 10.0.30.235 NameNode ... -
hadoop mapred-default.xml配置文件
2012-02-15 13:25 4201name value description ... -
hadoop hdfs-default.xml配置文件
2012-02-15 13:05 4178name value description d ...
相关推荐
HDFS 中 NameNode 节点的配置、备份和恢复 ...HDFS 中 NameNode 节点的配置、备份和恢复是非常重要的, SecondaryNameNode 节点的配置和备份策略可以有效地减少 NameNode 节点的启动时间,并确保 HDFS 集群的高可用性。
在Hadoop分布式文件系统(HDFS)中,SecondaryNameNode是一个关键组件,它在系统运行过程中扮演着重要的角色。此组件的主要职责是辅助NameNode管理HDFS的状态,并确保数据的安全性和稳定性。以下是对...
6. **SecondaryNameNode**:SecondaryNameNode并非NameNode的热备份,而是辅助NameNode定期合并编辑日志,以减少NameNode重启时的恢复时间。它通常部署在独立的硬件上。 7. **集群管理工具**:Puppet、Pdsh和...
secondarynamenode并非namenode的热备份,它不会直接处理客户端的请求,其主要功能是定期合并namenode的编辑日志(edits)和命名空间镜像(FSImage),以防止编辑日志过大,减轻namenode的工作压力,并提供一种恢复...
将原有的伪分布式配置文件备份,以便于出现问题时能够迅速恢复。通常只需要备份与Hadoop相关的配置文件即可,如`hdfs-site.xml`和`core-site.xml`。 4. **修改配置文件** 修改`core-site.xml`、`hdfs-site.xml`...
此外,SecondaryNameNode作为备份,可以在NameNode故障时提供恢复点,增强了系统的高可用性。 至于Phoenix,它是SQL查询引擎,直接在HBase之上提供关系型数据库功能,使得通过SQL语句操作HBase变得更加方便。而...
快照可以看作是文件系统某一时间点的一个只读复制品,其创建速度快且开销小,适用于数据备份、防止误操作、实验/测试环境搭建和灾难恢复等多种场景。在培训视频中,这部分内容将演示如何创建和管理HDFS快照,以及...
其中,Namenode用于管理文件系统的命名空间,Jobtracker用于管理MapReduce作业的调度,而Secondarynamenode则作为Namenode的辅助角色,用于备份和恢复Namenode的状态。Datanode和Tasktracker则分布在各个数据节点上...
以下是对Hadoop面试题及答案的部分解析: 1. **HDFS的数据存储**: - HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,负责数据的分布式存储。在HDFS中,数据是以Block的形式存储的,默认情况下每...
Hadoop2.2.0的HDFS(Hadoop分布式文件系统)高可用性(HA)解决方案是针对Hadoop早期版本中NameNode存在的单点故障问题而设计的。在Hadoop2.0.0之前,HDFS集群中只有一个NameNode,如果NameNode所在机器出现故障,会...
文档中描述了通过删除NameNode的数据目录来模拟NameNode崩溃,然后通过SecondaryNameNode恢复数据的实验过程。这个过程中首先需要停止集群,格式化NameNode,然后从DataNode获取之前NameNode的namespace ID,并将其...
SecondaryNameNode并非NameNode的热备份,而是协助NameNode合并编辑日志,减少NameNode重启时的恢复时间。 4. Hadoop作者:Hadoop的作者是Doug Cutting。 5. HDFS默认Block Size:默认大小为128MB。 6. 集群瓶颈...
4. **数据备份与恢复策略**:定期备份NameNode元数据,以防数据丢失。 **优化技巧** 1. **调优HDFS副本数**:根据硬件和网络条件调整副本数,平衡容错性和存储空间。 2. **调整MapReduce参数**:如`mapreduce.map....
SecondaryNameNode并非NameNode的热备份,而是协助NameNode合并编辑日志,减少NameNode重启时的恢复时间。 4. Hadoop的作者是Doug Cutting,选项C。Doug Cutting是Apache Lucene的创始人,他后来开发了Hadoop,使其...
当Namenode或Datanode故障时,可以通过备份恢复。源码中的`org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode`提供了Namenode的定期备份功能。 五、Hadoop的扩展性 Hadoop的设计允许轻松添加或移除节点,...
SecondaryNameNode 是Namenode的一个辅助角色,不是热备份,而是帮助Namenode定期合并编辑日志(Edit Logs),以减轻Namenode的负担,防止Edit Logs变得过大。 YARN (Yet Another Resource Negotiator) 是Hadoop 2....
- **备份fsimage文件**:为NameNode提供故障恢复的能力。 #### 十二、HDFS环境的搭建步骤 1. **安装Java**:Hadoop依赖于Java运行环境。 2. **配置Hadoop环境变量**:设置JAVA_HOME等环境变量。 3. **下载Hadoop...
- **SecondaryNameNode不是NameNode的热备份**,它不承担NameNode的功能,而是定期合并NameNode的fsimage和edits文件,以减轻NameNode的启动时间。 - 由于SecondaryNameNode内存需求与NameNode大致相同,因此通常...
【Hadoop基础概念】 Hadoop是一个开源框架,主要用于处理和存储大数据。...以上内容涵盖了Hadoop的基础概念、集群管理、数据存储、故障恢复以及集群监控等多个方面,这些都是理解和使用Hadoop时必备的知识点。
4.SecondaryNameNode 是辅助 NameNode 的角色,定期合并 NameNode 的编辑日志,以减少 NameNode 启动时的恢复时间,但并非是 NameNode 的热备份。5.TaskTracker 是 MapReduce 框架中的工作节点,负责执行由 ...