Step 1: 做下saveNamespace操作,停掉集群,并备份下 HDFS 的 Metadata
1.1 让namenode进入safe mode状态
$ bin/hadoop dfsadmin -safemode enter
1.2 执行saveNamespace操作
$ bin/hadoop dfsadmin -saveNamespace
1.3 stop 集群
1.4 备份 dfs.name.dir 下面的元数据
Step 2: 下载 CDH4,把CDH3的配置拷过来
注意CDH3配置文件是在conf目录下面,CDH4的配置文件目录已经改成了etc/hadoop目录
Step 3: 升级 HDFS Metadata
3.1 进入CDH4目录下执行:
sbin/hadoop-daemon.sh start namenode -upgrade -clusterid mycluster-test
说明mycluster-test是clusterid,可以指定,也可以不指定,如果不指定那么系统会自动生成一个
3.2 查看日志目录下的namenode日志,如果出现:
Upgrade of ${dfs.namenode.name.dir} is complete
说明元数据已经升级成功
3.3 启动DataNodes:
在每一台datanode上面启动datanode服务
sbin/hadoop-daemon.sh start datanode
datanode节点会自动升级
3.4 等待namenode退出安全模式,然后执行fsck
bin/hdfs fsck /
3.5 确认目录健康,没有block丢失后可以执行finalzeUpgrade及启动secondarynamenode
bin/hdfs dfsadmin -finalizeUpgrade
#finalized后将不能rollback
sbin/hadoop-daemon.sh start secondarynamenode
#请清理掉dfs.namenode.checkpoint.dir目录下老版本文件,否则会启动失败
回滚操作:
若在升级过程中出了问题,想回滚到cdh3版本,一定不能执行bin/hdfs dfsadmin -finalizeUpgrade。在执行finalizeUpgrade之前都可以回滚
在cdh3 版本下面执行
(1)回滚Namenode,在namenode机器上面执行
bin/hadoop-daemon.sh start namenode -rollback
(2)回滚DataNode,在namenode机器上面执行
bin/hadoop-daemons.sh start datanode -rollback
也可以手工操作,把数据move回来,然后正常启动
(1)回滚Namenode的数据
remove dfs.name.dir/current目录,mv dfs.name.dir/previous dfs.name.dir/current目录
这样子就恢复回namenode的元数据了
(2)回滚DataNode的数据
remove dfs.data.dir/current目录,mv dfs.data.dir/previous dfs.data.dir/current目录
这样子就恢复回datanode的数据了
操作完后就可以重新启动cdh3版本了
总的来说,升级是:mv current previous,创建current,读旧的元数据,写成新版本到current里面,而DataNode节点上面的block数据通过hardlink来放到current目录下面
回滚是:rm current,mv previous current
参考:
http://cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_6_3.html
相关推荐
### CDH6.3.2升级Spark至3.3.1详细步骤与注意事项 #### 一、背景介绍 在CDH6.3.2中,默认的Spark版本为2.4.0。为了满足更高的性能需求及功能扩展,本文将详细介绍如何将Spark升级至3.3.1版本的过程。此次升级的...
在升级CDH之前,首先需要检查HDFS和HBase的健康状况。具体操作包括使用hdfs fsck命令检查HDFS的健康状况,以及使用hbase hbck命令检查HBase的健康状况。如果存在数据不一致等问题,需要根据具体情况来评估是否在升级...
CDH是一个流行的Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HDFS、YARN、Hive等,为大数据处理提供了一整套解决方案。 在CDH6.3.2中集成Spark3.2.2,用户可以利用Spark的新功能来提升大数据处理的效率和...
### CDH 5.11.2 升级 Hadoop 知识点详解 #### 一、CDH与Hadoop的关系 Cloudera Distribution Including Apache Hadoop (CDH) 是 Cloudera 公司推出的一个基于 Apache Hadoop 的发行版。它集成了大量的大数据处理...
标题“CDH4.3.0 HDFS 读写性能测试”指的是针对Cloudera Distribution Including Apache Hadoop(CDH)版本4.3.0的HDFS(Hadoop Distributed File System)进行的一项性能评估。HDFS是Apache Hadoop项目的核心组件之...
《Hadoop 0.20.2-CDH3B4:解压缩后的技术解析与应用》 Hadoop,作为Apache软件基金会的重要项目之一,是大数据处理领域中的核心框架,其分布式存储系统HDFS(Hadoop Distributed File System)和分布式计算模型...
首先,确保你已经了解了CDH(Cloudera Distribution Including Apache Hadoop)的基础知识,它是一个企业级的大数据平台,提供了Hadoop生态系统的一系列组件,如HDFS、YARN、MapReduce、Hive、HBase等。CDH5.9.0是...
3. **数据存储与处理**:HDFS作为CDH的核心组件,其数据存储和管理策略是运维的重点。手册可能涵盖HDFS的副本策略、数据块大小设置、数据平衡以及故障恢复等内容。同时,对于HBase这样的NoSQL数据库,手册也会介绍...
这个版本的 Sqoop 已经经过了充分的测试和优化,与 CDH3 兼容性良好,提供了稳定的数据迁移服务。 在 Sqoop-1.3.0-cdh3u4 压缩包中,我们可以期待找到以下关键组件和文件: 1. **bin** 目录:包含可执行的 Sqoop ...
【HDFS 透明加密KMS】是Hadoop分布式文件系统(HDFS)提供的一种安全特性,用于保护存储在HDFS中的数据,确保数据在传输和存储时的安全性。HDFS透明加密通过端到端的方式实现了数据的加密和解密,无需修改用户的应用...
Hadoop-0.20.2-cdh3u6是Cloudera公司基于Apache Hadoop的发行版CDH3的更新版本,它针对企业级应用进行了优化,包含了多个关键改进和修复。 CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera提供的...
CDH5.5.0是CDH的一个版本,包含了Hadoop的多个组件,如HDFS、YARN等,并且提供了方便的图形化安装和配置工具,使得部署和管理Hadoop集群变得更加便捷。 在CDH5.5.0中,HDFS(Hadoop Distributed File System)和...
5. **安装注意事项**:CDH6.0不兼容CDH5.12,升级前需备份数据,且不能直接平滑升级。 三、学习与交流 这些安装文档不仅适用于初次安装,也适用于集群扩展和故障排查。通过学习这些文档,你可以掌握大数据集群的...
Sqoop-1.2.0-CDH3B4是Cloudera Distribution Including Apache Hadoop(CDH)的一个版本,CDH是由Cloudera提供的Hadoop发行版,包含了对Hadoop生态系统组件的优化和集成。 标题"sqoop-1.2.0-CDH3B4.tar.gz下载"表明...
CDH4(Cloudera's Distribution Including Apache Hadoop)是Cloudera公司提供的一款基于Apache Hadoop的发行版,它集成了众多大数据处理组件,如HDFS、MapReduce、Hive、Pig、HBase等,为企业级大数据分析提供了...
1. **了解CDH和Parcel**:CDH提供了一种统一的管理和分发服务组件的方式,Parcel是其中的一部分,它是一个预打包的软件分发格式,可以直接在CDH集群上安装和升级。 2. **Flink与CDH版本兼容性**:在开始集成前,...
3. **数据存储与管理**:HDFS是CDH中的核心存储系统,负责数据的分布式存储。了解HDFS的数据块策略、数据平衡和故障恢复机制对保证数据安全至关重要。 4. **资源调度**:YARN作为Hadoop的资源管理系统,负责任务...
除了HDFS和MapReduce,CDH3u4可能还包括了其他的Hadoop生态系统组件,如Pig(一种高级数据处理语言)、Hive(一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能)、Oozie(工作流调度...
在大数据处理领域,CDH(Cloudera Distribution Including Apache Hadoop)是一款广泛使用的开源大数据平台,它包含了Hadoop生态系统中的多个组件,如HDFS、YARN、MapReduce、Hive等。而Phoenix是一个针对HBase的SQL...
CDH4和Presto都是知名的开源大数据处理项目,CDH4由Cloudera公司维护,集成了多个Apache Hadoop相关的项目,如HDFS、MapReduce、HBase等;而Presto是一个分布式SQL查询引擎,适用于交互式分析,对大规模数据进行快速...