这两天在操作Hadoop集群时,由于一个误操作,制作了一个天大的悲剧
不小心把Hadoop集群上的所有文件全部删除了,具体情况是这样的:
我用hadoop的超级帐户要建立一个目录,结果发现位置错了
也是,想使用rmr删掉那个目录,可是不小心把命令写成了
hadoop fs -rmr /user
于是,悲剧出现了,所有user目录下的所有目录和文件全都没有了
当时我就慌神了,赶紧从web查看50070的服务
眼看着DFS Used空间从100多G不停的减少
后来才反应过来,赶紧停掉namenode节点,然后上网google办法
后来,从secondname节点重新恢复了一个checkpoint
但绝大部分数据都已经丢失了,只恢复了一小部分数据,已经没啥用了
幸好,原始log我们在其它服务器上还保留的有,只能重新分析再入Hadoop了
总结了一下几点教训:
- 首先一定要控制好hadoop上各用户的权限,使各user只能操作自己的目录
- 尽量少用hadoop的超级用户进行操作,可以减少误操作
- hadoop的rm和rmr命令,设计的太BT了,连一个确认提示都没有,直接就删除了。看到有人给官方提了这个建议,但人家回复说:已经有了trash机制了,所以不需要提示,真是无语….
- hadoop的trash功能:很遗憾,之前没有配置trash,所以就直接给删除了,经过这次误操作,赶紧配置上trash,并设置保留时间为7天。
在core-site.xml中增加如下配置,表明rm后会在trash中保留多少分钟:
<property>
<name>fs.trash.interval</name>
<value>10080</value>
<description>
Number of minutes between trash checkpoints. If zero, the trash feature is disabled
</description>
</property>
很遗憾的是,hadoop的这个默认值是0,就是直接删除了,为什么要这么设计呢?郁闷….
经过简单的测试,这个trash功能还是不错的,当rm后,它会move到当前文件夹下的.Trash目录下
如果你删除一个文件或目录多次,则hadoop会自动在name后加上数字序列号
这样,如果你误删除后,就可以有选择的恢复文件了
hadoop fs -mkdir /user/oplog/test
hadoop fs -put *.txt /user/oplog/test
hadoop fs -rmr /user/oplog/test
hadoop fs -ls /user/oplog/.Trash/Current/user/oplog
drwxr-xr-x – oplog oplog 0 2010-11-16 10:44 /user/oplog/.Trash/Current/user/oplog/test
hadoop fs -mv /user/oplog/.Trash/Current/user/oplog/test /user/oplog/
hadoop fs -ls /user/oplog/.Trash/Current/user/oplog
drwxr-xr-x – oplog oplog 0 2010-11-16 10:44 /user/oplog/.Trash/Current/user/oplog/test
drwxr-xr-x – oplog
相关推荐
赠送jar包:parquet-hadoop-1.8.2.jar; 赠送原API文档:parquet-hadoop-1.8.2-javadoc.jar; 赠送源代码:parquet-hadoop-1.8.2-sources.jar; 赠送Maven依赖信息文件:parquet-hadoop-1.8.2.pom; 包含翻译后的API...
Apache Flink 是一个流行的开源大数据处理框架,而 `flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip` 文件是针对 Flink 优化的一个特殊版本的 Hadoop 库。这个压缩包中的 `flink-shaded-hadoop-2-uber-2.7.5-10.0....
在这个特定的兼容包中,我们可以看到两个文件:flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar(实际的兼容库)和._flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar(可能是Mac OS的元数据文件,通常...
flink-shaded-hadoop-3下载
本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载
标题"elasticsearch-hadoop-8.8.0"指的是该组件的一个特定版本,即8.8.0版,这通常包含了针对该版本的优化和新功能。 在描述中提到,“用于hdfs集群访问ES的工具类型,可以将HQL转化为ES识别的命令”,这里有几个...
Spark与Hadoop的关系在于,Hadoop是大数据处理领域的一个基石,提供了分布式存储(HDFS)和分布式计算(MapReduce)框架。但Spark并不局限于Hadoop生态系统,它可以与多种数据源集成,如Amazon S3、Cassandra、HBase...
# 解压命令 tar -zxvf flink-shaded-hadoop-2-uber-3.0.0-cdh6.2.0-7.0.jar.tar.gz # 介绍 用于CDH部署 Flink所依赖的jar包
Spark-3.0.0-bin-hadoop2.7版本确保与Hadoop 2.7的兼容性,这意味着用户可以在使用Hadoop作为存储和计算平台的同时,充分利用Spark的高性能计算优势。这涵盖了HDFS(Hadoop分布式文件系统)和其他Hadoop生态系统...
在大数据处理领域,Spark以其高效、易用和灵活性脱颖而出,成为了许多开发者的首选框架。Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark中的一个重要组件,它是Spark的核心库,包含了所有Spark模块的合并版本,便于...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性而闻名。这个名为"spark-3.2.1-bin-hadoop2.7.tgz"的压缩包是Spark的一个特定版本,即3.2.1,与Hadoop 2.7版本兼容。在Linux环境下...
flink-shaded-hadoop-2-uber-2.7.5-10.0.jar
Spark是Apache软件基金会下的一个开源大数据处理框架,其主要特点是高效、通用、易用和可扩展。Spark 3.2.0是Spark的一个重要版本,它在前一版本的基础上进行了多方面的优化和改进,旨在提供更好的性能和更多的功能...
标题中的"apache-hadoop-3.1.0-winutils-master.zip"是一个针对Windows用户的Hadoop工具包,它包含了运行Hadoop所需的特定于Windows的工具和配置。`winutils.exe`是这个工具包的关键组件,它是Hadoop在Windows上的一...
RDD支持各种操作,如转换和行动,允许用户以交互式的方式处理大规模数据。此外,Spark 还提供了SQL查询支持(通过Spark SQL),流处理(Spark Streaming),机器学习库(MLlib)以及图形处理(GraphX)等功能,使其...
在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模...
spark-2.4.5-bin-hadoop2.7.tgz的安装包,适用ubuntu,Redhat等linux系统,解压即可安装,解压命令:tar -zxvf spark-2.4.5-bin-hadoop2.7.tar.gz -C dst(解压后存放路径)
Flink1.10.1编译hadoop2.7.2 编译flink-shaded-hadoop-2-uber
Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效、灵活和易用性而闻名。Spark 2.1.1是该框架的一个稳定版本,它在2.1.0的基础上进行了一些改进和修复,提供了更好的性能和稳定性。这个特定的压缩包...
赠送jar包:flink-hadoop-compatibility_2.11-1.10.0.jar; 赠送原API文档:flink-hadoop-compatibility_2.11-1.10.0-javadoc.jar; 赠送源代码:flink-hadoop-compatibility_2.11-1.10.0-sources.jar; 赠送Maven...