惊天大悲剧-Hadoop的rmr和trash

java_doom

浏览: 512829 次
来自: ...

最近访客更多访客>>

songhait

pudi

fengxiatao

bbooxx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

精选

这两天在操作Hadoop集群时，由于一个误操作，制作了一个天大的悲剧

不小心把Hadoop集群上的所有文件全部删除了，具体情况是这样的：

我用hadoop的超级帐户要建立一个目录，结果发现位置错了

也是，想使用rmr删掉那个目录，可是不小心把命令写成了

hadoop fs -rmr /user

于是，悲剧出现了，所有user目录下的所有目录和文件全都没有了

当时我就慌神了，赶紧从web查看50070的服务

眼看着DFS Used空间从100多G不停的减少

后来才反应过来，赶紧停掉namenode节点，然后上网google办法

后来，从secondname节点重新恢复了一个checkpoint

但绝大部分数据都已经丢失了，只恢复了一小部分数据，已经没啥用了

幸好，原始log我们在其它服务器上还保留的有，只能重新分析再入Hadoop了

总结了一下几点教训：

首先一定要控制好hadoop上各用户的权限，使各user只能操作自己的目录
尽量少用hadoop的超级用户进行操作，可以减少误操作
hadoop的rm和rmr命令，设计的太BT了，连一个确认提示都没有，直接就删除了。看到有人给官方提了这个建议，但人家回复说：已经有了trash机制了，所以不需要提示，真是无语….
hadoop的trash功能：很遗憾，之前没有配置trash，所以就直接给删除了，经过这次误操作，赶紧配置上trash，并设置保留时间为7天。

在core-site.xml中增加如下配置，表明rm后会在trash中保留多少分钟：

<property>
<name>fs.trash.interval</name>
<value>10080</value>
<description>
Number of minutes between trash checkpoints. If zero, the trash feature is disabled
</description>
</property>

很遗憾的是，hadoop的这个默认值是0，就是直接删除了，为什么要这么设计呢？郁闷….

经过简单的测试，这个trash功能还是不错的，当rm后，它会move到当前文件夹下的.Trash目录下

如果你删除一个文件或目录多次，则hadoop会自动在name后加上数字序列号

这样，如果你误删除后，就可以有选择的恢复文件了

hadoop fs -mkdir /user/oplog/test
hadoop fs -put *.txt /user/oplog/test
hadoop fs -rmr /user/oplog/test
hadoop fs -ls /user/oplog/.Trash/Current/user/oplog
    drwxr-xr-x   – oplog oplog          0 2010-11-16 10:44 /user/oplog/.Trash/Current/user/oplog/test
hadoop fs -mv /user/oplog/.Trash/Current/user/oplog/test /user/oplog/
hadoop fs -ls /user/oplog/.Trash/Current/user/oplog
    drwxr-xr-x   – oplog oplog          0 2010-11-16 10:44 /user/oplog/.Trash/Current/user/oplog/test
    drwxr-xr-x   – oplog

分享到：

一个jdbc链接hive的小例子 | 一个简单的dom方式读取xml的例子

2013-07-03 16:21
浏览 8882
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论