Hadoop 2.1.0 beta 版发布，HDFS SnapShot 特性一览

资讯频道 → 开源软件

4顶
0踩

2013-08-28 09:41 by 见习记者 jackchan 评论(9) 有10558人浏览

Hadoop 2.0 hadoop HDFS 大数据

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚，以防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍，其他的文章在来介绍Snapshot 本身的实现机制。

HDFS Snapshot有以下几个特性：

Snapshot 创建的时间复杂度为O(1)，但是不包括INode 的寻找时间
只有当修改SnapShot时，才会有额外的内存占用，内存使用量为O(M),M 为修改的文件或者目录数
在datanode 上面的blocks 不会复制，做Snapshot 的文件是纪录了block的信息
Snapshot 并不会影响HDFS 的正常操作

产生了以下新的概念：

Snapshot table：Snapshots 会存储在snapshottable的目录下。snapshottable下存储的snapshots 最多为65535个
Snapshot 路径：举例，假设/foo 是snapshottable，/foo/bar 是文件目录,/foo 拥有一个s0的snapshot，那么路径会是 /foo/.snapshot/s0/bar，我们可以通过

Snapshot 基本操作：

对一个路径开启Snapshot： hdfs dfsadmin -allowSnapshot <path>
关闭 Snapsshots： hdfs dfsadmin -disallowSnapshot <path>
创建Snapshosts：hdfs dfs -createSnapsshot <path> [snapshot names]
删除Snapshots：hdfs dfs -deleteSnaphost <path> <snapshotName>
修改Snapshots的名字：hdfs dfs -renameSnapshot <path> <oldname> <newname>
获取Snapshot 列表：hdfs lsSnapshottableDir
获取两个Snapshot的不同：hdfs snapsshotDiff <path> <fromSnapshot> <toSnapshot>

资料来源：hadoop.apache.org

查看图片附件

分享到：

4
顶

0
踩

评论共 9 条请登录后发表评论

9 楼 niko7 2013-09-04 14:49

有机会要好好看看啊。这个东西在家里也搞不出名堂吧，得大数据，得多台机器才行。

8 楼 yj8714 2013-08-29 15:53

yj8714 写道

385104182 写道

hadoop太活跃了，厉害

确实很活跃啊。。。

希望有空了。。好好研究研究

希望好好看看

7 楼 yj8714 2013-08-29 15:53

yj8714 写道

385104182 写道

hadoop太活跃了，厉害

确实很活跃啊。。。

希望有空了。。好好研究研究

6 楼 yj8714 2013-08-29 15:52

385104182 写道

hadoop太活跃了，厉害

确实很活跃啊。。。

5 楼 sgq0085 2013-08-29 13:05

翻译的真搞笑快照Snapshot是一个单词又不是两个单词的集合

4 楼 liuwei0376 2013-08-29 10:31

新版本意味着不太稳定啊，可以在家尝尝鲜，公司里不敢用。

3 楼 freezingsky 2013-08-28 20:53

没机会接触，很遗憾啊。。。

2 楼 385104182 2013-08-28 13:19

hadoop太活跃了，厉害

1 楼 yunzhu 2013-08-28 11:45

这个好

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop hdfs 备份快照

snapshot为hadoop2.1.0时新增加的功能。主要为防止用户误删数据，和数据备份的作用快照的对象为HDFS目录，前提是该目录是可以允许设置快照的（SnapShotable）

Hadoop 2.1.0 beta HDFS SnapShot 介绍

Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚。已防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍，其他的文章在来介绍Snapshot 本身的实现机制。首先 HDFS...

HDFS snapshot操作实战

Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用：防止用户的错误操作：管理员可以通过以滚动的方式周期性设置...

2.2.12 hadoop体系之离线计算-mapreduce分布式计算-hadoop常见问题总结（hdfs+yarn+mapreduce）

目录 ...5. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么？ 6. 简述Hadoop的几个默认端口以及含义 7. 文件大小默认为64MB，改为128MB有啥影响？ 8. 简述Sec

Flink1.13集成Hadoop3.x以上版本

org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supported by Flink and no Hadoop file system to...

Hadoop之HDFS面试题整理

1.2HDFS（☆☆☆）1.2.1 HDFS 中的 block 默认保存几份？（A）A.3 份B.2 份C.1 份D.不确定1.2.2HDFS 默认 BlockSize 是（C）A.32MBB.64MB（2.7.2版本，本地模式）C.128MB（2.7.2版本，分布式模式）1.2.3 Client 端...

hdfs snapshot 快照的使用场景应用与操作命令的介绍

Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用：二：场景防止用户的错误操作：管理员可以通过以滚动的方式...

Centos7 搭建Hadoop3.0.3 +Zookeeper3.4.12+HBase2.1.0

Hadoop3.0.3 Zookeeper3.4.12 HBase2.1.0 服务器资源 IP地址 hostname 是否NameNode 是否DataNode 192.168.60.204 master 是否 192.168.60.205 node1 否是 1、Ce...

【大数据开发运维解决方案】Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.2单机伪分布式安装

[root@hadoop scala-2.11.12]# cd /hadoop/ [root@hadoop hadoop]# mkdir spark [root@hadoop hadoop]# cd spark/ 通过xftp上传安装包到spark目录 [root@hadoop spark]# tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz ...

day36~37_HDFS分布式文件存储系统

HDFS分布式文件存储系统一、HDFS概述（一）HDFS产生背景随着数据量越来越大，在一个文件系统下无法存储海量数据，普通硬件支持的...Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardwa

scala版本,spark将HDFS上的数据同步到hbase

1 spark将HDFS上的数据同步到hbase 将hdfs数据转换为hfile, 快速导入hbase 2 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=...

Hadoop生态从0到1_理论篇_[HDFS|Yarn|MapReduce|Hive]_CodingPark编程公园

文章介绍：本文将带领你进入Hadoop的生态世界，本文为Hadoop生态从0到1_理论篇

HDFS面试题 1 阿善有用

1.2HDFS(☆☆☆) 1.2.1 HDFS 中的 block 默认保存几份？(A) A.3 份 B.2 份 C.1 份 D.不确定 1.2.2HDFS默认BlockSize是(C) A.32MB B.64MB(2.7.2版本，本地模式) C.128MB(2.7.2版本，分布式模式) 1.2.3 Client 端上传...

hbase安装配置（整合到hadoop） .

[-] 快速单击安装下载解压最新版本启动 HBaseHbase Shell 练习停止 HBaseHbase集群安装前注意分布式...替换hadoop的jar包运行和确认安装当Hbase托管ZooKeeper的时候独立的zookeeper启动测试安装中出现的问

HDFS NameNode重启优化

在Hadoop集群整个生命周期里，由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启，不论采用何种架构，重启期间集群整体存在可用性和可靠性的风险，所以优化NameNode重启非常关键。本文基于Hadoop-2....

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自动代码生成，电源建模仿真与控制原理 (1)数字电源的功率模块建模 (2)数字电源的环路补偿器建模 (3)数字电源的仿真和分析 (4)如何把数学控制方程变成硬件C代码; (重点你的想法如何实现)这是重点数字电源硬件资源、软件设计、上机实验调试 (1) DSP硬件资源; (2)DSP的CMD文件与数据的Q格式: (3) DSP的C程序设计; (4)数字电源的软件设计流程 (5)数字电源上机实验和调试(代码采用全中文注释)还有这个，下面来看看都有啥，有视频和对应资料(S代码，对应课件详细讲述传递函数推倒过程。

OpenArk64-1.3.8beta版-20250104

OpenArk64-1.3.8beta版-20250104，beta版解决Windows 11 23H2及以上进入内核模式，查看系统热键一片空白的情况

面向对象（下）代码.doc

java面向对象程序设计实验报告

基于springboot的校园台球厅人员与设备管理系统--论文.zip

【创新无忧】基于matlab蜣螂算法DBO优化极限学习机KELM故障诊断【含Matlab源码 10720期】.zip

4顶0踩