Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚。已防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。
首先
HDFS 的Snapshot 大概有以下几个特性:
- Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
- 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数
- 在datanode 上面的blocks 不会复制,做Snapshot 的文件是纪录了block的信息
- Snapshot 并不会影响HDFS 的正常操作
然后,有以下的几个新的概念来产生
Snapshot table
Snapshots 会存储在snapshottable的目录下。snapshottable下存储的snapshots 最多为65535个,
Snapshot 路径
举例,假设/foo 是snapshottable,/foo/bar 是文件目录,/foo 拥有一个s0的snapshot
那么路径会是 /foo/.snapshot/s0/bar
我们可以通过 hdfs dfs -ls /foo/.snapshot
hdfs dfs -ls /foo/.snapshot/s0
hdfs dfs -cp /foo/.snapshot/s0/bar /tmp
来操作与查看副本文件。
最后,让我们来看下基本操作的介绍
Snapshot 基本操作
- 对一个路径开启Snapshot
- hdfs dfsadmin -allowSnapshot <path>
- 关闭 Snapsshots
- hdfs dfsadmin -disallowSnapshot <path>
- 创建Snapshosts
- hdfs dfs -createSnapsshot <path> [snapshot names]
- 删除Snapshots
- hdfs dfs -deleteSnaphost <path> <snapshotName>
- 修改Snapshots的名字
- hdfs dfs -renameSnapshot <path> <oldname> <newname>
- 获取Snapshot 列表
- hdfs lsSnapshottableDir
- 获取两个Snapshot的不同
- hdfs snapsshotDiff <path> <fromSnapshot> <toSnapshot>
文章资料来源:http://hadoop.apache.org/docs/r2.1.0-beta/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html
相关推荐
Hadoop介绍,HDFS和MapReduce工作原理
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...
《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是Hadoop技术领域的一本深入解析之作,它详尽地探讨了Hadoop的两大核心组件——HADOOP COMMON和HDFS(Hadoop Distributed File System)的...
Hadoop 源码分析 HDFS 数据流 Hadoop 的 HDFS(Hadoop Distributed File System)是 Hadoop 项目中最核心的组件之一,它提供了高可靠、高-performance 的分布式文件系统。HDFS 的核心组件包括 Namenode、Datanode、...
"ranger-2.1.0-hdfs-plugin.tar.gz"是一个包含Ranger HDFS插件的压缩包,用于集成Ranger与HDFS,以实现对HDFS数据的全面安全管理。 Ranger的核心特性包括: 1. **权限管理**:Ranger支持细粒度的权限控制,允许...
Hadoop 技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理
Hadoop技术内幕:深入解析Hadoop Common 和HDFS 架构设计与实现原理 (大数据技术丛书) 原版书籍,非扫描版,使用kindle可以打开,也可以转换为epub使用ibooks打开
标题中的"hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop"表明这个压缩包包含了与在Ubuntu操作系统上安装和使用Hadoop和HDFS相关的资料。Ubuntu是一个广泛使用的Linux发行版,适合部署大型分布式系统如...
在本实验中,我们将深入探讨Hadoop的安装过程及其核心组件HDFS(Hadoop Distributed File System)的基础操作。Hadoop是大数据处理领域的基石,尤其在云计算环境中,它扮演着至关重要的角色。通过学习Hadoop,我们...
基于hadoop伪分布式hdfs系统完成的云盘项目基于hadoop伪分布式hdfs系统完成的云盘项目源码+项目说明+sql数据库.zip基于hadoop伪分布式hdfs系统完成的云盘项目源码+项目说明+sql数据库.zip基于hadoop伪分布式hdfs系统...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。...
赠送jar包:hadoop-hdfs-2.6.5.jar; 赠送原API文档:hadoop-hdfs-2.6.5-javadoc.jar; 赠送源代码:hadoop-hdfs-2.6.5-sources.jar; 赠送Maven依赖信息文件:hadoop-hdfs-2.6.5.pom; 包含翻译后的API文档:hadoop...
### Hadoop中的HDFS和MapReduce #### Hadoop核心组件:HDFS与MapReduce **Hadoop** 是一个能够处理海量数据的开源软件框架,它最初由Apache开发,旨在为大规模数据提供分布式处理能力。Hadoop的核心组件包括**HDFS...
赠送jar包:hadoop-hdfs-2.7.3.jar; 赠送原API文档:hadoop-hdfs-2.7.3-javadoc.jar; 赠送源代码:hadoop-hdfs-2.7.3-sources.jar; 赠送Maven依赖信息文件:hadoop-hdfs-2.7.3.pom; 包含翻译后的API文档:hadoop...
### 详解Hadoop核心架构HDFS #### HDFS体系架构概览 Hadoop作为一个领先的开源分布式计算框架,其核心组成部分之一便是Hadoop Distributed File System(HDFS),它为大规模数据处理提供了高效、可靠且可扩展的...
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和...
赠送jar包:hadoop-hdfs-client-2.9.1.jar 赠送原API文档:hadoop-hdfs-client-2.9.1-javadoc.jar 赠送源代码:hadoop-hdfs-client-2.9.1-sources.jar 包含翻译后的API文档:hadoop-hdfs-client-2.9.1-javadoc-...
赠送jar包:hadoop-hdfs-client-2.9.1.jar; 赠送原API文档:hadoop-hdfs-client-2.9.1-javadoc.jar; 赠送源代码:hadoop-hdfs-client-2.9.1-sources.jar; 赠送Maven依赖信息文件:hadoop-hdfs-client-2.9.1.pom;...