`
smarthhl
  • 浏览: 28809 次
社区版块
存档分类
最新评论

HBase的Snapshots功能介绍

 
阅读更多

HBase的Snapshots功能介绍

在之前,备份或者拷贝一个表只能用copy/export表,或者disable表后,从hdfs中拷贝出所有hfile。copy/export表用的是MapReduce来scan和copy表,这会对Region Server产生直接的性能影响,而用disable后拷贝文件则是直接不能访问了。

以此相反,HBase的snapshots功能可以让管理员不用拷贝数据的情况下轻松拷贝table,并且只会对RS造成很小影响。导出snapshots到另一个集群不会直接作用于RS,只是添加一些额外的逻辑。

下面是一些实用snapshots的场景:

  • 从用户/app错误中恢复
    • 从某个已知的安全状态恢复/还原。
    • 查看之前的snapshots并选择性地从merge到产线中。
    • 在重大升级或者修改之前保存snapshots。
  • 审查和/或报告指定时间的数据视图
    • 有目的性地按月采集数据。
    • 运行每天/每月/一刻时间报表。
  • 应用测试
    • 用snapshots在产线测试schema或者程序改变对数据相似度的影响,然后丢弃它。例如,获取一个snapshot,然后用该snapshot的内容创建一个表,然后对该表进行操作。
  • 离线作业
    • 获取一个snapshot,导到另外一个集群并用MapReduce作业来分析它。由于导出snapshot的操作发生在HDFS级别,你不会像拷贝表那样拖慢HBase。

什么是Snapshot?

一个snapshot其实就是一组metadata信息的集合,它可以让管理员将表恢复到以前的一个状态。snapshot并不是一份拷贝,它只是一个文件名的列表,并不拷贝数据。一个全的snapshot恢复以为着你可以回滚到原来的表schema和创建snapshot之前的数据。

操作

  • 获取:该操作尝试从指定的表中获取一个snapshot。该操作在regions作balancing,split或者merge等迁移工作的时候可能会失败。
  • 拷贝:该操作用指定snapshot的schema和数据来创建一个新表。该操作会不会对 原表或者该snapshot造成任何影响。
  • 恢复:该操作将一个表的schema和data回滚到创建该snapshot时的状态。
  • 删除:该操作将一个snapshot从系统中移除,释放磁盘空间,不会对其他拷贝或者snapshot造成任何影响。
  • 导出:该操作拷贝这个snapshot的data和metadata到另一个集群。该操作仅影响HDFS,并不会和hbase的Master或者Region Server通信(这些操作可能会导致集群挂掉)。

零拷贝Snapshot,恢复,克隆

snapshot和CopyTable/ExportTable最大的区别是snapshot仅涉及metadata,不涉及数据拷贝。

Hbase一个重要的设计就是一旦写到一个文件就不会修改了。有不可修改的文件意味着一个snapshot仅需保持当前文件的使用相关信息就可以了, 并且,当compaction发生的时候,snapshot通知hbase系统仅把这些文件归档而不要删除它。

同样,当克隆或者恢复操作发生的时候,由于这些不变的文件,当用snapshot创建新表的时候仅需链接向这些不变的文件就行了。

导出snapshot是唯一需要拷贝数据的操作,这是因为其它的集群并没有这些数据文件。

导出Snapshot Vs Copy/Export Table

除去更加好的一致性保证外,和Copy/Export作业相比,最大的不同是导出snapshot操作是在HDFS层级进行的。这就意味着hbase的master和Region Server是不参与该操作的,因此snapshot导出不会创建一些不必要的数据缓存,并且也不会因为由于很多scan操作导致的GC。snapshot导出操作产生的网络和磁盘开销都被HDFS的datanode分摊吸收了。

HBase Shell: Snapshot 操作

要想使用snapshot功能,请确认你的hbase-site.xml中的hbase.snapshot.enabled配置项为true,如下:

1 <property>
2
3 <name>hbase.snapshot.enabled</name>
4
5 <value>true</value>
6
7 </property>

创建一个snapshot用如下命令,该操作没有文件拷贝操作:

1 hbase> snapshot ‘tableName’, ‘snapshotName’

要想知道系统中创建了哪些snapshot,可以用list_snapshot命令,它会显示snapshot名,源表和创建时间日期。

1 hbase> list_snapshots
2 SNAPSHOT TABLE + CREATION TIME
3 TestSnapshot TestTable (Mon Feb2521:13:49+00002013)</pre>

要想移除snapshot,用delete_snapshot命令,移除snapshot不会对已经克隆好的表和随后发生的snapshot造成任何影响。

1 hbase> delete_snapshot ‘snapshotName’

要想使用snapshot来创建一个新表,用clone_snapshot命令。该操作也无任何数据拷贝操作发生。

1 hbase> clone_snapshot ‘snapshotName’, ‘newTableName’

要是想恢复或者替换当前表的schema和数据,用restore_snapshot命令。

1 hbase> restore_snapshot ‘snapshotName’

要想导出一个snapshot到另外的集群,用ExportSnapshot工具。导出操作不会对Region server造成额外的负担。因为它工作在HDFS层级,你仅需指定HDFS的位置(其它集群的hbase.rootdir)即可,如下。

1 hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot
2 SnapshotName -copy-to hdfs:///srv2:8082/hbase

当前存在的限制

Snapshots依赖于一些想当然的地方,当前还有很多新特性并没有完全集成到工具里:

  • 做snapshot或者克隆表时如果发生Merging region操作时数据可能丢失。
  • 恢复表的时候,由于是对一个replication进行的,这可能导致两个集群数据不同步。

总结

当前的snapshot特性以及包括了所有基本功能,但是依然还有很多工作要做,例如质量(metrics),Web UI集成,磁盘使用优化等。

要想了解更多snapshot相关信息,请看官方文档的snapshot一节。


分享到:
评论

相关推荐

    HBase介绍介绍介绍

    【HBase介绍】 HBase是一种NoSQL数据库,它基于Apache Hadoop构建,设计为高度分布式、多版本的列式存储系统。HBase旨在处理大型数据集,提供对这些数据的实时读写访问,尤其适用于大数据量存储和具有特定查询模式...

    Hbase基本知识介绍

    ### HBase基本知识介绍 #### 一、HBase概述 HBase是Apache Hadoop生态系统中的一个重要的组件,它提供了一种分布式、可扩展的大规模数据存储解决方案。HBase基于Google Bigtable论文设计,并且利用Hadoop HDFS作为...

    HBase性能深度分析

    ### HBase性能深度分析 HBase,作为BigTable的一个开源实现,因其卓越的分布式数据库特性在大数据处理领域占据了重要地位。然而,随着HBase在各行业的广泛应用,用户对其性能表现的关注日益增强,尤其是实时数据...

    hdfs,hbase命令原理介绍

    HBase 提供了高可靠性、高性能、面向列的数据存储功能,特别适用于非结构化和半结构化数据。 #### HBase 的特点 - **面向列族存储**:数据按列族组织,同一列族内的数据存储在一起。 - **行键排序**:HBase 使用行...

    HBase写性能优化策略

    然而,随着数据量和访问量的增加,如何对HBase的写性能进行优化成为一个重要的议题。本文旨在提供一系列优化策略,以提高HBase的写入效率和数据写入的稳定性。 首先,要理解HBase写入数据的基本流程:数据首先顺序...

    HbaseTemplate 操作hbase

    在IT行业中,尤其是在大数据处理领域,HBase是一个广泛使用的分布式、高性能、列式存储的NoSQL数据库。HBase是建立在Hadoop文件系统(HDFS)之上,为处理大规模数据提供了一个高效的数据存储解决方案。而Spring Data...

    HBase的性能优化

    "HBase性能优化" HBase是一种高性能的NoSQL数据库,广泛应用于大数据存储和处理领域。然而,HBase的性能优化是非常重要的,特别是在大规模数据集群环境中。以下是HBase性能优化的相关知识点: 启用LZO压缩 HBase...

    HBase Java API类介绍

    本文将详细介绍HBase Java API中的几个核心类及其功能。 #### 二、HBase Java API类介绍 ##### 1. HBaseConfiguration **关系**:`org.apache.hadoop.hbase.HBaseConfiguration` **作用**:用于配置HBase的相关...

    hbase介绍以及详细讲解

    HBase 是一个分布式的、基于列族的NoSQL数据库,它是Apache软件基金会的顶级项目,设计用于处理海量数据。HBase构建在Hadoop之上,旨在为非结构化或半结构化数据提供高吞吐量的随机读写能力,特别适合大规模大数据...

    HBase技术介绍.docx

    它具备高可靠性、高性能和可扩展性等特点,能够在成本相对低廉的硬件设备上构建大规模的数据存储集群。 #### 二、HBase的核心特性及原理 ##### 1. **基于Hadoop生态系统** - **HDFS(Hadoop Distributed File ...

    HBase官方文档

    HBase具有高扩展性、高性能、以及灵活的数据模型。下面详细介绍HBase的核心知识点。 ### 入门 入门部分包括了介绍和快速开始两小节。在介绍中,对HBase进行了基础的定义和描述,提到其作为一种NoSQL数据库,如何...

    hbase基础知识介绍powerpoint

    hbase基础知识介绍powerpoint

    HBASE基础应用的介绍

    ### HBase基础应用介绍 #### 一、HBase概述 HBase是Apache Hadoop生态系统中的一个重要的组件,它提供了一种分布式、可扩展的大规模数据存储解决方案。HBase基于Google Bigtable论文的思想实现,旨在为海量结构化...

    \"HBase_介绍和HBase云存储\"分享总结

    首先,我们从HBase的基本概念和功能入手。 HBase是一个分布式、列式存储的NoSQL数据库,基于Google的Bigtable设计思想开发,运行于Hadoop之上。它提供高可靠性、高性能、实时的数据存储和访问能力,特别适合处理...

    hbase性能测试.docx

    在对HBase进行性能测试时,我们关注的关键指标包括数据读写速度、系统资源消耗以及MapReduce框架的运行效率。以下是对文档中提到的几个重要性能指标的详细解读: 1. **顺序写入(Sequential Write)**: - **FILE:...

    某大数据公司内部Hbase性能测试详细设计文档及用例

    本文档旨在详细介绍HBase性能测试的设计文档和实践经验,涵盖了HBase性能测试需要注意的一些参数设置和测试用例。下面是从该文档中提炼的相关知识点: 1.1 Pre-Creating Regions 在HBase中,默认情况下,在创建表...

    腾讯云-云数据库对Hbase介绍

    腾讯云-云数据库对Hbase的独家介绍,介绍腾讯云HBase的使用。 腾讯云-云数据库对Hbase的独家介绍,介绍腾讯云HBase的使用。 腾讯云-云数据库对Hbase的独家介绍,介绍腾讯云HBase的使用。

    (转)HBase技术介绍

    【HBase技术介绍】 HBase,全称是Apache HBase,是一个分布式的、面向列的开源数据库,基于Google的Bigtable设计思想构建于Hadoop文件系统(HDFS)之上。它是Apache软件基金会Hadoop项目的一部分,专为处理大规模...

    HBase性能优化方法总结

    本文将深入探讨HBase性能优化的各种策略,旨在帮助你提升数据操作的效率。 一、硬件优化 1. **磁盘选择**:HBase对I/O性能要求较高,因此推荐使用SSD硬盘,以减少读写延迟。 2. **内存配置**:合理分配HBase的堆...

Global site tag (gtag.js) - Google Analytics