`

HBase迁移数据方案1(两个集群不能通信)

阅读更多

前一篇文章里面介绍了 两个可以直接通信的集群之间很容易拷贝数据从而迁移HBase数据。

 

但是如果两个集群在不同的网络,没法通信呢?

 

今天测试了一个方案:

 

把某个表(table1)从集群1迁移到集群2(两个集群互相看不见),步骤如下

 

1、拷贝集群1的表文件到本地磁盘 :

/app/cloud/hadoop/bin/hadoop fs -copyToLocal /hbase/table1 /data0/hbase-backup/table1
 

2、对于文件操作,很简单吧,随便你怎么去拷贝来拷贝去

3、如果集群2中也有对应的表文件,那么删除掉,然后拷贝

/app/cloud/hadoop/bin/hadoop fs -rmr /hbase/table1
/app/cloud/hadoop/bin/hadoop fs -copyFromLocal /data0/hbase-backup/table1 /hbase/table1

 4、重置该表在.META.表中的分区信息

bin/hbase org.jruby.Main bin/add_table.rb /hbase/table1

 

另外:

1、如果表的数据量过大呢? 那么按照该表在HDFS中的文件夹数据,分批拷贝。

2、如果两个集群可以互相通信呢?那么更爽了,直接使用distcp对拷,是并行的。

 

分享到:
评论

相关推荐

    基于集群的HBase安装和配置

    - **Hadoop集群**:假设已有一个由三台机器组成的Hadoop集群,其中一台为主节点(NameNode),其余两台为从节点(DataNode)。 - **网络配置**:确保各节点可以通过主机名进行互访。通过编辑`/etc/hosts`文件添加主机名...

    hbase原理和设计

    1. **客户端(Client)**:使用HBase的RPC机制与HMaster和HRegionServer进行通信,实现数据读写等操作。 2. **ZooKeeper**:作为HMaster选举和服务状态监控的核心组件,同时也是Region寻址的入口。 3. **HMaster**:...

    HBase技术介绍简介 NOSQL数据库 入门

    为了管理这些Region,HBase使用了两个特殊的表: - **-ROOT-**:只包含一个Region,用于存储.META.表的Region位置信息。 - **.META.**:记录了用户自定义表的所有Region的信息。 通过这种方式,客户端在查询数据时...

    Hbase安装指南

    Table**:这两个特殊表存储了HBase表的元数据信息。-ROOT-表包含.META.表的Region位置信息,而.META.表则记录所有用户表的Region信息。客户端在访问数据前,需要通过Zookeeper找到-ROOT-,再找到.META.,最后才能...

    HBase2.0集群部署(Ha)

    随着数据量的增长,我们可以随时向集群中添加新的RegionServer,HBase会自动将负载均衡到新加入的节点上,无需停机或手动迁移数据。 在生产环境中,有几点需要注意: 1. 确保硬件资源充足:内存、CPU和磁盘IO是影响...

    HBase performance and robustness enhancement,(Zhihong Yu).pdf

    除了上述两个关键改进外,HBase还在连接共享、减少竞争、离线模式构建.META.表、即时模式更新、循环复制支持、非堆缓存等方面进行了优化,全面提升系统的性能和健壮性。 - **连接共享**(HBASE-3777):优化了...

    HortonWorks-HBase的企业级应用-Ted-Yu

    离线快照适合于在数据更新不频繁时使用,适用于定期的备份和数据迁移。 全局一致性快照则是指跨越所有服务器的一致性快照,它使用了两阶段提交协议(two-phase commit),并通过基于屏障的过程(barrier-based ...

    CDH安装指导

    CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个开源大数据平台,它包含了多个Apache Hadoop生态系统的组件,如Hadoop、Hive、HBase等,为企业提供了一个统一的数据管理解决方案。...

    Hadoop学习文档.pdf

    1. 结构化数据与非结构化数据:介绍数据的类型,强调云计算需要处理的不仅仅是结构化数据,还包括大量的非结构化数据。 2. 云计算技术:讲解云计算的基础知识,包括云服务的模式(IaaS、PaaS、SaaS)和服务类型...

    NoSQL数据笔谈

    由Eric Brewer提出,该理论认为在分布式系统中,不可能同时满足一致性(Consistency)、可用性(Availability)和分区容忍性(Partition tolerance)这三个需求,最多只能同时满足其中的两个。 - **一致性...

    Hadoop最新的研究重点和进展.zip

    5. **跨集群数据迁移**:Hadoop 3.x 的联邦HDFS允许在不同集群之间迁移数据,增强了集群间的协同工作能力。 三、Hadoop 生态系统的发展 1. **Spark on YARN**:随着Apache Spark的兴起,Hadoop 生态系统中的计算...

    大数据课程体系.docx

    涵盖了Java基础、Linux基础、Hadoop生态、分布式数据库HBase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架、Zookeeper分布式协调服务、Netty异步IO通信框架、Kafka消息队列、Storm实时计算框架等重要主题...

    Hadoop期末整理.pdf

    MapReduce将计算过程分为Map和Reduce两个阶段,Map阶段将输入数据切分成键值对,然后转换为中间结果;Reduce阶段则对中间结果进行聚合,生成最终输出。 Hadoop还包含其他相关技术,如HBase,一个分布式的、列式存储...

    Hadoop原理和架构.pdf

    MapReduce是Hadoop的计算引擎,它将大规模数据处理任务划分为两个阶段:Map和Reduce。Map阶段将原始数据拆分成键值对,然后在各个节点上并行处理;Reduce阶段则将Map的结果进行聚合,生成最终输出。这一设计极大地...

    Hadoop基础面试题(附答案)

    - **易于编程**:提供了简单的编程模型,开发者只需要实现Map和Reduce两个函数即可。 - **良好的扩展性**:能够无缝扩展到成千上万台机器组成的集群。 - **高容错性**:自动处理任务失败的情况,确保数据的完整性和...

    《大数据平台搭建与配置管理》期末考试卷及答案.docx

    它包括两个阶段:Map阶段负责将输入数据划分为多个小部分进行处理;Reduce阶段则负责汇总Map阶段的结果。 9. **查看HDFS系统运行状态的Shell命令** - **知识点**: 使用`hdfs dfsadmin -report`命令可以查看HDFS...

    Hadoop实战.pdf

    2. MapReduce:这是一种编程模型,用于大规模数据集的并行运算,包括映射(Map)和归约(Reduce)两个过程。映射过程将大数据集拆分成独立的小块数据进行处理,归约过程则将映射结果整合起来。MapReduce编程模型使得...

    connect.zip

    总结来说,"connect.zip"中的两个jar包是实现Kafka Connect与MySQL数据库高效数据交互的核心组件。理解它们的功能和工作原理,有助于我们在大数据环境中构建稳定可靠的数据流管道,实现数据的实时迁移和处理,提升...

Global site tag (gtag.js) - Google Analytics