HBase迁移数据方案1（两个集群不能通信） - 加俊 - ITeye博客

`

iammonster

浏览: 1796905 次
性别:
来自: 北京

最近访客更多访客>>

amwfngt

yuanyuan7891

sagadan

JianCaesar

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

奔跑的小牛：例子都打不开
如何使用JVisualVM进行性能分析
蜗牛coder：好东西[color=blue][/color]
Lucene学习：全文检索的基本原理
lovesunweina：不在haoop中是在linux系统中，映射IP的时候，不能使用 ...
java.io.IOException: Incomplete HDFS URI, no host
evening_xxxy：挺好的, 谢谢分享
如何利用 JConsole观察分析Java程序的运行，进行排错调优
di1984HIT：学习了~~~
ant使用ssh和linux交互如：上传文件

HBase迁移数据方案1（两个集群不能通信）

博客分类：

HBase

HBase Hadoop jruby

阅读更多

前一篇文章里面介绍了两个可以直接通信的集群之间很容易拷贝数据从而迁移HBase数据。

但是如果两个集群在不同的网络，没法通信呢？

今天测试了一个方案：

把某个表(table1)从集群1迁移到集群2（两个集群互相看不见），步骤如下

1、拷贝集群1的表文件到本地磁盘 :

/app/cloud/hadoop/bin/hadoop fs -copyToLocal /hbase/table1 /data0/hbase-backup/table1

2、对于文件操作，很简单吧，随便你怎么去拷贝来拷贝去

3、如果集群2中也有对应的表文件，那么删除掉，然后拷贝

/app/cloud/hadoop/bin/hadoop fs -rmr /hbase/table1
/app/cloud/hadoop/bin/hadoop fs -copyFromLocal /data0/hbase-backup/table1 /hbase/table1

4、重置该表在.META.表中的分区信息

bin/hbase org.jruby.Main bin/add_table.rb /hbase/table1

另外：

1、如果表的数据量过大呢？那么按照该表在HDFS中的文件夹数据，分批拷贝。

2、如果两个集群可以互相通信呢？那么更爽了，直接使用distcp对拷，是并行的。

分享到：

HBase RegionServer 退出 ( ZooKeeper ses ... | HBase如何迁移数据

2011-03-30 18:23
浏览 3907
评论(0)
论坛回复 / 浏览 (0 / 3279)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于集群的HBase安装和配置: - **Hadoop集群**：假设已有一个由三台机器组成的Hadoop集群，其中一台为主节点(NameNode)，其余两台为从节点(DataNode)。 - **网络配置**：确保各节点可以通过主机名进行互访。通过编辑`/etc/hosts`文件添加主机名...

hbase原理和设计: 1. **客户端(Client)**：使用HBase的RPC机制与HMaster和HRegionServer进行通信，实现数据读写等操作。 2. **ZooKeeper**：作为HMaster选举和服务状态监控的核心组件，同时也是Region寻址的入口。 3. **HMaster**：...

HBase技术介绍简介 NOSQL数据库入门: 为了管理这些Region，HBase使用了两个特殊的表： - **-ROOT-**：只包含一个Region，用于存储.META.表的Region位置信息。 - **.META.**：记录了用户自定义表的所有Region的信息。通过这种方式，客户端在查询数据时...

Hbase安装指南: Table**：这两个特殊表存储了HBase表的元数据信息。-ROOT-表包含.META.表的Region位置信息，而.META.表则记录所有用户表的Region信息。客户端在访问数据前，需要通过Zookeeper找到-ROOT-，再找到.META.，最后才能...

HBase2.0集群部署(Ha): 随着数据量的增长，我们可以随时向集群中添加新的RegionServer，HBase会自动将负载均衡到新加入的节点上，无需停机或手动迁移数据。在生产环境中，有几点需要注意： 1. 确保硬件资源充足：内存、CPU和磁盘IO是影响...

HBase performance and robustness enhancement,(Zhihong Yu).pdf: 除了上述两个关键改进外，HBase还在连接共享、减少竞争、离线模式构建.META.表、即时模式更新、循环复制支持、非堆缓存等方面进行了优化，全面提升系统的性能和健壮性。 - **连接共享**（HBASE-3777）：优化了...

HortonWorks-HBase的企业级应用-Ted-Yu: 离线快照适合于在数据更新不频繁时使用，适用于定期的备份和数据迁移。全局一致性快照则是指跨越所有服务器的一致性快照，它使用了两阶段提交协议（two-phase commit），并通过基于屏障的过程（barrier-based ...

CDH安装指导: CDH（Cloudera Distribution Including Apache Hadoop）是由Cloudera公司提供的一个开源大数据平台，它包含了多个Apache Hadoop生态系统的组件，如Hadoop、Hive、HBase等，为企业提供了一个统一的数据管理解决方案。...

Hadoop学习文档.pdf: 1. 结构化数据与非结构化数据：介绍数据的类型，强调云计算需要处理的不仅仅是结构化数据，还包括大量的非结构化数据。 2. 云计算技术：讲解云计算的基础知识，包括云服务的模式（IaaS、PaaS、SaaS）和服务类型...

NoSQL数据笔谈: 由Eric Brewer提出，该理论认为在分布式系统中，不可能同时满足一致性（Consistency）、可用性（Availability）和分区容忍性（Partition tolerance）这三个需求，最多只能同时满足其中的两个。 - **一致性...

Hadoop最新的研究重点和进展.zip: 5. **跨集群数据迁移**：Hadoop 3.x 的联邦HDFS允许在不同集群之间迁移数据，增强了集群间的协同工作能力。三、Hadoop 生态系统的发展 1. **Spark on YARN**：随着Apache Spark的兴起，Hadoop 生态系统中的计算...

大数据课程体系.docx: 涵盖了Java基础、Linux基础、Hadoop生态、分布式数据库HBase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架、Zookeeper分布式协调服务、Netty异步IO通信框架、Kafka消息队列、Storm实时计算框架等重要主题...

Hadoop期末整理.pdf: MapReduce将计算过程分为Map和Reduce两个阶段，Map阶段将输入数据切分成键值对，然后转换为中间结果；Reduce阶段则对中间结果进行聚合，生成最终输出。 Hadoop还包含其他相关技术，如HBase，一个分布式的、列式存储...

Hadoop原理和架构.pdf: MapReduce是Hadoop的计算引擎，它将大规模数据处理任务划分为两个阶段：Map和Reduce。Map阶段将原始数据拆分成键值对，然后在各个节点上并行处理；Reduce阶段则将Map的结果进行聚合，生成最终输出。这一设计极大地...

Hadoop基础面试题（附答案）: - **易于编程**：提供了简单的编程模型，开发者只需要实现Map和Reduce两个函数即可。 - **良好的扩展性**：能够无缝扩展到成千上万台机器组成的集群。 - **高容错性**：自动处理任务失败的情况，确保数据的完整性和...

《大数据平台搭建与配置管理》期末考试卷及答案.docx: 它包括两个阶段：Map阶段负责将输入数据划分为多个小部分进行处理；Reduce阶段则负责汇总Map阶段的结果。 9. **查看HDFS系统运行状态的Shell命令** - **知识点**: 使用`hdfs dfsadmin -report`命令可以查看HDFS...

connect.zip: 总结来说，"connect.zip"中的两个jar包是实现Kafka Connect与MySQL数据库高效数据交互的核心组件。理解它们的功能和工作原理，有助于我们在大数据环境中构建稳定可靠的数据流管道，实现数据的实时迁移和处理，提升...

hive-1.1.0-cdh5.14.2.tar.gz和mysql-connector-java-5.1.38.jar连接包: 3. **CDH**: Cloudera Data Hub（CDH）是一个预打包的Hadoop发行版，包含多个开源项目，如Hadoop、Hive、Pig、HBase等，提供了一站式的解决方案，简化了大数据集群的部署和管理。 4. **MySQL元数据存储**: 在Hive中...

Global site tag (gtag.js) - Google Analytics