`
lookqlp
  • 浏览: 346881 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop集群数据迁移

阅读更多
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。
例如:hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

cdh如下异常:
Caused by: java.io.IOException: Check-sum mismatch between hftp://ip:50070/flume/CC/normal/2014-06-20/FlumeData.1403222404996.snappy and hdfs://ip:8020/flume/.distcp.tmp.attempt_1404355744480_0004_m_000015_2.
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:190)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:125)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:95)
    at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)
    ... 11 more
解决方法:
hdfs增加如此参数
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
</property>

另外若目标集群若配置了安全机制,例如kerberos,distcp运行失败,暂时解决办法是禁用安全机制,先将数据迁移。
分享到:
评论

相关推荐

    Hadoop数据迁移--从Oracle向Hadoop

    在执行Hadoop数据迁移时,Hadoop集群中的MapReduce作业会利用JDBC驱动与Oracle数据库建立连接,通过执行SQL查询来检索数据,并使用Hadoop的序列化机制将数据写入到HDFS。这样,Oracle中的数据就成功地迁移到了Hadoop...

    Hadoop数据迁移--从Oracle向Hadoop.zip

    - **性能优化**:考虑到Oracle和Hadoop的处理机制不同,可能需要对数据处理逻辑进行优化,比如减少不必要的数据传输,合理设置Hadoop集群的参数。 - **数据完整性**:确保在迁移过程中数据的完整性和一致性,避免...

    Hadoop数据迁移--从Hadoop向Oracle

    为了实现上述步骤,需要确保Hadoop集群已经安装并配置好了Oracle JDBC驱动,以便MapReduce作业能够通过JDBC连接到Oracle数据库。 在Hadoop到Oracle的数据迁移过程中,还需要考虑到数据的一致性、安全性、以及可能的...

    hadoop集群安装、配置、维护文档

    安装Hive客户端通常涉及下载Hive发行版,配置`hive-site.xml`以连接到Hadoop集群,设置Hive的元数据存储(如MySQL或Derby数据库),以及添加Hive到系统的PATH环境变量。 5. **迁移namenode节点.txt**: 名Node是...

    构建一个跨机房的Hadoop集群.pptx

    本文档将详细介绍如何构建跨机房的Hadoop集群,讨论了阿里巴巴离线数据处理现状、技术方案、跨机房集群的困难、NameNode的扩展性、跨机房网络限制、数据和计算如何跨机房分布等问题,并提供了相应的解决方案。...

    Hadoop数据迁移--从Hadoop向HBase载入数据

    HBase集群通常会与Hadoop集群设置在同一个集群中,这意味着HBase使用的分布式文件系统(HDFS)就是生成HFile文件的MapReduce任务所在的同一集群。这样设置的好处是减少了数据迁移过程中的网络传输,并且可以利用...

    大数据课程-Hadoop集群程序设计与开发-10.Sqoop数据迁移_lk_edit.pptx

    【大数据课程-Hadoop集群程序设计与开发-10.Sqoop数据迁移】是针对大数据领域的一门课程,主要讲解如何使用Sqoop工具进行数据在Hadoop集群与关系型数据库之间的迁移。Sqoop是一款由Apache开发的开源软件,专门用于...

    罗李:构建一个跨机房的Hadoop集群

    为了应对上述问题,阿里数据平台事业部在构建跨机房Hadoop集群时,采用了以下技术实现方案: - 采用了HDFS Federation方案,目的是拆分NameSpace,实现多NameNode,从而分散单点的压力,并借鉴了Facebook的成熟经验...

    基于Hadoop的数据仓库Hive学习指南.doc

    元数据存储了表和分区的定义,Hive服务器处理客户端请求,执行引擎则将HiveQL转换为MapReduce任务在Hadoop集群上执行。 6. **HiveQL操作**:HiveQL支持常见的数据操作,如创建表、加载数据、查询、聚合、分组、排序...

    hadoop集群通用wordcount测试程序

    "hadoop集群通用wordcount测试程序"是一个基于Hadoop实现的、不依赖特定平台的WordCount示例,它广泛应用于学习、研究以及性能基准测试。WordCount是Hadoop入门的经典案例,其主要任务是对文本中的单词进行计数。 ...

    vmware虚拟机下hadoop集群安装过程

    即使在较小规模的虚拟机集群上进行的实验,也能有效地应用到大型Hadoop集群中,只要保持版本一致,因为Hadoop的主要特性之一就是能适应数据量的变化。 在VMware虚拟机中搭建Hadoop集群,首先需要准备多台虚拟机,...

    贝壳hadoop集群演进.pdf

    【贝壳Hadoop集群演进】是贝壳找房在其科技驱动的新居住服务平台发展中,对大数据处理基础设施的重要探索。贝壳找房自成立以来,经历了从二手房、新房、租赁到装修等多个业务领域的扩展,逐步发展成为一个全国性的...

    大数据集群迁移方案

    1. **同版本集群迁移**:如果新旧集群版本相同,则可以直接使用`hadoop distcp`命令进行数据复制。例如,从旧集群`namenodeip:9000`复制数据到新集群的命令如下: ```bash hadoop distcp hdfs://namenodeip:9000/...

    hadoop迁移数据应用实例详解

    同时,由于Hadoop集群可能涉及多个服务(如HBase、Hive等),迁移时需要确保这些服务的配置也相应地更新到新环境中。 总之,Hadoop数据迁移是一个涉及硬件调整、软件配置、数据复制和系统验证的过程。正确执行每一...

    基于Kubernetes平台部署Hadoop实践.docx

    因此,Hadoop在Kubernetes上的部署需要深入了解Hadoop集群工作原理和Kubernetes的架构原理。 第一,Hadoop集群重度依赖DNS机制,一些组件还使用了反向域名解析,以确定集群中的节点身份。这对Hadoop在Kubernetes上...

    大数据与云计算培训学习资料 Hadoop集群_第1期_CentOS安装配置 共26页.pdf

    【大数据与云计算培训学习资料 Hadoop集群_第1期_CentOS安装配置 共26页.pdf】这份学习资料主要涵盖了大数据技术中的Hadoop集群在CentOS操作系统上的安装与配置。CentOS是一款基于Red Hat Enterprise Linux的开源...

    大数据-数据迁移-hive、hbase、kudu迁移

    本文档详细记录了一次从自建Hadoop集群到华为云MRS(Managed Service for Big Data)的大规模数据迁移项目,涉及到了Hive、Kudu和HBase这三种不同类型的数据存储系统。以下是针对这些系统的迁移策略、流程和解决方案...

    zookeeper数据迁移从单例到集群linux命令过程

    ### Zookeeper 数据迁移从单例到集群 Linux 命令过程详解 #### 一、概述 Zookeeper 是一个分布式协调服务框架,它为分布式应用程序提供了一套完整的协调服务功能,如配置维护、命名服务、集群管理等。在实际生产...

Global site tag (gtag.js) - Google Analytics