`
XMaster
  • 浏览: 37834 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop的DistCp异常处理

阅读更多
CDH4中使用distcp,目前还木有成功,把异常信息记录下

1) Connection Refused
        解决:http://wiki.apache.org/hadoop/ConnectionRefused
2)Protocol message end-group tag did not match expected tag
        未解决,卡在这了。。。哪位大牛帮助解决下?

折腾了一天,决定搭建两个同版本集群。记录如下:
1)用官方提供的方法执行
$ hadoop distcp hdfs://server86/block/00006DFF hdfs://server93/block/dest
        异常:
java.net.ConnectException: Call From server93/*.*.*.93 to server86:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

        Connection Refused,查看下8020并没有被占用,可能是端口的问题。试下别的端口(反正不太懂,瞎搞呗。)
2)$hadoop distcp hdfs://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
        异常:
java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "server93/*.*.*.93"; destination host is: "ecmserver":50070;
        这。。。再改!

3)$ hadoop distcp hftp://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
        日志:
13/08/23 11:03:17 INFO mapreduce.Job:  map 0% reduce 0%
13/08/23 11:03:29 INFO mapreduce.Job:  map 100% reduce 0%
13/08/23 11:04:12 INFO mapreduce.Job: Job job_1377225445725_0001 completed successfully
        成功了!兴奋暴走中。。。
        【注:】93中block目录必须存在,复制时如不存在会报错地。复制完成后,93上的dest就是86上的00006DFF
        问题来了,hftp:// 是跨版本集群之间用的协议,那我这两集群版本相同,那应该可以用hdfs:// 啊。试下

4)$ hadoop distcp hdfs://server86:49000/block/00006DFF hdfs://server93:49000/block/00006DFF
        日志:
13/08/23 11:09:36 INFO mapreduce.Job:  map 0% reduce 0%
13/08/23 11:09:46 INFO mapreduce.Job:  map 100% reduce 0%
13/08/23 11:10:40 INFO mapreduce.Job: Job job_1377225445725_0002 completed successfully
        成功了!!兴奋暴走中。。。。。。

5)试完了具体文件,再试下复制目录吧。
$ hadoop distcp hdfs://server86:49000/block/ hdfs://server93:49000/block/
        日志不打了。也成功了。86上block目录下所有文件全部被复制到93的block/block下。也就是说把86上的block目录也一并拿过来了。

6)异常情况未测试,待定。。。

【总结:】
        复制单个文件3.95G大小 : 1分12秒
        复制目录(目录下3个3.95G文件):3分37秒
        平均:4M/s
分享到:
评论
3 楼 XMaster 2017-10-30  
java小小菜 写道
我发现了和你这个一模一样的帖子,不知道哪一个才是作者https://www.iyunv.com/thread-310185-1-1.html

看下时间就知道谁是作者喽,cp很不负责啊,也不写上引用自我处,也给我拉拉流量
2 楼 java小小菜 2017-09-26  
我发现了和你这个一模一样的帖子,不知道哪一个才是作者https://www.iyunv.com/thread-310185-1-1.html
1 楼 di1984HIT 2014-08-18  
写的很好啊~

相关推荐

    hadoop使用distcp问题解决

    hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理

    Flink实现 Hadoop distcp

    Flink实现 Hadoop distcp

    hadoop distcp

    distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

    hadoop-distcp-2.6.0-sources.jar

    java运行依赖jar包

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...

    hadoop-distcp-2.6.0.jar

    distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...

    第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf

    第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大...

    hadoop中文乱码问题

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储(HDFS)和分布式计算(MapReduce)的能力。然而,在处理包含中文字符的数据时,用户可能会遇到中文乱码的问题。这个问题通常出现在数据读取...

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...

    《Hadoop海量数据处理》高清完整PDF版

    本书《Hadoop海量数据处理》是一本专注于Hadoop技术的专业技术书籍,旨在向读者介绍Hadoop生态系统的关键组件、核心概念以及在处理海量数据时的应用方法。全书分为基础篇、应用篇和总结篇三个部分,全面涵盖了Hadoop...

    4703031《Hadoop大数据处理实战》(康开锋)423-1资源包.rar

    《Hadoop大数据处理实战》是康开锋撰写的一本深入探讨Hadoop技术的书籍,旨在帮助读者理解并掌握Hadoop在大数据处理中的实际应用。这本书的内容涵盖了Hadoop生态系统的核心组件,以及如何利用这些组件解决实际问题。...

    Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件.rar

    《Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件》是一个关于Hadoop在大数据处理领域的核心课程资源。这个压缩包包含了丰富的教学资料,帮助学习者深入理解和掌握Hadoop生态系统的核心概念和技术。...

    hadoop海量数据处理详解与项目实战

    由于给定的文件内容部分涉及到PDF电子书的提供信息,并非技术知识点,故这部分内容将被忽略,重点将放在标题与描述所提到的Hadoop海量数据处理技术上。 Hadoop是一个由Apache软件基金会开发的开源框架,旨在支持...

    nosql实验五-HBase数据迁移与数据备份&恢复.docx

    本实验主要介绍了 HBase 数据迁移与数据备份和恢复的方法,包括使用 Sqoop 将 MySQL 数据导入到 HBase、将文本文件批量导入 HBase、使用 Hadoop DistCp 实现 HBase 的冷备份和热备份。 一、使用 Sqoop 将 MySQL ...

    hadoop海量数据处理.pdf

    《Hadoop海量数据处理》是关于大数据领域的重要参考资料,它主要聚焦在利用Hadoop框架进行大规模数据处理的技术和实践。Hadoop是Apache软件基金会开发的一个开源项目,旨在提供分布式、容错性强的系统,用于存储和...

    Hadoop海量文本处理2

    Hadoop海量文本处理2

    基于Hadoop的ETL处理Shell架构

    2. **数据转换**:利用Shell的文本处理功能,对数据进行清洗、格式转换、异常值处理等操作,如使用awk处理CSV文件,或使用sed替换特定字符串。 3. **数据加载**:转换后的数据可以被写入新的HDFS目录,或者作为...

    Hadoop海量数据处理:技术详解与项目实战 pdf

    根据提供的文件信息,我们可以聚焦于标题和描述中的关键信息来生成相关的IT知识点,尤其是关于Hadoop海量数据处理的技术详解。 ### Hadoop海量数据处理:技术详解与项目实战 #### Hadoop简介 Hadoop是一个能够对...

    hadoop权威指南de数据集.

    The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...

Global site tag (gtag.js) - Google Analytics