CDH4中使用distcp,目前还木有成功,把异常信息记录下
1) Connection Refused
解决:http://wiki.apache.org/hadoop/ConnectionRefused
2)Protocol message end-group tag did not match expected tag
未解决,卡在这了。。。哪位大牛帮助解决下?
折腾了一天,决定搭建两个同版本集群。记录如下:
1)用官方提供的方法执行
$ hadoop distcp hdfs://server86/block/00006DFF hdfs://server93/block/dest
异常:
java.net.ConnectException: Call From server93/*.*.*.93 to server86:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
Connection Refused,查看下8020并没有被占用,可能是端口的问题。试下别的端口(反正不太懂,瞎搞呗。)
2)$hadoop distcp hdfs://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
异常:
java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "server93/*.*.*.93"; destination host is: "ecmserver":50070;
这。。。再改!
3)$ hadoop distcp hftp://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
日志:
13/08/23 11:03:17 INFO mapreduce.Job: map 0% reduce 0%
13/08/23 11:03:29 INFO mapreduce.Job: map 100% reduce 0%
13/08/23 11:04:12 INFO mapreduce.Job: Job job_1377225445725_0001 completed successfully
成功了!兴奋暴走中。。。
【注:】93中block目录必须存在,复制时如不存在会报错地。复制完成后,93上的dest就是86上的00006DFF
问题来了,hftp:// 是跨版本集群之间用的协议,那我这两集群版本相同,那应该可以用hdfs:// 啊。试下
4)$ hadoop distcp hdfs://server86:49000/block/00006DFF hdfs://server93:49000/block/00006DFF
日志:
13/08/23 11:09:36 INFO mapreduce.Job: map 0% reduce 0%
13/08/23 11:09:46 INFO mapreduce.Job: map 100% reduce 0%
13/08/23 11:10:40 INFO mapreduce.Job: Job job_1377225445725_0002 completed successfully
成功了!!兴奋暴走中。。。。。。
5)试完了具体文件,再试下复制目录吧。
$ hadoop distcp hdfs://server86:49000/block/ hdfs://server93:49000/block/
日志不打了。也成功了。86上block目录下所有文件全部被复制到93的block/block下。也就是说把86上的block目录也一并拿过来了。
6)异常情况未测试,待定。。。
【总结:】
复制单个文件3.95G大小 : 1分12秒
复制目录(目录下3个3.95G文件):3分37秒
平均:4M/s
分享到:
相关推荐
hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理
Flink实现 Hadoop distcp
distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
java运行依赖jar包
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...
第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大...
第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储(HDFS)和分布式计算(MapReduce)的能力。然而,在处理包含中文字符的数据时,用户可能会遇到中文乱码的问题。这个问题通常出现在数据读取...
本书《Hadoop海量数据处理》是一本专注于Hadoop技术的专业技术书籍,旨在向读者介绍Hadoop生态系统的关键组件、核心概念以及在处理海量数据时的应用方法。全书分为基础篇、应用篇和总结篇三个部分,全面涵盖了Hadoop...
《Hadoop大数据处理实战》是康开锋撰写的一本深入探讨Hadoop技术的书籍,旨在帮助读者理解并掌握Hadoop在大数据处理中的实际应用。这本书的内容涵盖了Hadoop生态系统的核心组件,以及如何利用这些组件解决实际问题。...
Hadoop是一款大数据处理框架,但是在实际使用过程中,可能会遇到各种异常情况。本文将对Hadoop常见的异常进行总结和分析,并提供相应的解决方案。 一、Cannot replicate to node 0, instead of 1 在使用Hadoop进行...
《Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件》是一个关于Hadoop在大数据处理领域的核心课程资源。这个压缩包包含了丰富的教学资料,帮助学习者深入理解和掌握Hadoop生态系统的核心概念和技术。...
由于给定的文件内容部分涉及到PDF电子书的提供信息,并非技术知识点,故这部分内容将被忽略,重点将放在标题与描述所提到的Hadoop海量数据处理技术上。 Hadoop是一个由Apache软件基金会开发的开源框架,旨在支持...
本实验主要介绍了 HBase 数据迁移与数据备份和恢复的方法,包括使用 Sqoop 将 MySQL 数据导入到 HBase、将文本文件批量导入 HBase、使用 Hadoop DistCp 实现 HBase 的冷备份和热备份。 一、使用 Sqoop 将 MySQL ...
《Hadoop海量数据处理》是关于大数据领域的重要参考资料,它主要聚焦在利用Hadoop框架进行大规模数据处理的技术和实践。Hadoop是Apache软件基金会开发的一个开源项目,旨在提供分布式、容错性强的系统,用于存储和...
Hadoop海量文本处理2
2. **数据转换**:利用Shell的文本处理功能,对数据进行清洗、格式转换、异常值处理等操作,如使用awk处理CSV文件,或使用sed替换特定字符串。 3. **数据加载**:转换后的数据可以被写入新的HDFS目录,或者作为...
根据提供的文件信息,我们可以聚焦于标题和描述中的关键信息来生成相关的IT知识点,尤其是关于Hadoop海量数据处理的技术详解。 ### Hadoop海量数据处理:技术详解与项目实战 #### Hadoop简介 Hadoop是一个能够对...
The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...