`
liyonghui160com
  • 浏览: 771674 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop集群工具distcp

阅读更多

 

 

1. 环境描述

两个集群:rock 和 stone

rock无kerberos权限认证,stone有要求认证。

1. 从rock复制到stone,采用hdfs

Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/
运行在rock端,即源端
问题:报版本不对的问题(的确该如此)
猜测:版本要是一致,也能正常运行

2. 从rock复制到stone,采用hftp
hadoop distcp -i hftp://rock-nn:50070/user/cxz/input hdfs://stone-nn:8020/user/cxz/
运行于stone端,即目的端;
问题:no problem, it's ok!

3. 从stone复制到rock,采用hftp
hadoop distcp -i hftp://stone-nn:50070/user/cxz/input hdfs://rock-nn:8020/user/cxz/
运行于rock端,即目的端
问题:kerberos权限认证失败

在第2步中遇到一个问题:

org.apache.hadoop.security.AccessControlException: Permission denied: user=[user], access=WRITE, inode="mapred":root:supergroup:rwxr-xr-x

解决方案:将如下配置加入到mapred-site.xml

 

<configuration>
    <property>
        <name>mapreduce.jobtracker.staging.root.dir</name>
        <value>/user</value>
    </property>
</configuration>

 

 

重启mapreduce:stop-mapred.sh && start-mapred.sh

 

 

分享到:
评论

相关推荐

    hadoop-distcp-2.6.0.jar

    distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...

    罗李:构建一个跨机房的Hadoop集群

    - 对于大规模数据迁移,需要利用像FastCopy这样高效的数据迁移工具,虽然它比distcp更快且不需要物理拷贝,但仍然需要注意迁移过程的资源消耗和时间成本。 - 在保证用户透明度方面,可能需要实现一些高级的调度和...

    构建一个跨机房的Hadoop集群.rar

    这可能包括实时数据复制,例如使用Hadoop的Replication Factor特性,或者采用更复杂的工具如DistCp或Syncplicity。 3. **NameNode高可用**:Hadoop的NameNode是元数据管理的关键节点,容易成为单点故障。通过设置...

    hadoop -1.2.1-jar(全)

    3. **hadoop-tools-1.2.1.jar**:这个组件包含了Hadoop的各种实用工具,如Hadoop分布式文件系统的命令行工具(如hadoop fs)、数据转换工具(如Hadoop Archive, Hadoop DistCp)以及其他的辅助工具。 4. **hadoop-...

    hadoop-common-2.7.1-bin-master.zip

    这个压缩包包含了运行Hadoop集群所必需的一些基础工具和库文件,对于理解和使用Hadoop至关重要。 Hadoop Common是Hadoop生态系统的基础,它为所有其他Hadoop模块提供了通用服务,包括文件系统操作、网络通信、安全...

    \"Hadoop在网盘和在线备份的应用与挑战\"分享总结

    “工具”标签可能暗示文章还涵盖了使用Hadoop进行数据备份和恢复的工具,如Hadoop备份工具DistCP,它用于在Hadoop集群之间或集群与外部存储系统间高效地复制数据。这些工具对于实施在线备份策略至关重要,因为它们...

    用于与Apache Hadoop的同步hadoop-client-modules.rar

    `hadoop-client-modules.rar`这个压缩包很可能是包含了与Apache Hadoop客户端相关的模块,这些模块允许用户在不部署完整Hadoop集群的情况下与Hadoop生态系统进行交互。 Hadoop客户端模块通常包含以下组件: 1. **...

    hadoop开发者

    5. **Hadoop开发环境**:设置Hadoop开发环境包括安装Java环境、配置Hadoop环境变量、搭建伪分布或完全分布模式的Hadoop集群。熟悉命令行操作和使用Hadoop提供的API进行编程是必备技能。 6. **Hadoop优化**:包括...

    hadoop重要源码包和jar包

    此外,Hadoop还支持YARN(Yet Another Resource Negotiator),这是一个资源管理系统,允许在Hadoop集群上运行多种计算框架,如Spark和Tez。 总结来说,Hadoop的源码和jar包是理解其工作原理和进行开发的基础。通过...

    Hadoop权威指南 第二版(中文版)

     本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop  数据!数据!  数据存储与分析  与其他系统相比  关系型数据库管理系统...

    hadoop_the_definitive_guide_3nd_edition.pdf

    这个过程在Hadoop集群中分布式执行,能够实现对海量数据的高效率处理。 接着,Hadoop的分布式文件系统(HDFS)是Hadoop生态系统中的重要组成部分。HDFS的设计理念是存储大文件,并能应对硬件故障。HDFS的基本单元是...

    hadoop 无jar版 2.7.0

    这些工具对于开发者和管理员在日常工作中管理和操作Hadoop集群至关重要。 在压缩包子文件的文件名称列表中只提到了“bin”。这通常包含Hadoop的可执行脚本和二进制文件,例如启动和停止Hadoop服务的脚本、配置...

    hadoop shell命令

    在IT领域,尤其是大数据处理与分布式计算环境中,Hadoop无疑占据着举足轻重的地位。作为一款开源软件框架,Hadoop被...通过上述命令的灵活运用,可以极大地提升数据处理效率,优化资源分配,确保Hadoop集群的稳定运行。

    hadoop-2.7.6src.tar.gz的压缩包

    Hadoop是Apache软件基金会开发的一个开源...这对于优化Hadoop集群的性能、开发新的数据处理应用程序或者解决特定场景下的问题至关重要。同时,源代码也为社区贡献者提供了修改和扩展Hadoop的机会,推动项目不断进步。

    精品pdf使用Hadoop构建云计算平台.zip

    2. 数据迁移:将现有的数据迁移到HDFS,这可能需要使用工具如DistCp或者Hadoop的自带工具。 3. 开发和部署MapReduce程序:根据业务需求编写MapReduce代码,然后将其部署到集群上运行。 4. 监控和维护:对Hadoop...

    hadoop-3.1.3.tar.gz编译后的源码包

    5. **hadoop-distcp**: 提供一个命令行工具用于高效地复制大量文件,利用了Hadoop的并行处理能力。 6. **hadoop-tools**: 包含了一系列Hadoop相关的工具,如Hadoop FsShell、HDFS Admin Tools等。 当你解压hadoop-...

    Hadoop相关资料

    数据备份是任何系统的重要环节,Hadoop备份可能包括数据复制策略、HDFS的快照功能、以及使用工具如DistCp进行数据迁移或备份的方法。 五、Hadoop命令 这部分可能会详细介绍Hadoop相关的命令行工具,如HDFS的`hadoop...

    hadoop2.7.2源码包

    5. **Hadoop命令行工具**:源码中包含了各种命令行工具,如`fs`用于文件系统操作,`distcp`用于分布式复制,`jar`用于运行MapReduce作业等,这些工具位于`hadoop-tools`目录下。 6. **Hadoop生态组件**:Hadoop生态...

Global site tag (gtag.js) - Google Analytics