1. 环境描述
两个集群:rock 和 stone
rock无kerberos权限认证,stone有要求认证。
1. 从rock复制到stone,采用hdfs
Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/
运行在rock端,即源端
问题:报版本不对的问题(的确该如此)
猜测:版本要是一致,也能正常运行
2. 从rock复制到stone,采用hftp
hadoop distcp -i hftp://rock-nn:50070/user/cxz/input hdfs://stone-nn:8020/user/cxz/
运行于stone端,即目的端;
问题:no problem, it's ok!
3. 从stone复制到rock,采用hftp
hadoop distcp -i hftp://stone-nn:50070/user/cxz/input hdfs://rock-nn:8020/user/cxz/
运行于rock端,即目的端
问题:kerberos权限认证失败
在第2步中遇到一个问题:
org.apache.hadoop.security.AccessControlException: Permission denied: user=[user], access=WRITE, inode="mapred":root:supergroup:rwxr-xr-x
解决方案:将如下配置加入到mapred-site.xml
<configuration> <property> <name>mapreduce.jobtracker.staging.root.dir</name> <value>/user</value> </property> </configuration>
重启mapreduce:stop-mapred.sh && start-mapred.sh
相关推荐
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...
- 对于大规模数据迁移,需要利用像FastCopy这样高效的数据迁移工具,虽然它比distcp更快且不需要物理拷贝,但仍然需要注意迁移过程的资源消耗和时间成本。 - 在保证用户透明度方面,可能需要实现一些高级的调度和...
这可能包括实时数据复制,例如使用Hadoop的Replication Factor特性,或者采用更复杂的工具如DistCp或Syncplicity。 3. **NameNode高可用**:Hadoop的NameNode是元数据管理的关键节点,容易成为单点故障。通过设置...
3. **hadoop-tools-1.2.1.jar**:这个组件包含了Hadoop的各种实用工具,如Hadoop分布式文件系统的命令行工具(如hadoop fs)、数据转换工具(如Hadoop Archive, Hadoop DistCp)以及其他的辅助工具。 4. **hadoop-...
这个压缩包包含了运行Hadoop集群所必需的一些基础工具和库文件,对于理解和使用Hadoop至关重要。 Hadoop Common是Hadoop生态系统的基础,它为所有其他Hadoop模块提供了通用服务,包括文件系统操作、网络通信、安全...
“工具”标签可能暗示文章还涵盖了使用Hadoop进行数据备份和恢复的工具,如Hadoop备份工具DistCP,它用于在Hadoop集群之间或集群与外部存储系统间高效地复制数据。这些工具对于实施在线备份策略至关重要,因为它们...
`hadoop-client-modules.rar`这个压缩包很可能是包含了与Apache Hadoop客户端相关的模块,这些模块允许用户在不部署完整Hadoop集群的情况下与Hadoop生态系统进行交互。 Hadoop客户端模块通常包含以下组件: 1. **...
5. **Hadoop开发环境**:设置Hadoop开发环境包括安装Java环境、配置Hadoop环境变量、搭建伪分布或完全分布模式的Hadoop集群。熟悉命令行操作和使用Hadoop提供的API进行编程是必备技能。 6. **Hadoop优化**:包括...
此外,Hadoop还支持YARN(Yet Another Resource Negotiator),这是一个资源管理系统,允许在Hadoop集群上运行多种计算框架,如Spark和Tez。 总结来说,Hadoop的源码和jar包是理解其工作原理和进行开发的基础。通过...
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统...
这个过程在Hadoop集群中分布式执行,能够实现对海量数据的高效率处理。 接着,Hadoop的分布式文件系统(HDFS)是Hadoop生态系统中的重要组成部分。HDFS的设计理念是存储大文件,并能应对硬件故障。HDFS的基本单元是...
这些工具对于开发者和管理员在日常工作中管理和操作Hadoop集群至关重要。 在压缩包子文件的文件名称列表中只提到了“bin”。这通常包含Hadoop的可执行脚本和二进制文件,例如启动和停止Hadoop服务的脚本、配置...
在IT领域,尤其是大数据处理与分布式计算环境中,Hadoop无疑占据着举足轻重的地位。作为一款开源软件框架,Hadoop被...通过上述命令的灵活运用,可以极大地提升数据处理效率,优化资源分配,确保Hadoop集群的稳定运行。
5. **hadoop-distcp**: 提供一个命令行工具用于高效地复制大量文件,利用了Hadoop的并行处理能力。 6. **hadoop-tools**: 包含了一系列Hadoop相关的工具,如Hadoop FsShell、HDFS Admin Tools等。 当你解压hadoop-...
Hadoop是Apache软件基金会开发的一个开源...这对于优化Hadoop集群的性能、开发新的数据处理应用程序或者解决特定场景下的问题至关重要。同时,源代码也为社区贡献者提供了修改和扩展Hadoop的机会,推动项目不断进步。
2. 数据迁移:将现有的数据迁移到HDFS,这可能需要使用工具如DistCp或者Hadoop的自带工具。 3. 开发和部署MapReduce程序:根据业务需求编写MapReduce代码,然后将其部署到集群上运行。 4. 监控和维护:对Hadoop...
- **distcp**:分布式拷贝工具,可以跨Hadoop集群或从本地文件系统到Hadoop集群进行批量文件拷贝。 - **fs**:文件系统客户端,提供一系列操作HDFS的命令,如ls、mkdir、put、get等,参考HDFS Shell指南获取更多...
数据备份是任何系统的重要环节,Hadoop备份可能包括数据复制策略、HDFS的快照功能、以及使用工具如DistCp进行数据迁移或备份的方法。 五、Hadoop命令 这部分可能会详细介绍Hadoop相关的命令行工具,如HDFS的`hadoop...