`
XMaster
  • 浏览: 37844 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop的DistCp

阅读更多
详细参见:http://hadoop.apache.org/docs/r0.19.0/distcp.html#cpver

DistCp(分布式复制)是一种hadoop提供的工具,用于大集群间大量数据复制。

基本的用法:
1.DistCp最常见的调用是一个集群之间的拷贝
bash$ hadoop distcp hdfs://nn1:8020/foo/bar \
                    hdfs://nn2:8020/bar/foo
【Note:】that DistCp expects absolute paths

2.也可以在命令行上指定多个源目录:
bash$ Hadoop distcp hdfs://nn1:8020/foo/a \
                    hdfs://nn1:8020/foo/b \
                    hdfs://nn2:8020/bar/foo

3.HDFS的版本之间的复制
对于复制集群为两个不同版本的Hadoop,通常会使用HftpFileSystem。这是一个只读的文件系统,所以DistCp必须运行在目标群。
hftp://<dfs.http.address>/<path> (the default dfs.http.address is amenode>:50070).
分享到:
评论

相关推荐

    hadoop使用distcp问题解决

    hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理

    Flink实现 Hadoop distcp

    Flink实现 Hadoop distcp

    hadoop distcp

    distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

    hadoop-distcp-2.6.0-sources.jar

    java运行依赖jar包

    hadoop中文乱码问题

    【Hadoop中文乱码问题详解】 在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储(HDFS)和分布式计算(MapReduce)的能力。然而,在处理包含中文字符的数据时,用户可能会遇到中文乱码的问题...

    nosql实验五-HBase数据迁移与数据备份&恢复.docx

    本实验主要介绍了 HBase 数据迁移与数据备份和恢复的方法,包括使用 Sqoop 将 MySQL 数据导入到 HBase、将文本文件批量导入 HBase、使用 Hadoop DistCp 实现 HBase 的冷备份和热备份。 一、使用 Sqoop 将 MySQL ...

    hadoop权威指南de数据集.

    The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...

    hadoop-distcp-2.6.0.jar

    distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...

    hadoop shell命令

    - **`hadoop distcp hdfs://src/hdfs://dest`**:从源HDFS复制数据到目标HDFS。 #### 4. **hadoop dfsadmin** 用于HDFS集群的管理,如报告、格式化和安全设置等。 - **`hadoop dfsadmin -report`**:显示HDFS集群...

    hadoop -1.2.1-jar(全)

    3. **hadoop-tools-1.2.1.jar**:这个组件包含了Hadoop的各种实用工具,如Hadoop分布式文件系统的命令行工具(如hadoop fs)、数据转换工具(如Hadoop Archive, Hadoop DistCp)以及其他的辅助工具。 4. **hadoop-...

    用于与Apache Hadoop的同步hadoop-client-modules.rar

    10. **Hadoop DistCp**:一个用于大规模数据复制和同步的工具,可以高效地在HDFS和其他文件系统之间移动数据。 通过`hadoop-client-modules.rar`,开发者可以访问这些模块,实现对Hadoop集群的访问和管理,进行数据...

    hadoop-3.1.4-src.zip

    - `hadoop-tools`:提供了一系列工具,如HDFS命令行工具、Hadoop DistCp(分布式复制)、GFS(Google File System)兼容接口等。 6. **构建与测试**: - `build.xml`:Ant构建脚本,用于编译、打包和测试源代码。...

    HBASE跨集群迁移总结---扎啤1

    在这种情况下,一种常见的方法是使用Hadoop的DistCp(Distributed Copy)工具。然而,值得注意的是,这种迁移方式需要停止源集群的服务,因此在实际操作前需要对业务影响进行全面评估。 迁移的第一步是在源集群上禁用...

    hadoop 无jar版 2.7.0

    标签“tools”可能指的是一系列Hadoop附带的实用工具,如hadoop fs(文件系统操作)、hadoop jar(执行jar文件中的MapReduce任务)、hadoop distcp(分布式复制)等。这些工具对于开发者和管理员在日常工作中管理和...

    hadoop命令手册

    用法:hadoop distcp &lt;srcurl&gt; 。其中,srcurl 是源 Url,desturl 是目标 Url。 #### fs fs 命令用于运行一个常规的文件系统客户端。用法:hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]。各种命令选项可以参考 ...

    大数据中Hadoop Shell介绍

    - `hadoop distcp`:用于在两个HDFS之间复制数据。 - `hadoop fsck /`:检查HDFS文件系统的完整性。 总之,Hadoop Shell及其相关的脚本为Hadoop的部署、管理和日常维护提供了强大的支持。熟练掌握这些工具的使用...

    hadoop命令大全.pdf

    - `hadoop distcp`:分布式复制,可以在HDFS集群之间复制大量数据。 - `hadoop fs`:执行文件系统命令,如查看目录、删除文件等。 - `hadoop job`:执行MapReduce作业相关操作。 5. Hadoop配置文件 Hadoop的...

    tencentyun#intlcloud-documents#Hadoop 文件系统与 COS 之间的数据迁移_intl_zh1

    简介Hadoop Distcp(Distributed copy)主要是用于 Hadoop 文件系统内部或之间进行大规模数据复制的工具,它基于 Map/Redu

    Hadoop命令手册

    - **用法**: `hadoop distcp &lt;srcurl&gt; &lt;desturl&gt;` - **选项**: - `&lt;srcurl&gt;`: 源URL。 - `&lt;desturl&gt;`: 目标URL。 ##### fs 提供了一种操作Hadoop文件系统的简便方法,可以进行文件和目录的操作,如创建、删除、...

    Hadoop 分布式部署配置及基准性能测试

    通过`hadoop fs -test -d /testdir`创建测试目录,然后运行`hadoop distcp /dev/null /testdir`填充数据。最后,使用`hadoop fs -du -s /testdir`和`hadoop fs -count /testdir`检查数据的大小和数量。 Tersort基准...

Global site tag (gtag.js) - Google Analytics