用法:hadoop
job [GENERIC_OPTIONS] [-submit <job-file>] | [-status
<job-id>] | [-counter <job-id> <group-name>
<counter-name>] | [-kill <job-id>] | [-events <job-id>
<from-event-#> <#-of-events>] | [-history [all]
<jobOutputDir>] | [-list [all]] | [-kill-task <task-id>] |
[-fail-task
<task-id>]
命令选项
描述
-submit <job-file>
提交作业
-status
<job-id>
打印map和reduce完成百分比和所有计数器。
-counter <job-id> <group-name>
<counter-name> 打印计数器的值。
-kill
<job-id>
杀死指定作业。
-events <job-id> <from-event-#>
<#-of-events> 打印给定范围内jobtracker接收到的事件细节。
-history [all]
<jobOutputDir> -history <jobOutputDir>
打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如:成功的任务,做过的任务尝试等信息可以通过指定[all]选项查看。
-list
[all] -list all
显示所有作业。-list只显示将要完成的作业。
-kill-task
<task-id>
杀死任务。被杀死的任务不会不利于失败尝试。
-fail-task
<task-id>
使任务失败。被失败的任务会对失败尝试不利。
基本命令:
1、列出所有Hadoop Shell支持的命令
$ bin/hadoop fs -help
2、显示关于某个命令的详细信息
$ bin/hadoop fs -help command-name
3、递归地拷贝文件或目录
$ hadoop distcp
<srcurl> <desturl>
srcurl
源Url
desturl 目标Url
4、运行HDFS文件系统检查工具(fsck
tools)
用法:hadoop fsck [GENERIC_OPTIONS] <path> [-move | -delete |
-openforwrite] [-files [-blocks [-locations | -racks]]]
命令选项
描述
<path> 检查的起始目录。
-move
移动受损文件到/lost+found
-delete 删除受损文件。
-openforwrite
打印出写打开的文件。
-files 打印出正被检查的文件。
-blocks
打印出块信息报告。
-locations 打印出每个块的位置信息。
-racks
打印出data-node的网络拓扑结构
分享到:
相关推荐
本篇文章将深入探讨“远程调用执行Hadoop Map/Reduce”的概念、原理及其实现过程,同时结合标签“源码”和“工具”,我们将涉及到如何通过编程接口与Hadoop集群进行交互。 Hadoop MapReduce是一种编程模型,用于大...
它通过两个主要阶段实现:**Map阶段**和**Reduce阶段**。MapReduce的工作流程如下: 1. **Splitting**:输入数据被分成小块,每个块称为一个split。 2. **Mapping**:每个split被传递给映射函数,映射函数对输入数据...
job 命令用于和 Map Reduce 作业交互和命令。用法:hadoop job [GENERIC_OPTIONS] [-submit ] | [-status ] | [-counter <job-id> <group-name> ] | [-kill ] | [-events <job-id> <from-event-#> ] | [-history ...
- **任务调度**:根据资源可用性及优先级等因素,将作业分解成多个任务(Map和Reduce任务),并分配给合适的TaskTracker进行执行。 - **状态监控**:跟踪所有TaskTracker的状态,以及各个任务的执行情况,确保作业...
在Hadoop生态系统中,MapReduce是一种分布式计算框架,用于处理和生成大规模数据集。这个示例,"MR_HBase-Hadoop中的MapReduce使用示例,输入(DBInputFormat),输出(DBOutputFormat)",主要展示了如何利用MapReduce...
Hadoop MapReduce是一种分布式计算框架,它是Apache Hadoop项目的核心组件之一,主要用于处理和存储海量数据。这个示例将深入探讨MapReduce的工作原理、基本概念以及如何在Java中实现MapReduce程序。 MapReduce的...
它将计算任务分解为Map(映射)和Reduce(归约)两个阶段,并通过Shuffle操作在两个阶段之间进行数据传输。在Map阶段,数据被分成不同的块,由不同的Map任务并行处理。环形缓冲区、缓冲暂停、排序和溢写等都是Map...
3. **hue-plugins-0.9.jar**:Hue是Hadoop的一个Web界面,提供了与Hadoop生态系统交互的工具,这个插件可能是为了在Hue中运行或管理MapReduce作业。 4. **mockito-all-1.8.2.jar**:Mockito是一个Java单元测试框架...
在Hadoop生态系统中,提交一个MapReduce作业通常通过执行类似`bin/hadoop jar xxx.jar mainclass args`的命令来完成。这个过程看似简单,实际上涉及到了多个步骤和组件的交互。下面我们将深入分析这个过程,理解其...
Map阶段将任务分解,Reduce阶段对结果进行聚合。 3. YARN(Yet Another Resource Negotiator):资源管理系统,负责集群资源的调度和管理,使得不同应用可以共享集群资源。 除此之外,Hadoop生态系统还包括许多其他...
TaskTracker 是任务跟踪器,负责运行 Map Task 和 Reduce Task,与 JobTracker 交互,执行命令,并汇报任务状态。 6. Map 和 Reduce 任务: Map 任务负责解析每条数据记录,传递给用户编写的 map(),将 map() 输出...
理解Map和Reduce的概念,以及如何编写Mapper和Reducer类,是MapReduce编程的关键。你还需要学习如何使用Hadoop的API,如`FileSystem`类来与HDFS交互,以及`Job`类来提交和管理作业。 总的来说,虽然Hadoop在Windows...
2. **Hadoop命令行操作**:学习使用Hadoop的命令行工具,例如`hadoop fs`命令用于与HDFS交互,`hadoop jar`命令用于执行MapReduce程序。 3. **数据上传与下载**:在"Hadoop_demo"中,我们可能需要将数据文件上传到...
MapReduce是Hadoop用于大规模数据处理的编程模型,由“Map”阶段(数据分发和预处理)和“Reduce”阶段(聚合和总结数据)组成。 Hadoop生态系统的其他重要组件还包括: 1. **YARN(Yet Another Resource ...
此外,Common模块还包含了一套完整的配置框架,用于管理和加载Hadoop集群的配置信息,确保各个节点正确配置和协同工作。 接着,HDFS是Hadoop的核心存储系统,它设计的目标是高容错性、可扩展性和高吞吐量的数据访问...
在Map-Reduce作业提交的过程中,客户端会与ResourceManger交互,将作业分解为任务,并分配到各个Worker节点上的Container执行。 接着,我们深入到JobTracker(或ResourceManager)的工作流程。作业提交首先会创建一...
通过阅读源代码,我们可以了解Hadoop如何实现其核心功能,如HDFS的数据分布策略、NameNode和DataNode的交互机制,以及MapReduce的调度算法等。这对于开发自定义的Hadoop插件或优化现有系统非常有帮助。 总之,...