每次配置job的时候,最后一步总是
System.exit(job.waitForCompletion(true) ? 0 : 1);
进入waitForCompletion方法
public boolean waitForCompletion(boolean verbose
) throws IOException, InterruptedException,
ClassNotFoundException {
if (state == JobState.DEFINE) {
submit();
}
if (verbose) {
jobClient.monitorAndPrintJob(conf, info);//设置参数是否打印执行过程
} else {
info.waitForCompletion();
}
return isSuccessful();
}
submit()方法是根据你设置的job属性来执行job,以下是submit()方法:
public void submit() throws IOException, InterruptedException,
ClassNotFoundException {
ensureState(JobState.DEFINE);//确认job开始执行
setUseNewAPI();
// 连接到jobTrack并且提交job
connect();
info = jobClient.submitJobInternal(conf);
super.setJobID(info.getID());
state = JobState.RUNNING;
}
在connect()方法中实例化了jobClient,然后调用jobClient.submitJobInternal 提交job
分享到:
相关推荐
hadoop0.23,绿色包,免安装!
这个源码包是针对这个特定版本的,包含了所有相关的Java源代码,使得开发者可以深入理解Hadoop的工作原理,进行定制化开发或者调试。 Hadoop主要由两个主要组件构成:Hadoop Distributed File System (HDFS)和...
Hadoop 2.5.2源码分析 Hadoop是一个开源框架,主要用于处理和存储大量数据,它由Apache软件基金会开发并维护。Hadoop 2.5.2是Hadoop发展过程中的一个重要版本,它引入了许多改进和优化,旨在提高系统的稳定性和性能...
【标题】"实战hadoop中的源码"涵盖了在大数据处理领域深入理解并应用Apache Hadoop的核心技术。Hadoop是开源的分布式计算框架,它允许在大规模集群上存储和处理海量数据。通过研究Hadoop的源码,开发者可以深入了解...
《深入剖析Hadoop 2.8.1源码:分布式系统的智慧结晶》 Hadoop,作为开源的大数据处理框架,自2006年诞生以来,一直是大数据领域的重要支柱。其2.8.1版本是Hadoop发展的一个关键节点,为用户提供了更稳定、高效的...
1. **修改目录所有者**:首先需要将Hadoop安装目录的所有权更改为正确的用户。这通常意味着将其更改为`hadoop`用户及其对应的组。可以使用以下命令实现这一目标: ```bash $ sudo chown -R hadoop:hadoop /opt/...
1. **阅读BUILDING.txt**:在Hadoop源码目录下有一个名为`BUILDING.txt`的文件,该文件提供了编译所需的指导信息。对于Windows平台,文档末尾部分给出了具体的说明。 2. **执行编译命令**:打开命令提示符窗口,进入...
1. **HDFS(Hadoop Distributed File System)**:Hadoop的核心组件之一,是一个分布式文件系统,旨在提供高吞吐量的数据访问。源码中,`hadoop-hdfs-project`目录包含了HDFS的所有源代码,包括NameNode、DataNode和...
Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...
Sqoop-1.4.6.bin__hadoop-0.23.tar.gz 是一个包含 Sqoop 版本 1.4.6 和与之兼容的 Hadoop 版本 0.23 的压缩包。这个版本的 Sqoop 支持多个数据库系统,并且具有对 Hadoop MapReduce 框架的深度集成,允许用户利用 ...
【标题】"Hadoop2.7.3源码Eclipse工程"揭示了这个压缩包包含的是Hadoop 2.7.3版本的源代码,并且是为Eclipse IDE准备的项目工程,便于开发者在Eclipse环境中进行源码级别的学习、调试和开发。 【描述】中的信息说明...
1. **Hadoop架构**:Hadoop的核心由两个主要部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,用于存储大量数据;MapReduce则是一种编程模型,用于并行处理这些数据。 2. ...
1. **Hadoop概述**:Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护。它允许在廉价硬件上处理和存储大量数据,主要由两个核心组件构成:HDFS(Hadoop Distributed File System)和MapReduce。 2. **...
1. hadoop fs -ls:这是一个列出目录内容的命令。通过这个命令,用户可以查看HDFS中的文件和文件夹列表,类似于Linux系统中的ls命令。例如,使用hadoop fs -ls / 列出HDFS根目录下的内容。 2. hadoop fs -mkdir ...
在源码包中,开发者可以查看到Hadoop的核心类和接口,例如`org.apache.hadoop.fs.FileSystem`接口定义了与文件系统的交互,`org.apache.hadoop.mapreduce.Job`类提供了提交MapReduce作业的方法。同时,源码中还包含...
本文将深入探讨在编译Hadoop CDH源码时所需的软件及其重要性。 首先,我们来看“google-snappy-ea660b5”。Snappy是由Google开发的一个高效的数据压缩库,它主要关注的是高速度而非最高压缩率。在Hadoop中,Snappy...
1. **获取源码**:使用Git命令克隆Hadoop的源码仓库。例如,你可以运行`git clone https://github.com/apache/hadoop.git`来获取最新的源码。 2. **配置环境**:进入源码目录,编辑`pom.xml`文件,根据你的系统和...
1. **Hadoop概述**:Hadoop是由Apache基金会开发的开源框架,主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS提供高容错性的分布式存储,而MapReduce则是用于大规模数据集并行...
1. Hadoop核心组件: Hadoop主要由两个关键部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一个分布式文件系统,它允许数据跨多台服务器进行冗余存储,提供高可用性和容错性。MapReduce则是...