一、应用背景
由于在设计中有一个模块是对Job的管理,所以,在这里我采用了JobClinet来进行简单的控制。
二、应用点
JobClient指的是org.apache.hadoop.mapred.JobClient这个类。里面有不少的方法,我这里列举一些我用到的和一些需要注意的方法。
1、JobClient的实例化。这里有2中方法,一种是new JobClient(new JobConf);另外一种是实例化IP地址和端口。
2、通过JobClient获取Job列表。
JobClient.jobsToComplete()返回没有完成和没有失败的Job。换句话说就是在运行的Job。
JobClient.getAllJobs()返回所有的Job,不管是失败还是成功的。
3、获取JobID
JobID是一个Job的唯一标识,如果要获取指定的JobID,那么需要有根据,例如UserName。我这里是通过User来获取JobID。方法是遍历Job,然后找到名称相匹配的Job,然后取出ID。
4、通过线程阻塞的模式来等待Job执行完成。
JobClient.getJob(JobID).waitForCompletion();
三、总结
1、JobClient的应用很简单,总的说来就那么几种,细致看一下API就会大部分的应用。
2、通过JobClient还可以对task进行监控,也可以获取Job的进度百分比。
3、写的比较简单,写的不对或是有疑问可以发邮件dajuezhao@gmail.com
分享到:
相关推荐
以下是各章节主要内容的概述: 第1章:MapReduce简介 本章介绍了MapReduce的基本概念,包括它的起源、设计目标和工作流程。MapReduce是一种分布式计算模型,由Google提出,用于处理和生成大规模数据集。它主要由两...
#### 一、LTS(Light Task Scheduler)概述 **LTS**(轻量级任务调度器)是一款专为解决分布式环境下的任务调度问题而设计的框架。它支持多种类型的任务,如实时任务、定时任务以及Cron任务。其优秀的伸缩性、扩展...
3. **配置Hadoop作业**:按照常规Hadoop应用程序的格式进行配置,包括Mapper类、Reducer类、输入输出文件格式等,并最终调用`JobClient.runJob(conf)`来执行任务。 #### 四、使用示例 假设MySQL数据库中有名为`...
#### 一、MapReduce概述 MapReduce是一种由Google设计的分布式数据处理模型,其核心思想在于将大规模的数据处理任务拆分成一系列较小的子任务,通过分布式集群来并行处理。MapReduce的运行机制分为两部分:**Map...
以上内容概述了大数据领域的核心概念和技术细节,包括大数据的基本定义、特征、采集、存储、计算、处理流程、商业和社会价值等方面,并深入探讨了大数据与人工智能的关系、集群与虚拟化技术、Hadoop框架及其核心组件...
#### 一、MapReduce 概述 ##### 1.1 MapReduce 的起源与发展 - **起源**: MapReduce 是由 Google 提出的一种分布式计算模型,最初是为了应对互联网搜索引擎处理大规模数据集的需求而设计的。 - **发展**: 随着...
- **概述**: ZooKeeper通过一组简单的原语来解决复杂分布式系统中常见的协调问题。 - **工作原理**: - ZooKeeper集群的架构设计。 - 主要组件的功能和交互流程。 - 基于Paxos算法的选举过程解析。 - 数据模型和...
#### 一、云计算概述 **云计算**是一种基于互联网的计算方式,通过这种模式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算的发展融合了分布式处理、并行处理和网格计算等多个领域的技术,并且...
1. **JobClient**:负责提交任务,并接收任务执行的结果反馈。 2. **JobTracker**:负责接收任务请求并分配给合适的TaskTracker执行。 3. **TaskTracker**:实际执行任务,并将执行结果反馈给JobTracker。 4. **LTS-...
- **流程概述**: - **客户端请求处理**:客户端发送请求到任意一个Server节点,该节点负责将请求转发给Leader节点进行处理。 - **Leader同步**:Leader节点将请求广播给所有的Follower节点,并等待确认消息。 - *...
#### 概述 Hadoop MapReduce 是一个用于处理大规模数据集的软件框架,它使得开发者能够编写可以在大量廉价商用服务器组成的集群上运行的应用程序。该框架支持可靠的容错机制,并能够以并行的方式处理TB级别的数据集...
#### 一、Hadoop概述 Hadoop是一个开源软件框架,主要用于处理和存储大规模的数据集。它支持大数据处理的基本架构,包括数据存储(HDFS,Hadoop Distributed File System)和数据处理(MapReduce)。Hadoop的设计...
#### 一、Hadoop概述与启动停止命令 Hadoop是一个开源的分布式计算框架,专为大规模数据集的存储和处理而设计。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce计算框架,以及后来加入的YARN...
### Hadoop新旧API对比及应用实践 #### 一、Hadoop API概述 Hadoop作为一个分布式计算框架,提供了丰富的API供开发者使用。随着版本的更新,Hadoop API也在不断演进,新旧API之间存在一定的差异。理解这些差异对于...