Hadoop的mapred JobTracker端源码概览

nlslzf

浏览: 1054140 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

u012363178

cwfmaker

windows9834

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop生态圈(hadoop/hbase/pig/hive/zookeeper)

Hadoop Go Blog

http://jiwenke.iteye.com/blog/335093

上一节看到TaskTracker启动新任务的过程，这里接着看看在JobTracker中是怎样响应和调度的，在hadoop中，我们看到采用的是pull的方式拿到任务。

Java代码 
      
HeartbeatResponse heartbeatResponse = jobClient.heartbeat(status,   
                                                            justStarted, askForNewTask,   
                                                              heartbeatResponseId);  

这里是TaskTracker想JobTracker发送heartbeat的地方 - 使用的是RPC,这样我们你就来到JobTracker了:

Java代码 
    
public synchronized HeartbeatResponse heartbeat(TaskTrackerStatus status,   
                                                  boolean initialContact, boolean acceptNewTasks, short responseId)   
    throws IOException {  
.............  
    //如果是接受新任务的话，让JotTracker去进行调度，这里会调用taskScheduler的assignTasks  
    if (acceptNewTasks) {  
      TaskTrackerStatus taskTrackerStatus = getTaskTracker(trackerName);  
      if (taskTrackerStatus == null) {  
        LOG.warn("Unknown task tracker polling; ignoring: " + trackerName);  
      } else {  
        List<Task> tasks = getSetupAndCleanupTasks(taskTrackerStatus);  
    //这里是准备assignTask的地方，由配置的调度器来决定怎样调度  
        if (tasks == null ) {  
         tasks = taskScheduler.assignTasks(taskTrackerStatus);  
        }  
        if (tasks != null) {  
          for (Task task : tasks) {  
            expireLaunchingTasks.addNewTask(task.getTaskID());  
            LOG.debug(trackerName + " -> LaunchTask: " + task.getTaskID());  
            actions.add(new LaunchTaskAction(task));  
          }  
        }  
      }  
    }  

这个taskScheduler采用的是默认的

Java代码 
taskScheduler = (TaskScheduler) ReflectionUtils.newInstance(schedulerClass,conf);  

这是在配置文件中指定的，"mapred.jobtracker.taskScheduler"，常常是JobQueueTaskScheduler是hadoop的实现,FIFO类型的调度器，让我们看看这个调度器是怎样assignTasks的：

Java代码 
    
public synchronized List<Task> assignTasks(TaskTrackerStatus taskTracker)  
      throws IOException {  
  
    ClusterStatus clusterStatus = taskTrackerManager.getClusterStatus();  
    int numTaskTrackers = clusterStatus.getTaskTrackers();  
  
    Collection<JobInProgress> jobQueue =  
      jobQueueJobInProgressListener.getJobQueue();  
  
    //  
    // Get map + reduce counts for the current tracker.  
    //  
    int maxCurrentMapTasks = taskTracker.getMaxMapTasks();  
    int maxCurrentReduceTasks = taskTracker.getMaxReduceTasks();  
    int numMaps = taskTracker.countMapTasks();  
    int numReduces = taskTracker.countReduceTasks();  
  
    //  
    // Compute average map and reduce task numbers across pool  
    //  
    int remainingReduceLoad = 0;  
    int remainingMapLoad = 0;  
    synchronized (jobQueue) {  
      for (JobInProgress job : jobQueue) {  
        if (job.getStatus().getRunState() == JobStatus.RUNNING) {  
          int totalMapTasks = job.desiredMaps();  
          int totalReduceTasks = job.desiredReduces();  
          remainingMapLoad += (totalMapTasks - job.finishedMaps());  
          remainingReduceLoad += (totalReduceTasks - job.finishedReduces());  
        }  
      }  
    }  
  
    // find out the maximum number of maps or reduces that we are willing  
    // to run on any node.  
    int maxMapLoad = 0;  
    int maxReduceLoad = 0;  
    if (numTaskTrackers > 0) {  
      maxMapLoad = Math.min(maxCurrentMapTasks,  
                            (int) Math.ceil((double) remainingMapLoad /   
                                            numTaskTrackers));  
      maxReduceLoad = Math.min(maxCurrentReduceTasks,  
                               (int) Math.ceil((double) remainingReduceLoad  
                                               / numTaskTrackers));  
    }  
          
    int totalMaps = clusterStatus.getMapTasks();  
    int totalMapTaskCapacity = clusterStatus.getMaxMapTasks();  
    int totalReduces = clusterStatus.getReduceTasks();  
    int totalReduceTaskCapacity = clusterStatus.getMaxReduceTasks();  
  
    //  
    // In the below steps, we allocate first a map task (if appropriate),  
    // and then a reduce task if appropriate.  We go through all jobs  
    // in order of job arrival; jobs only get serviced if their   
    // predecessors are serviced, too.  
    //  
  
    //  
    // We hand a task to the current taskTracker if the given machine   
    // has a workload that's less than the maximum load of that kind of  
    // task.  
    //  
         
    if (numMaps < maxMapLoad) {  
  
      int totalNeededMaps = 0;  
      synchronized (jobQueue) {  
        for (JobInProgress job : jobQueue) {  
          if (job.getStatus().getRunState() != JobStatus.RUNNING) {  
            continue;  
          }  
      //这里是取得Task的地方，需要到job中去取  
          Task t = job.obtainNewMapTask(taskTracker, numTaskTrackers,  
              taskTrackerManager.getNumberOfUniqueHosts());  
          if (t != null) {  
            return Collections.singletonList(t);  
          }  
  
          //  
          // Beyond the highest-priority task, reserve a little   
          // room for failures and speculative executions; don't   
          // schedule tasks to the hilt.  
          //  
          totalNeededMaps += job.desiredMaps();  
          int padding = 0;  
          if (numTaskTrackers > MIN_CLUSTER_SIZE_FOR_PADDING) {  
            padding = Math.min(maxCurrentMapTasks,  
                               (int)(totalNeededMaps * padFraction));  
          }  
          if (totalMaps + padding >= totalMapTaskCapacity) {  
            break;  
          }  
        }  
      }  
    }  
  
    //  
font-size: 1em; margin-top:

  


  分享到：
      
      
    

      Hadoop的mapred TaskTracker端源码概览
      |
      Linux单机运行hadoop平台
    

    2010-11-14 11:23
浏览 2038
评论(0)
分类:企业架构
查看更多
    
  

    评论
    
    
    
    
  
发表评论   您还没有登录,请您登录后再发表评论 

相关推荐

漫画作品与时间旅行题材.doc: 漫画作品与时间旅行题材

基于SpringBoot框架的的在线视频教育平台的设计与实现（含完整源码+完整毕设文档+PPT+数据库文件）.zip: Spring Boot特点： 1、创建一个单独的Spring应用程序； 2、嵌入式Tomcat，无需部署WAR文件； 3、简化Maven配置； 4、自动配置Spring； 5、提供生产就绪功能，如指标，健康检查和外部配置； 6、绝对没有代码生成和XML的配置要求；第一章绪论 1 1.1背景及意义 1 1.2国内外研究概况 2 1.3 研究的内容 2 第二章关键技术的研究 3 2.1 相关技术 3 2.2 Java技术 3 2.3 ECLIPSE 开发环境 4 2.4 Tomcat介绍 4 2.5 Spring Boot框架 5 第三章系统分析 5 3.1 系统设计目标 6 3.2 系统可行性分析 6 3.3 系统功能分析和描述 7 3.4系统UML用例分析 8 3.4.1管理员用例 9 3.4.2用户用例 9 3.5系统流程分析 10 3.5.1添加信息流程 11 3.5.2操作流程 12 3.5.3删除信息流程 13 第四章系统设计 14 4.1 系统体系结构 15 4.2 数据库设计原则 16 4.3 数据表 17 第五章系统实现 18 5.1用户功能模块 18 5.2

PyTorch入门指南：从零开始掌握深度学习框架.pdf: 内容概要：本文作为PyTorch的入门指南，首先介绍了PyTorch相较于TensorFlow的优势——动态计算图、自动微分和丰富API。接着讲解了环境搭建、PyTorch核心组件如张量（Tensor）、autograd模块以及神经网络的定义方式（如nn.Module），并且给出了详细的神经网络训练流程，包括前向传播、计算损失值、进行反向传播以计算梯度，最终调整权重参数。此外还简要提及了一些拓展资源以便进一步探索这个深度学习工具。适用人群：初次接触深度学习技术的新学者和技术爱好者，有一定程序基础并希望通过PyTorch深入理解机器学习算法实现的人。使用场景及目标：该文档有助于建立使用者对于深度学习及其具体实践有更加直观的理解，在完成本教程之后，读者应当能够在个人设备上正确部署Python环境，并依据指示独立创建自己的简易深度学习项目。其他说明：文中所提及的所有示例均可被完整重现，同时官方提供的资料链接也可以方便有兴趣的人士对感兴趣之处继续挖掘，这不仅加深了对PyTorch本身的熟悉程度，也为未来的研究或者工程项目打下了良好的理论基础和实践经验。

古镇美食自驾游：舌尖上的历史韵味.doc: 古镇美食自驾游：舌尖上的历史韵味

基于人工神经网络（ANN）的高斯白噪声的系统识别附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

漫画作品与神话传说融合.doc: 漫画作品与神话传说融合

实时电价机制下交直流混合微网优化运行方法附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

ADC推理软件AI程序: ADC推理软件AI程序

漫画作品与科幻元素融合.doc: 漫画作品与科幻元素融合

【电缆】中压电缆局部放电的传输模型研究附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

基于人工神经网络的类噪声环境声音声学识别附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

多约束、多车辆VRP问题附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

基于麻雀搜索算法（SSA）优化长短期记忆神经网络参数SSA-LSTM冷、热、电负荷预测附Python代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

java-springboot+vue景区民宿预约系统实现源码（完整前后端+mysql+说明文档+LunW+PPT）.zip: java-springboot+vue景区民宿预约系统实现源码（完整前后端+mysql+说明文档+LunW+PPT）.zip

56页-智慧园区解决方案（伟景行）.pdf: 在智慧城市建设的大潮中，智慧园区作为其中的璀璨明珠，正以其独特的魅力引领着产业园区的新一轮变革。想象一下，一个集绿色、高端、智能、创新于一体的未来园区，它不仅融合了科技研发、商业居住、办公文创等多种功能，更通过深度应用信息技术，实现了从传统到智慧的华丽转身。智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化，彻底颠覆了传统园区的管理模式。在这里，基础设施的数据收集与分析让管理变得更加主动和高效，从温湿度监控到烟雾报警，从消防水箱液位监测到消防栓防盗水装置，每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控，更是在节能降耗的同时，极大地提升了园区的运维效率。更令人兴奋的是，通过智慧监控、人流统计和自动访客系统等高科技手段，园区的安全防范能力得到了质的飞跃，让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。更令人瞩目的是，智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈，还是享受便捷的电商服务、法律咨询和融资支持，亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率，智慧园区都以其全面、专业、高效的服务，为企业的发展插上了腾飞的翅膀。而这一切的背后，是大数据、云计算、人工智能等前沿技术的深度融合与应用，它们如同智慧的大脑，让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区，就像踏入了一个充满无限可能的未来世界，这里不仅有科技的魅力，更有生活的温度，让人不禁对未来充满了无限的憧憬与期待。

边境自驾游异国风情深度体验.doc: 边境自驾游异国风情深度体验

武汉东湖高新集团智慧园区 22页PPT(21页).pptx: 在智慧城市建设的大潮中，智慧园区作为其中的璀璨明珠，正以其独特的魅力引领着产业园区的新一轮变革。想象一下，一个集绿色、高端、智能、创新于一体的未来园区，它不仅融合了科技研发、商业居住、办公文创等多种功能，更通过深度应用信息技术，实现了从传统到智慧的华丽转身。智慧园区通过“四化”建设——即园区运营精细化、园区体验智能化、园区服务专业化和园区设施信息化，彻底颠覆了传统园区的管理模式。在这里，基础设施的数据收集与分析让管理变得更加主动和高效，从温湿度监控到烟雾报警，从消防水箱液位监测到消防栓防盗水装置，每一处细节都彰显着智能的力量。而远程抄表、空调和变配电的智能化管控，更是在节能降耗的同时，极大地提升了园区的运维效率。更令人兴奋的是，通过智慧监控、人流统计和自动访客系统等高科技手段，园区的安全防范能力得到了质的飞跃，让每一位入驻企业和个人都能享受到“拎包入住”般的便捷与安心。更令人瞩目的是，智慧园区还构建了集信息服务、企业服务、物业服务于一体的综合服务体系。无论是通过园区门户进行信息查询、投诉反馈，还是享受便捷的电商服务、法律咨询和融资支持，亦或是利用云ERP和云OA系统提升企业的管理水平和运营效率，智慧园区都以其全面、专业、高效的服务，为企业的发展插上了腾飞的翅膀。而这一切的背后，是大数据、云计算、人工智能等前沿技术的深度融合与应用，它们如同智慧的大脑，让园区的管理和服务变得更加聪明、更加贴心。走进智慧园区，就像踏入了一个充满无限可能的未来世界，这里不仅有科技的魅力，更有生活的温度，让人不禁对未来充满了无限的憧憬与期待。

,,CAD、DXF导图，自动进行位置路径规划，源码可进行简单功能添加实现设备所需功能，已经在冲孔机，点胶机上应用，性价比超高打孔机实测一分钟1400个孔 ,CAD、DXF导图；自动位置路径规划；源: ,,CAD、DXF导图，自动进行位置路径规划，源码可进行简单功能添加实现设备所需功能，已经在冲孔机，点胶机上应用，性价比超高。打孔机实测一分钟1400个孔 ,CAD、DXF导图；自动位置路径规划；源码功能添加；设备功能实现；冲孔机点胶机应用；高性价比。,CAD导图DXF，自动规划位置路径，实测打孔速度惊人！性价比超高冲孔机实现多功能定制

一种鲁棒的可变功率分数LMS算法研究附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

本地部署，LM Studio，可以让大家本地部署在自己家里的电脑deepseek，再也不用忍受网站上deepseek的服务器繁忙的烦恼: 本地部署，LM Studio，可以让大家本地部署在自己家里的电脑deepseek，再也不用忍受网站上deepseek的服务器繁忙的烦恼

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop的mapred JobTracker端源码概览

评论

发表评论

相关推荐

一网打尽当下NoSQL类型、适用场景及使用公司

别样解释云计算，太TM天才跨界了

Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS

hadoop的超时设置

hadoop与panasas

程序开过多线程，导致hadoop作业无法运行成功

mount盘异常，导致hadoop作业无法发送

HDFS quota 設定

hadoop常用的指令

Hadoop基准测试

Hadoop Job Scheduler作业调度器

hadoop指定某个文件的blocksize，而不改变整个集群的blocksize

Hadoop Job Tuning

如何在不重启整个hadoop集群的情况下，增加新的节点

对hadoop task进行profiling的几种方法整理

如何对hadoop作业的某个task进行debug单步跟踪

hadoop 0.20 程式開發 eclipse plugin

hadoop-0.21.0-eclipse-plugin无法在eclipse中运行解决方案

How to Benchmark a Hadoop Cluster

json在线格式化

最近访客更多访客>>