Hadoop Job Scheduler
1、hadoop默认的调度器是基于队列的FIFO调度器
所有用户的作业都被提交到一个队列中,然后由jobTracker先按照作业的优先级高低,再按照作业提交
时间的先后顺序选择将被执行的作业。
优点:调度算法简单明了,JobTracker工作负担轻
缺点:忽略了不同作业的需求差异
2、还用俩个多用户调度器
--Fair Scheduler(公平调度器)
--Capacity Schedule(计算能力调度)
Fair Scheduler(公平调度器)
多个Pool,Job需要被提交到某个Pool中
每个pool可以设置最小task slot,称为miniShare
FS会保证Pool的公平
Pool内部支持Priority设置
支持资源抢占
mapreduce的数据类型与java的数据类型
java的基本类型 Writable
boolean --->BooleanWritable
byte ---->WyteWritable
int ---->IntWritable
float ---->FloatWritable
long ---->LongWritable
double ----> DoubleWritable
String ------>Text
Writable接口
1、对java中的int型进行封装那么就是hadoop中的IntWritable
在写程序的时候可以把IntWritable可以看成是int类型
它实现了WritableComparable接口。
WritableComparable又是Writable、java.lang.comparable接口的子接口。
2、Writable类对所有的java基本类型进行了封装:
如:boolean --->BooleanWritable,byte-->byteWritable
3、我们可以自定义Writable接口,来编写更复杂的结构的类。
核心:hadoop有自己一套的I/O机制,I/O类都必须实现Writable接口
自定义IO类
package com.hadoop.test; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Writable; /** * 自定义数据类型 * @author lenovo * */ public class Kangfei implements Writable { private int id; private String name; @Override public void readFields(DataInput out) throws IOException { int = out.readInt(); name = out.readUTF(); } @Override public void write(DataOutput in) throws IOException { in.write(id); in.writeUTF(name); } public int getId() { return id; } public void setId(int id) { this.id = id; } public String getName() { return name; } public void setName(String name) { this.name = name; } }
mapreduce驱动默认的设置
InputForamt(输入) TextInputForamt
MapperClass IdentityMapper
MapRunnerClass MapRunner
MapOutputKeyClass LongWritable
MapOutputValueClass Text
PartitionerClass HashPartitioner
ReduceClass IdentityReduce
OutputKeyClass LongWritable
OutputValueClass Text
OutputFormatClass TextOutputFormat
相关推荐
hadoop基本知识总结
学习Hadoop,不仅要理解其基本概念,还需要掌握如何部署和管理Hadoop集群,以及如何编写MapReduce程序。同时,了解Hadoop与其他大数据技术(如Spark、HBase等)的结合使用也是至关重要的。通过“hadoop知识结构图”...
通过"超人Hadoop网络培训学院"的详细教程,学习者可以系统地了解和掌握Hadoop的各项知识点,从基础概念到高级应用,一步步成为Hadoop领域的专家。在学习过程中,不仅要理解理论,更要动手实践,才能真正掌握这个强大...
通过这些章节的学习,读者可以系统地掌握Hadoop的基础知识,并逐步深入到Hadoop集群的管理和优化。从初识到精通,这个过程不仅涉及理论知识,还强调实际操作和问题解决能力的培养。对于想在大数据领域深入发展的IT...
InfoQ 提供的相关资料如"InfoQ Hadoop基本流程与应用开发"、"InfoQ 分布式计算开源框架Hadoop介绍"和"InfoQ Hadoop中的集群配置和使用技巧"将帮助你深入学习这些主题,为你的Hadoop之旅提供坚实的理论基础和实践指导...
大数据与云计算培训学习资料 Hadoop之HDFS基础入门知识介绍 共42页.ppt
hadoop架构的基础知识介绍,此文档为PPT,通过此文档可以对hadoop的基本理论知识有所熟悉。
【Hadoop入门手册】是一本专为初学者设计的指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和核心概念。Hadoop是Apache软件基金会的一个开源项目,它的出现解决了大数据处理中的诸多挑战,包括数据...
《Hadoop入门实战手册》是一本专为初学者设计的中文版指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和实际操作技巧。Hadoop是Apache软件基金会的一个开源项目,它为海量数据处理提供了可靠的分布式...
### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间...对于希望进入大数据领域的技术人员来说,掌握Hadoop的基础知识和实践技能是非常必要的。
教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的安装前,首先确保已经安装了Java Development Kit(JDK)。在Ubuntu上,可以使用`sudo apt-get install default-jdk...
Hadoop权威指南第3版不仅涵盖了Hadoop的基础知识,还包括了一些高级主题,比如Hadoop的集群部署与管理、数据安全与优化、Hadoop与其他大数据技术的集成等。读者通过学习这本书,可以全面掌握Hadoop的使用和管理方法...
《Hadoop Beginner's Guide》这本书通过详实的理论讲解和实践案例,为读者提供了一条清晰的学习路径,帮助他们快速掌握Hadoop的基础知识和应用技能。无论是对大数据处理感兴趣的学生,还是希望提升自身技术栈的专业...
【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...
### Hadoop 入门学习知识点概览 #### Hadoop 是什么? Hadoop 是 Apache 基金会下的一款开源软件框架,旨在通过集群的方式高效地处理大规模数据集。Hadoop 提供了分布式文件系统(HDFS)、运算资源调度系统(YARN...
Hadoop 3.x系统文档提供了从入门到高级配置的全面指南,涵盖了安装、配置、资源管理和优化等多个方面。它对于希望部署和管理Hadoop 3.x集群的管理员和用户来说,是一份宝贵的学习和参考资料。文档强调了对于Hadoop ...
### Hadoop基础入门知识点详解 #### 一、Hadoop概览与背景介绍 **1.1 什么是Hadoop** Hadoop是由Apache基金会维护的一个开源软件框架,它支持使用普通的硬件来构建大规模的数据处理集群。Hadoop的核心优势在于...
根据标题和描述,《hadoop入门实战手册.pdf》是一...这些知识点覆盖了Hadoop入门者需要掌握的基础知识,从Hadoop的基本概念、核心组件,到安装配置、使用方法,再到实际应用案例,构成了一个完整的Hadoop入门知识体系。