`
韩悠悠
  • 浏览: 839909 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop基本知识3

 
阅读更多

Hadoop Job Scheduler
1、hadoop默认的调度器是基于队列的FIFO调度器
    所有用户的作业都被提交到一个队列中,然后由jobTracker先按照作业的优先级高低,再按照作业提交
时间的先后顺序选择将被执行的作业。
优点:调度算法简单明了,JobTracker工作负担轻
缺点:忽略了不同作业的需求差异
2、还用俩个多用户调度器
   --Fair Scheduler(公平调度器)
   --Capacity Schedule(计算能力调度)

Fair Scheduler(公平调度器)
多个Pool,Job需要被提交到某个Pool中
每个pool可以设置最小task slot,称为miniShare
FS会保证Pool的公平
Pool内部支持Priority设置
支持资源抢占

mapreduce的数据类型与java的数据类型
java的基本类型  Writable
boolean --->BooleanWritable
byte  ---->WyteWritable
int  ---->IntWritable
float ---->FloatWritable
long ---->LongWritable
double ----> DoubleWritable
String ------>Text

Writable接口
1、对java中的int型进行封装那么就是hadoop中的IntWritable
    在写程序的时候可以把IntWritable可以看成是int类型
    它实现了WritableComparable接口。
    WritableComparable又是Writable、java.lang.comparable接口的子接口。
2、Writable类对所有的java基本类型进行了封装:
如:boolean --->BooleanWritable,byte-->byteWritable
3、我们可以自定义Writable接口,来编写更复杂的结构的类。
核心:hadoop有自己一套的I/O机制,I/O类都必须实现Writable接口


自定义IO类

package com.hadoop.test;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

/**
 * 自定义数据类型
 * @author lenovo
 *
 */
public class Kangfei implements Writable {
 
 private int id;
 
 private String name;
 

 @Override
 public void readFields(DataInput out) throws IOException {
  int = out.readInt();
  name = out.readUTF();
 }

 @Override
 public void write(DataOutput in) throws IOException {
  in.write(id);
  in.writeUTF(name);
 }

 public int getId() {
  return id;
 }

 public void setId(int id) {
  this.id = id;
 }

 public String getName() {
  return name;
 }

 public void setName(String name) {
  this.name = name;
 }

}

 

 


mapreduce驱动默认的设置
InputForamt(输入)    TextInputForamt
MapperClass          IdentityMapper
MapRunnerClass       MapRunner
MapOutputKeyClass    LongWritable
MapOutputValueClass  Text
PartitionerClass     HashPartitioner
ReduceClass          IdentityReduce
OutputKeyClass       LongWritable
OutputValueClass     Text
OutputFormatClass    TextOutputFormat

 

分享到:
评论

相关推荐

    hadoop基本知识总结

    hadoop基本知识总结

    hadoop知识结构图

    学习Hadoop,不仅要理解其基本概念,还需要掌握如何部署和管理Hadoop集群,以及如何编写MapReduce程序。同时,了解Hadoop与其他大数据技术(如Spark、HBase等)的结合使用也是至关重要的。通过“hadoop知识结构图”...

    Hadoop入门到精通

    通过"超人Hadoop网络培训学院"的详细教程,学习者可以系统地了解和掌握Hadoop的各项知识点,从基础概念到高级应用,一步步成为Hadoop领域的专家。在学习过程中,不仅要理解理论,更要动手实践,才能真正掌握这个强大...

    hadoop从入门到精通课件pdf

    通过这些章节的学习,读者可以系统地掌握Hadoop的基础知识,并逐步深入到Hadoop集群的管理和优化。从初识到精通,这个过程不仅涉及理论知识,还强调实际操作和问题解决能力的培养。对于想在大数据领域深入发展的IT...

    hadoop 入门

    InfoQ 提供的相关资料如"InfoQ Hadoop基本流程与应用开发"、"InfoQ 分布式计算开源框架Hadoop介绍"和"InfoQ Hadoop中的集群配置和使用技巧"将帮助你深入学习这些主题,为你的Hadoop之旅提供坚实的理论基础和实践指导...

    大数据与云计算培训学习资料 Hadoop之HDFS基础入门知识介绍 共42页.ppt

    大数据与云计算培训学习资料 Hadoop之HDFS基础入门知识介绍 共42页.ppt

    hadoop基础知识

    hadoop架构的基础知识介绍,此文档为PPT,通过此文档可以对hadoop的基本理论知识有所熟悉。

    Hadoop入门手册

    【Hadoop入门手册】是一本专为初学者设计的指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和核心概念。Hadoop是Apache软件基金会的一个开源项目,它的出现解决了大数据处理中的诸多挑战,包括数据...

    Hadoop入门实战手册 中文版)

    《Hadoop入门实战手册》是一本专为初学者设计的中文版指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和实际操作技巧。Hadoop是Apache软件基金会的一个开源项目,它为海量数据处理提供了可靠的分布式...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间...对于希望进入大数据领域的技术人员来说,掌握Hadoop的基础知识和实践技能是非常必要的。

    hadoop入门教程.docx

    教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的安装前,首先确保已经安装了Java Development Kit(JDK)。在Ubuntu上,可以使用`sudo apt-get install default-jdk...

    HADOOP权威指南第3版

    Hadoop权威指南第3版不仅涵盖了Hadoop的基础知识,还包括了一些高级主题,比如Hadoop的集群部署与管理、数据安全与优化、Hadoop与其他大数据技术的集成等。读者通过学习这本书,可以全面掌握Hadoop的使用和管理方法...

    HADOOP 入门

    《Hadoop Beginner's Guide》这本书通过详实的理论讲解和实践案例,为读者提供了一条清晰的学习路径,帮助他们快速掌握Hadoop的基础知识和应用技能。无论是对大数据处理感兴趣的学生,还是希望提升自身技术栈的专业...

    hadoop入门学习文档

    ### Hadoop 入门学习知识点概览 #### Hadoop 是什么? Hadoop 是 Apache 基金会下的一款开源软件框架,旨在通过集群的方式高效地处理大规模数据集。Hadoop 提供了分布式文件系统(HDFS)、运算资源调度系统(YARN...

    Hadoop大数据开发基础-PPT课件

    【Hadoop大数据开发基础-PPT课件】是一个涵盖了Hadoop生态系统入门知识的教育资源,适合初学者和希望深入了解大数据处理技术的IT专业人士。本课件主要围绕Hadoop框架展开,包括其设计原理、核心组件以及实际应用。...

    Hadoop3.x系统文档

    Hadoop 3.x系统文档提供了从入门到高级配置的全面指南,涵盖了安装、配置、资源管理和优化等多个方面。它对于希望部署和管理Hadoop 3.x集群的管理员和用户来说,是一份宝贵的学习和参考资料。文档强调了对于Hadoop ...

    hadoop基础入门

    ### Hadoop基础入门知识点详解 #### 一、Hadoop概览与背景介绍 **1.1 什么是Hadoop** Hadoop是由Apache基金会维护的一个开源软件框架,它支持使用普通的硬件来构建大规模的数据处理集群。Hadoop的核心优势在于...

    hadoop入门实战手册.pdf

    根据标题和描述,《hadoop入门实战手册.pdf》是一...这些知识点覆盖了Hadoop入门者需要掌握的基础知识,从Hadoop的基本概念、核心组件,到安装配置、使用方法,再到实际应用案例,构成了一个完整的Hadoop入门知识体系。

Global site tag (gtag.js) - Google Analytics