`
sunasheng
  • 浏览: 122749 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

读书笔记1:Hadoop初始及单机版和集群版的安装

阅读更多

读书笔记:Hadoop 初始及单机版和集群版的安装

1 hadoop 的第一个程序(统计文档中个单词出现的次数)

/*

public class WordCount extends Configured implements Tool{

public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

String line = value.toString();

StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词

while(itr.hasMoreTokens()){

word.set(itr.nextToken());//把Token放入Text对象中

output.collect(word,one);

}

}

}

public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{

public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

int sum = 0;

while(values.hasNext()){

sum+=values.next().get();

}

output.collect(key,new IntWritable(sum));//输出每个Token的统计结果

}

}

}

*/

2,初始 hadoop

(1) NameNode(名字节点)

它位于HDFS 的主端,它指导从端的 DataNode 执行底层 I/O 任务。运行 NameNode 会消耗大量的内存和 I/O 资源。索引 NameNode 服务器不会同时是 DataNode 或者 TaskTracker 。但是他有一个负面的影响,就是 Hadoop 集群的单点失效。

(2) DateNode(数据节点)

每个集群上的节点都会驻留一个DataNode 的守护进程,来执行分布式文件系统的繁重工作。 NameNode 告知客户端每个数据块驻留在哪个 DataNode 里,那么客户端直接于 DataNode 进行通信,而 DataNode 之间会相互通信,而且 DataNode 不断向 NameNode 报告。

(3) Secondary NameNode(次名字节点)

SNN是一个用于检测 HDFS 集群状态的辅助守护进程,像 NameNode 一样, SNN 通常也是独占一台服务器,该服务器不会运行其他的 DataNode 或是 TaskTracker 守护进程。 NameNode Hadoop 集群的单一故障点,而 SNN 快照可以有助于减少停机的时间降低数据丢失的风险。

(4) JobTracker(作业跟踪节点)

JobTracker守护进程是应用程序和 Hadoop 之间的纽带,一旦提交代码到集群上, JobTracker 会确定一系列的执行计划,如果任务失败, JobTracker 会自动重启。每个 Hadoop 集群只有一个 JobTracker 守候进程,运行在服务器集群的主节点上。

(5) TaskTracker(任务跟踪节点)

TaskTracker管理各个任务在每个从节点上的运行情况。

 

3 hadoop 的安装

(1) 单机版hadoop 的安装 (请参见  单机版hadoop 的安装 .doc

(2) 集群版hadoop 的安装(请参见  单机版hadoop 的安装 .doc

 注:以下是SSH 的安装

<1> hadoop 集群安装 SSH

安装hadoop 集群时,需要专门指定一个服务器作为主节点,这个服务器会常驻 NameNode JobTracker 守护进程,它也将作为一个基站,负责联络并激活所有从节点上的 DataNode TaskTracker 。因此我们要为主节点定义一种手段,使他能够远程的访问到集群中的每个节点。因此, Hadoop 使用了无口令的 SSH 协议。

<2>定义一个公共账号

hadoop-user

<3>SSH的安装

·切换到root 用户    su root 

·安装SSH    sudo apt-get install ssh

· ubuntu服务器上生成私钥和公钥 ssh-keygen

显示:Enter file in which to save the key (/root/.ssh/id_rsa): 

这里是问你 私钥和公钥 存放在什么地方,回车表示默认

显示:Created directory '/root/.ssh'.

这里是让你设置密码,输入自己的密码,一定要记住啊。(4 位以上)

显示:Enter same passphrase again

再次输入密码,然后回车

显示:

Your identification has been saved in /root/.ssh/id_rsa.

你的私钥存放位置/root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

你的公钥存放位置/root/.ssh/id_rsa.pub

然后地下就是密码的信息。

 

 

 

分享到:
评论

相关推荐

    安装Hadoop(单机版和集群)步骤

    【安装Hadoop(单机版和集群)步骤】 在IT领域,Hadoop是一个分布式计算框架,主要用于处理和存储海量数据。本教程将详细介绍如何在Ubuntu 12.10操作系统上安装Hadoop的单机版和集群版。首先,确保你已经在VMware...

    hadoop集群安装笔记

    "Hadoop集群安装笔记" Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境...

    大数据处理框架:Hadoop:Hadoop集群部署与管理.docx

    大数据处理框架:Hadoop:Hadoop集群部署与管理.docx

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04 本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结...

    hadoop单机版安装

    本篇将详细介绍如何在单机环境下安装Hadoop,以便初学者理解其基本操作和工作原理。 首先,我们需要了解Hadoop的核心组件。Hadoop主要包括两个主要部分:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS...

    安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos

    【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...

    第五课:hadoopwindow单机部署和试用-python验证码识别1

    第五课:hadoopwindow单机部署和试用-python验证码识别1

    单机版hadoop安装(linux)

    单机版 Hadoop 安装是指在单台机器上安装 Hadoop 环境,以便快速入门 Hadoop 和了解 Hadoop 的基本原理和使用方法。在这个安装过程中,我们将创建 Hadoop 用户组和用户,安装 JDK,配置环境变量,安装 SSH 服务,并...

    利用ansible 自动 安装Hadoop 集群

    1. **环境准备**:在安装Hadoop集群之前,你需要有一组服务器作为集群节点,以及一台运行Ansible的控制节点。确保所有节点之间可以互相通信,并在控制节点上安装Ansible。 2. **Ansible配置**:创建一个名为`hadoop...

    Hadoop单机与集群部署笔记.docx

    ### Hadoop单机与集群部署知识点 #### 一、Hadoop单机系统版本安装配置 ...以上步骤详细介绍了Hadoop单机与集群部署的具体流程,包括单机安装配置、集群部署所需的各种准备以及具体配置方法,为读者提供了全面的指导。

    Hadoop datanode启动失败:Hadoop安装目录权限的问题

    - **初始安装过程中的用户切换**:在解压Hadoop发行包时,用户通过`su`命令切换到了`root`用户进行操作。这意味着Hadoop安装目录及其所有子文件和子目录的所有者默认为`root`。 - **启动Hadoop时的权限问题**:由于...

    实验1:Hadoop安装部署

    在这个实验中,我们将安装和配置 Hadoop 环境,并学习基本的 Hadoop 操作。 一、实验准备 在开始实验之前,需要准备好实验环境。实验环境使用 Ubuntu 16.04 操作系统,并且需要安装 Docker 软件。 Docker 是一个...

    hadoop 单机安装和集群安装总结

    它覆盖了Hadoop单机安装以及集群安装的过程,并且适用于CentOS 5/RedHat 5.2(32位/64位)及Ubuntu等操作系统。 #### 二、Hadoop单机安装配置 ##### 1. Linux基础环境搭建 - **Linux安装**:通常推荐使用VMware等...

    Hadoop权威指南----读书笔记.pdf

    Hadoop权威指南----读书笔记

    云计算Hadoop:快速部署Hadoop集群

    资源名称:云计算Hadoop:快速部署Hadoop集群内容简介: 近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以...

    掌握大数据调度:Hadoop Oozie工作流管理深度指南与实战代码

    2. **分布式计算**:MapReduce是一种编程模型,用于在Hadoop集群上并行处理和生成大型数据集。 3. **可扩展性**:Hadoop可以处理从GB到PB级别的数据,可以在集群中增加更多的节点来扩展存储和计算能力。 4. **可靠...

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成...

    Apache Hadoop:Hadoop集群运维与优化.docx

    Apache Hadoop:Hadoop集群运维与优化.docx

    Hadoop的安装、配置过程和集群运行截图。

    全程跟着安装配置的一般不会出现问题,jdk版本尽量选择和Hadoop版本相容的,Hadoop版本可以选择较低版本,2.7版本较为稳定,Linux系统版本没有多大要求,一般将Hadoop和jdk版本选择好就行,这个作业较为简单,在安装...

    实验1 安装Hadoop.doc

    根据给定文件的信息,我们可以总结出以下几个重要的知识点: ...综上所述,通过本次实验,学生不仅能够学会如何在Linux虚拟机中搭建Hadoop集群,还能掌握Hadoop的基本使用技巧,为进一步学习大数据分析打下坚实基础。

Global site tag (gtag.js) - Google Analytics