`

Hadoop快速入门.pdf

 
阅读更多

Hadoop快速入门.pdf

http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html#%E4%B8%8B%E8%BD%BD

Hadoop快速入门

目的

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

先决条件

支持平台

  • GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。
  • Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持。

所需软件

Linux和Windows所需软件包括:

  1. JavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。
  2. ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。

Windows下的附加软件需求

  1. Cygwin - 提供上述软件之外的shell支持。

安装软件

如果你的集群尚未安装所需软件,你得首先安装它们。

以Ubuntu Linux为例:

$ sudo apt-get install ssh 
$ sudo apt-get install rsync

在Windows平台上,如果安装cygwin时未安装全部所需软件,则需启动cyqwin安装管理器安装如下软件包:

  • openssh - Net 

下载

为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的 稳定发行版

运行Hadoop集群的准备工作

解压所下载的Hadoop发行版。编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。

尝试如下命令:
$ bin/hadoop 
将会显示hadoop 脚本的使用文档。

现在你可以用以下三种支持的模式中的一种启动Hadoop集群:

  • 单机模式
  • 伪分布式模式
  • 完全分布式模式

单机模式的操作方法

默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。

下面的实例将已解压的 conf 目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。 
$ mkdir input 
$ cp conf/*.xml input 
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' 
$ cat output/*

伪分布式模式的操作方法

Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行。

配置

使用如下的 conf/hadoop-site.xml:

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>localhost:9000</value>
  </property>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

免密码ssh设置

现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

执行

格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format

启动Hadoop守护进程:
$ bin/start-all.sh

Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).

浏览NameNode和JobTracker的网络接口,它们的地址默认为:

将输入文件拷贝到分布式文件系统:
$ bin/hadoop fs -put conf input

运行发行版提供的示例程序:
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

查看输出文件:

将输出文件从分布式文件系统拷贝到本地文件系统查看:
$ bin/hadoop fs -get output output 
$ cat output/*

或者

在分布式文件系统上查看输出文件:
$ bin/hadoop fs -cat output/*

完成全部操作后,停止守护进程:
$ bin/stop-all.sh

完全分布式模式的操作方法

关于搭建完全分布式模式的,有实际意义的集群的资料可以在这里找到。

Java与JNI是Sun Microsystems, Inc.在美国以及其他国家地区的商标或注册商标。

分享到:
评论

相关推荐

    hadoop入门教程.pdf

    【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...

    hadoop入门介绍.pdf

    hadoop入门介绍.pdf

    Hadoop学习笔记.pdf

    Hadoop是一种开源的分布式...对于初学者而言,了解Hadoop的基本架构和组件,理解其设计哲学和适用场景,是入门的关键步骤。随着技术的深入学习,应逐步掌握其安装部署、性能调优、故障处理以及与其他工具的集成使用。

    Hadoop入门简介.pdf

    如果你先了解Hadoop,请您阅读《Hadoop入门简介.pdf》

    Hadoop 十分钟快速入门

    在大数据处理领域,Hadoop是不可或缺的关键技术。本快速入门将带你深入了解Hadoop生态系统的...通过阅读“Hadoop快速入门.pdf”和“HDFS简介.pdf”,你可以快速掌握这些基本概念和实践技巧,进一步深入Hadoop的世界。

    hadoop从入门到精通课件pdf

    《Hadoop从入门到精通》课程的PDF课件是一份全面了解和掌握Hadoop技术体系的宝贵资源。这个课程涵盖了从Hadoop的基础概念到高级应用的方方面面,旨在帮助学习者逐步提升对Hadoop的理解和实战能力。以下是根据提供的...

    hadoop入门指南.pdf

    ### Hadoop入门指南知识点概述 #### 一、Hadoop简介 - **定义**: Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。 - **核心组件**: - **HDFS (Hadoop Distributed File System)**: 分布式文件系统,...

    hadoop入门01.pdf

    综上所述,大数据和Hadoop入门涉及的知识点广泛,从大数据的概念、特点、应用场景、发展前景到Hadoop的概述、发展历史、生态圈组成、虚拟机网络配置等都需要全面了解和掌握。随着技术的不断发展,大数据和Hadoop技术...

    分布式计算开源框架Hadoop入门实践.pdf

    【分布式计算开源框架Hadoop入门实践】 Hadoop是Apache开源组织开发的一款分布式计算框架,它在业界得到了广泛应用,尤其在大型互联网公司如亚马逊、Facebook和Yahoo等中扮演着重要角色。Hadoop的核心设计理念是...

    初识Hadoop 2.x.pdf

    ### Hadoop 2.x 入门知识点概览 #### 一、大数据应用发展前景 随着信息技术的飞速发展,数据量呈爆炸式增长,这不仅带来了挑战也孕育着新的机遇。根据2015年中国(深圳)IT领袖峰会的讨论,大数据正逐渐成为推动...

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    大数据技术Hadoop3.x 2021年

    11_Hadoop_入门_Hadoop优势.mp4 13_Hadoop_入门_HDFS概述.mp4 14_Hadoop_入门_YARN概述.mp4 16_Hadoop_入门_HDFS&YARN&MR关系.mp4 17_Hadoop_入门_大数据技术生态体系.mp4 18_Hadoop_入门_VMware安装.mp4 20_Hadoop_...

    Hadoop学习文档.pdf

    2. 大数据框架快速开发:介绍基于JFinal开发大数据应用的快速开发方法。 机器学习入门 介绍机器学习的基础知识,包括如何入门和应用在大数据项目中。 其他知识点还包括了数据采集、运维工具的使用、Hadoop相关资源...

    Hadoop入门实战手册.pdf

    Hadoop入门实战手册.pdfHadoop入门实战手册.pdfHadoop入门实战手册.pdf

    Hadoop权威指南.pdf

    根据您提供的文件信息,文件名为《Hadoop权威指南.pdf》。这本书是关于Hadoop的权威指南,它是当前大数据处理领域中非常重要的一本参考书。Hadoop是由Apache软件基金会开发的一个开源分布式系统基础架构,设计用来从...

    大数据云计算技术系列 Hadoop之Hbase从入门到精通(共243页).pdf

    《大数据云计算技术系列:Hadoop之Hbase从入门到精通》 HBase,全称Hadoop Database,是一款基于Hadoop生态系统的分布式列式存储系统,旨在处理海量结构化数据。它借鉴了Google Bigtable的设计思想,但开源并适应了...

    Hadoop开发者入门专刊.pdf

    通过以上教程和资源的学习,可以帮助开发者快速掌握Hadoop的基本概念和实践技巧,为进一步深入学习打下坚实的基础。此外,《Hadoop开发者入门专刊》还鼓励读者参与社区讨论和技术分享,共同推动Hadoop技术的发展。

Global site tag (gtag.js) - Google Analytics