`
xuyuanshuaaa
  • 浏览: 396173 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

Hadoop配置 快速入门

阅读更多
    Hadoop快速入门

写在前面:
    Hadoop是Apache的一个项目,它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS.

对于Hadoop来说,在HDFS看来,节点分为Namenode 和Datanode,其中Namenode只有一个,Datanode可以是很多;在MapReduce看来,节点又分为Jobtracker和 Tasktracker,其中Jobtracker只有一个,Tasktracker可以是很多。可以所有角色都在一个节点上,也可分布式。 
    HBase是Hadoop的子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现(最近看了BigTable的Paper,很受鼓舞和启发),它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,
目的
这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

先决条件
支持平台
GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。
Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持。
所需软件

Linux和Windows所需软件包括:
JavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。
ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
Windows下的附加软件需求
Cygwin - 提供上述软件之外的shell支持。
安装软件
如果你的集群尚未安装所需软件,你得首先安装它们。

以Ubuntu Linux为例:

$ sudo apt-get install ssh
$ sudo apt-get install rsync
linux下jdk的安装方法及配置:
1. 先从网上下载jdk(jdk-1_5_0_02-linux-i586.rpm) ,推荐SUN的官方网站www.sun.com,下载后放在/home目录中,当然其它地方也行。

进入安装目录
#cd /home
#cp jdk-1_5_0_02-linux-i586.rpm /usr/local
#cd /usr/local
给所有用户添加可执行的权限
#chmod +x jdk-1_5_0_02-linux-i586.rpm.bin
#./jdk-1_5_0_02-linux-i586.rpm.bin
此时会生成文件jdk-1_5_0_02-linux-i586.rpm,同样给所有用户添加可执行的权限
#chmod +x jdk-1_5_0_02-linux-i586.rpm
安装程序
#rpm -ivh jdk-1_5_0_02-linux-i586.rpm
出现安装协议等,按接受即可。
2.设置环境变量。
#vi /etc/profile
在最后面加入
#set java environment
JAVA_HOME=/usr/java/jdk-1_5_0_02
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
保存退出。

要使JDK在所有的用户中使用,可以这样:
vi /etc/profile.d/java.sh
在新的java.sh中输入以下内容:
#set java environment
JAVA_HOME=/usr/java/jdk-1_5_0_02
CLASSPATH=.:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
保存退出,然后给java.sh分配权限:chmod 755 /etc/profile.d/java.sh

3.在终端使用echo命令检查环境变量设置情况。
#echo $JAVA_HOME
#echo $CLASSPATH
#echo $PATH

4.检查JDK是否安装成功。
#java -version
如果看到JVM版本及相关信息,即安装成功!

下载
为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的 稳定发行版。
在Apache/Hadoop项目的网站(hadoop.apache.org/)下载hadoop以及hbase的发行包,此处两个发行包的大版本号一定要一致,譬如都是0.18版本:hadoop-0.18.2.tar.gz    hbase-0.18.1.tar.gz
创建hadoop用户, $useradd hadoop 可以用 $passwd hadoop 修改hadoop用户的登录密码.
创建hadoop用户的home目录,如果打算在别处安装hadoop/hbase的话可以不这样做,这里我们默认将hadoop/hbase安装在/home/${username}目录下.
$cd /home
$mkdir hadoop
将目录用户指派给hadoop
$chown hadoop hadoop
改变目录权限,这里我们配大一些,其实只要644就足够了:
$chmod 755 hadoop

使用hadoop用户登录系统,将下载的两个发行包文件传到/home/hadoop目录下面,然后给它们加上执行权限:
$chmod a+x hadoop-0.18.2.tar.gz
$chmod a+x hbase-0.18.1.tar.gz

解压hadoop:
$tar zxvf hadoop-0.18.2.tar.gz
这样做会在/home/hadoop目录下解压hadoop发行包并创建到/home/hadoop/hadoop-0.18.2目录中,这里可以详细设计目录结构并创建link文件来方便日后升级等工作,这里我们先简单放在这里.

修改hadoop环境脚本:
修改文件/home/hadoop/hadoop-0.18.2/conf/hadoop-env.sh,在其中加入JAVA_HOME变量: export JAVA_HOME=/opt......
HADOOP_HOME变量我们可以不设置,默认的情况是指定HADOOP_HOME为运行启动脚本当前目录的父目录.
  至少需要将JAVA_HOME设置为Java安装根路径。


尝试如下命令:
$ bin/hadoop
将会显示hadoop 脚本的使用文档。

修改hadoop启动配置:
参照默认配置文件/home/hadoop/hadoop-0.18.2/conf/hadoop-default.xml 修改用户配置文件/home/hadoop/hadoop-0.18.2/conf/hadoop-site.xml,hadoop启动的时候会加载默认配置文件,然后读取用户配置文件并使用用户配置文件中的属性替换默认配置文件中的值,这里最简单的情况我们只需要修改如下几项即可,如果需要做分布的话也是要在这个文件里面进行配置.将要修改的配置项简单的放到hadoop-site.xml文件的<configuration/>中去:
<configuration>
    <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000/</value>
    </property>

    <property>
      <name>mapred.job.tracker</name>
      <value>localhost:9001</value>
    </property>
</configuration>


格式化nodename及启动hdfs守护进程:
$/home/hadoop/hadoop-0.18.2/bin/hadoop namenode -format
$/home/hadoop/hadoop-0.18.2/bin/start-all.sh

使用shart-all.sh可以方便的启动所有的hdfs守护进程,如果想关闭这些守护进程可以使用stop-all.sh脚本.
启动过程中需要输入登录密码.
启动成功后可以用以下简单方法测试hdfs:
$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -mkdir dir4test
$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -ls
$/home/hadoop/hadoop-0.18.2/bin/hadoop dfs -put /home/hadoop/file4test.zip file4test_temp.zip

相当于linux系统下的mkdir ls cp命令.
用浏览器访问 http://localhost:50030/ 和 http://localhost:50070/ 可以查看hdfs拓扑结构和job进程还有hdfs文件系统结构.
现在你可以用以下三种支持的模式中的一种启动Hadoop集群:

单机模式
伪分布式模式
完全分布式模式
[color=green][/color]
单机模式的操作方法
默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。
分享到:
评论

相关推荐

    Hadoop 十分钟快速入门

    快速入门时,你需要了解如何配置Hadoop集群,这包括安装Java环境、下载和解压Hadoop,配置Hadoop的环境变量、core-site.xml、hdfs-site.xml、mapred-site.xml等配置文件,以及启动和停止Hadoop服务。对于HDFS,需要...

    Hadoop快速入门介绍文档

    ### Hadoop快速入门介绍 #### 一、Hadoop简介 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它能够在廉价的商用硬件上运行,并且具有高可靠性和可扩展性。Hadoop的核心组件包括HDFS(Hadoop ...

    Hadoop快速入门

    标题《Hadoop快速入门》所指的知识点主要集中在如何快速地学习和掌握Hadoop技术,它是一个开源的分布式存储和计算框架,是大数据处理领域的重要工具。由于内容部分文字不完整且存在OCR扫描错误,以下是对Hadoop快速...

    Hadoop 快速入门及常见问题

    这个"Hadoop 快速入门及常见问题"的资料集合可能是为了帮助初学者理解和应用Hadoop系统。 首先,Hadoop的核心组件包括Hadoop Distributed File System (HDFS)和MapReduce。HDFS是分布式文件系统,它可以将大数据...

    hadoop快速入门

    ### Hadoop快速入门知识点梳理 #### 一、Hadoop概览 **1.1 Hadoop定义** - **定义**:Hadoop是Apache基金会旗下的开源软件框架,主要用于在大规模集群环境中处理和存储海量数据。 - **核心特点**:通过提供分布式...

    hadoop入门教程.pdf

    【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...

    Hadoop1.0&2.0快速入门

    Hadoop的快速入门需要掌握其架构和运行原理。对于初学者来说,理解HDFS、MapReduce、YARN等核心组件的工作方式是关键。此外,了解如何在集群上部署和配置Hadoop,以及如何运行基本的MapReduce作业也是必要的。通过...

    Hadoop的xmind的入门笔记

    这个“Hadoop的xmind入门笔记”系列涵盖了从基础概念到高级应用的全面学习路径,旨在帮助初学者快速掌握Hadoop的核心知识。 【Hadoop基础知识】 1. **分布式计算**:Hadoop基于Google的MapReduce编程模型,将大型...

    Hadoop2.2.0安装配置及实例教程入门宝典

    《Hadoop2.2.0安装配置及实例教程入门宝典》 在大数据处理领域,Hadoop是一个不可或缺的工具,其分布式存储和计算能力为企业级数据处理提供了强大的支持。本教程将带你逐步走进Hadoop的世界,从零开始,教你如何在...

    Hadoop开发者2010入门专刊.pdf

    安装过程包括配置环境变量、安装Java、下载Hadoop源码、配置Hadoop配置文件(如core-site.xml、hdfs-site.xml、mapred-site.xml等)以及启动和停止Hadoop服务等步骤。 此外,专刊还提供了源代码级别的Eclipse编译...

    Hadoop入门教程

    这涉及安装Java运行环境、配置Hadoop环境变量、修改Hadoop配置文件等步骤。《Hadoop入门教程》将详细讲解这些过程,以帮助初学者顺利启动Hadoop。 六、Hadoop编程 了解Hadoop的API和编程模型是必不可少的。...

    hadoop入门教程.docx

    教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的安装前,首先确保已经安装了Java Development Kit(JDK)。在Ubuntu上,可以使用`sudo apt-get install default-jdk...

    Hadoop入门程序java源码

    这个“Hadoop入门程序java源码”是为初学者准备的,目的是帮助他们快速掌握如何在Hadoop环境中编写和运行Java程序。Hadoop的主要组件包括HDFS(Hadoop分布式文件系统)和MapReduce,这两个部分将在下面详细介绍。 ...

    Hadoop 快速入门

    **Hadoop 快速入门** Hadoop 是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储海量数据。这个快速入门指南将帮助初学者理解Hadoop的基本概念、架构以及如何开始使用它。 ## 一、Hadoop 的...

    Hadoop入门实战手册 中文版)

    这涉及到下载Hadoop发行版,配置环境变量,设置Hadoop配置文件(如hdfs-site.xml和mapred-site.xml),以及启动和停止Hadoop服务。同时,理解伪分布式和完全分布式模式的区别也是很重要的,前者在单机上模拟分布式...

    Hadoop快速入门——第四章、zookeeper安装包

    总结来说,Hadoop快速入门的第四章主要介绍了Zookeeper的安装和配置,这对于理解和实践Hadoop分布式计算至关重要。通过学习Zookeeper,你可以更好地理解分布式系统的协调机制,提升你在大数据领域的专业能力。

    hadoop入门

    4. Hadoop安装:Hadoop的安装过程涉及对各个节点环境的配置、HDFS和MapReduce组件的安装与配置等步骤。用户需要根据自身的需求选择合适的安装方式,如单节点模式、伪分布式模式或完全分布式模式。 5. Hadoop shell...

    hadoop hbase从入门到精通

    《Hadoop之HBase从入门到精通》是一个深入学习Hadoop和HBase的全面指南,旨在帮助初学者和有经验的开发者快速掌握这两个强大的大数据处理工具。Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价...

Global site tag (gtag.js) - Google Analytics