`
dajuezhao
  • 浏览: 60960 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop分布式安装

阅读更多

一、安装准备

1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/

2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)

3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux

4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(slave)

二、安装操作

1、拷贝以上文件到Linux的“/root”目录下。同时新建目录“/jz”。

2、安装JDK,此步省略...

3、解压hdaoop到/jz目录下。tar -zxvf hbase-0.20.5.tar.gz -C /jz

4、配置131机器可以通过SSH直接访问132和133。
在131上执行以下操作:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa ,
直接回车,完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。这两个是成对出现,类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件):
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。
完成后可以实现无密码登录本机:
$ ssh localhost。
把131上的id_dsa.pub 文件追加到132和133的authorized_keys 内( 以192.168.3.132节点为例):
a. 拷贝131的id_dsa.pub文件:
$ scp id_dsa.pub s132@192.168.3.132:/root/
b. 登录192.168.3.132,进入/root目录执行:
$ cat id_dsa.pub >> .ssh/authorized_keys
之后可以在131上不输入密码直接访问132

5、修改/jz/hadoop-0.20.2/conf/目录下的master文件,内容如下:
192.168.3.131
6、修改/jz/hadoop-0.20.2/conf/目录下的slaves文件,内容如下:
192.168.3.132
192.168.3.133
7、修改/jz/hadoop-0.20.2/conf/hadoop-env.sh文件的环境变量:
# The java implementation to use. Required.
export JAVA_HOME=/usr/java/jdk1.6.0_20
8、修改/jz/hadoop-0.20.2/conf/core-site.xml配置文件,内容如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoopdata</value>
<description>A base for other temporary directories.</description>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://m131:9000</value>
<description>The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.</description>
</property>

<property>
<name>dfs.hosts.exclude</name>
<value>excludes</value>
</property>
</configuration>
9、修改/jz/hadoop-0.20.2/conf/hdfs-site.xml配置文件,内容如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
10、修改/jz/hadoop-0.20.2/conf/mapred-site.xml配置文件,内容如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>m131:9001</value>
<description>The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
</description>
</property>
</configuration>
11、修改ect/hosts配置文件,内容如下:
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1 localhost
192.168.3.131 m131
192.168.3.132 s132
192.168.3.133 s133
12、修改/ect/profile配置文件,在末尾追加以下内容,并输入source/etc/profile使之生效:
export JAVA_HOME=/usr/java/jdk1.6.0_20

export JRE_HOME=/usr/java/jdk1.6.0_20/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$PATH

export HADOOP_HOME=/jz/hadoop-0.20.2

export PATH=$HADOOP_HOME/bin:$PATH

export PATH=$PATH:$HIVE_HOME/bin
13、将/jz/hadoop-0.20.2拷贝到192.168.3.132和192.168.3.133对应的目录下。将/ect/profile和/etc/hosts也拷贝到132和133机器上。注意profile需要做生效操作。
三、启动/停止hadoop
1、通过shell脚本启动hadoop。
sh /jz/hadoop-0.20.2/bin/start-all.sh
2、停止hadoop
sh /jz/hadoop-0.20.2/bin/stop-all.sh

四、初始配置

1、格式化HDFS文件系统。进入/jz/hadoop-0.20.2/bin目录。执行:
hadoop namenode –format
2、在/jz/hadoop-0.20.2/bin目录下,执行:
hadoop fs -ls /
如果控制台返回结果,表示初始化成功。可以向里面录入数据。
3、通过WEB查看hadoop查看集群状态 http://192.168.3.131:50070/dfshealth.jsp
查看JOB状态 http://192.168.3.131:50030/jobtracker.jsp


五、注意事项

1、hadoop的安装千万计的修改/etc/hosts文件。修改之后最好是重启机器。

2、master和slaves这2个配置文件可以不拷贝到s132和s133机器上,只在master上保存即可。

3、通过web查看hadoop的时候,如果使用IE一些图形工具显示不出来,建议使用opera或是chrome。

4、如果有些错的地方或是不清楚的地方可以发邮件交流:dajuezhao@gmail.com

分享到:
评论

相关推荐

    Hadoop分布式安装配置.docx

    Hadoop分布式安装配置 Hadoop是当前大数据处理的主流技术之一,由于其开源、可扩展、灵活的特点,广泛应用于大数据处理、数据分析、机器学习等领域。为帮助读者更好地理解Hadoop的安装配置,本文将从大数据概念、...

    hadoop分布式安装02.mp4

    hadoop分布式安装02.mp4

    hadoop分布式安装java与hadoop.docx

    【分布式安装Java与Hadoop】 在进行Hadoop的分布式安装之前,首要任务是确保所有参与节点都安装了相同版本的Java。这是因为Hadoop是用Java编写的,它依赖于Java运行环境来执行其核心服务。在本文中,我们将讨论如何...

    Hadoop分布式安装笔记.rar

    本笔记将深入探讨Hadoop的分布式安装过程,帮助读者理解如何在多台机器上构建一个高效、可靠的Hadoop集群。 首先,Hadoop是Apache软件基金会的一个开源项目,其核心设计目标是处理和存储海量数据。它采用了分片...

    Hadoop完全分布式详细安装过程

    ### Hadoop完全分布式详细安装过程知识点解析 #### 一、概览 本文旨在详细介绍Hadoop在完全分布式环境下的安装步骤及注意事项。整个安装过程分为六个主要部分:安装虚拟化工具VMware、在VMware上安装Ubuntu系统、...

    Hadoop分布式合集【精品】【免积分】

    Hadoop是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来...Hadoop分布式安装与配置手册 Hadoop权威指南原版 hadoop权威指南中文第二版 Hadoop实战-陆嘉恒 分布式基础学习 用+Hadoop+进行分布式并行编程

    Hadoop技术-Hadoop完全分布式安装.pptx

    "Hadoop技术-Hadoop完全分布式安装" Hadoop技术是当前最流行的分布式计算框架之一,广泛应用于数据存储、数据处理和数据分析等领域。Hadoop完全分布式安装是指在多台机器上安装和配置Hadoop,以便更好地处理大规模...

    Hadoop分布式云盘系统

    基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户、我的分享、我...

    Hadoop分布式文件系统——翻译

    ### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...

    hadoop 分布式缓存源码

    Hadoop分布式缓存是Hadoop生态系统中的一个重要组成部分,它允许应用程序在执行MapReduce任务时共享和重用数据,从而提高整体性能。这份源码提供了深入理解Hadoop如何管理和利用分布式缓存的机会,对于想要优化...

    Hadoop分布式文件系统:架构和设计.doc

    Hadoop分布式文件系统架构和设计 Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式...

    高可用性的HDFS-Hadoop分布式文件系统深度实践.part1.rar

    《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...

    Hadoop分布式集群配置指南

    Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf

    第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...

    基于Hadoop分布式交通大数据存储分析平台设计.pdf

    本文将讨论如何基于Hadoop分布式存储与分析平台解决这一问题。 Hadoop是一个开源的分布式存储和处理大数据的框架,它能有效地存储和处理PB级别的数据。Hadoop的核心是HDFS(Hadoop Distributed File System),它...

    centos7安装和基础环境配置:Hadoop分布式搭建前期准备工作.docx

    CentOS7安装和基础环境配置:Hadoop分布式搭建前期准备工作 CentOS7是 Linux 操作系统的发行版本之一,广泛应用于服务器和超级计算机领域。Hadoop是一个基于分布式计算的开源框架,广泛应用于大数据处理和分析领域...

    基于Hadoop分布式爬虫设计综述.docx

    基于Hadoop分布式爬虫设计综述 Hadoop分布式爬虫设计是当今互联网发展的最大挑战之一,旨在快速高效和安全地让网络用户在浩瀚的信息海洋中找到并获取自己所需的资源。本文主要阐述了基于Hadoop分布式文件系统HDFS...

    Hadoop分布式配置文件hdfs-site.xml

    Hadoop分布式配置文件hdfs-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、mapred-site.xml和yarn-site.xml...

    Hadoop分布式配置文件mapred-site.xml

    Hadoop分布式配置文件mapred-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、hdfs-site.xml和yarn-site.xml...

Global site tag (gtag.js) - Google Analytics