`
aijuans
  • 浏览: 1568147 次
社区版块
存档分类
最新评论

hadoop(1.2) 分布式部署

阅读更多

1. 部署环境

系统:  CentOS 6.3

需要安装jdk.

JDK的RPM下载地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

hadoop手册地址: http://hadoop.apache.org/docs/r1.2.1/index.html

关闭iptables和selinux

1
2
3
4
/etc/init.d/iptables stop
chkconfig iptables off
sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config
setenforce 0

 

2. SSH配置

1
2
3
4
5
6
7
8
9
useradd hadoop
echo 123456 | passwd --stdin hadoop
su - hadoop
 
ssh-keygen -t rsa                                      #生成密钥对
ssh-copy-id user@ip                                    #将ssh公钥copy到指定的主机
 
cd .ssh #每台服务器本机也需要配置ssh免密码登录
cat id_rsa.pub  >> authorized_keys

 

3. 部署hadoop

官网: http://hadoop.apache.org/

下载: http://mirror.bit.edu.cn/apache/hadoop/common/

1
2
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
tar xf hadoop-1.2.1.tar.gz

 

修改配置

     1.    conf/hadoop-env.sh

这是一个脚本文件,主要是用来初始化hadoop环境的.

修改JAVA_HOME变量, 告诉在那里可以找到java ,  这里安装的是oracle jre的rpm,如下配置..

1
2
vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_67

 

    2.    conf/core-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<configuration>
  <property>
    <name>fs.default.name</name>                      #指定名称节点在哪里...
    <value>hdfs://hadoop1:9000</value>                #名称节点是hadoop1, 也可以写成ip地址.
  </property>
 
  <property> 
    <name>hadoop.tmp.dir</name>                       #指定hadoop的临时文件目录,如果不指定会使用/tmp
    <value>/home/hadoop/hadoop-1.2.1/tmp</value>      #要记得创建目录 mkdir /home/hadoop-1.2.1/tmp
  </property>
 
  <property>
   <name>fs.trash.interval</name>                     #指定回收站的清空间隔
   <value>21600</value>                               #单位是分钟
   <description>
     Number of minutes between trashcheckpoints. If zero, the trash feature is disabled
   </description>
  </property>
</configuration>

 

     3.  conf/hdfs-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
<configuration>
  <property>
    <name>dfs.replication</name>                          #定义hdfs的复制因子,保存多少副本数
    <value>2</value>                                      #如果是1的话,不复制..
  </property>
 
  <property>
    <name>dfs.block.size</name>
    <value>67108864</value>
    <description>The default block size for new files.</description>
  </property>
</configuration>

 

    4. conf/mapred-site.xml

1
2
3
4
5
6
<configuration>
  <property>
    <name>mapred.job.tracker</name>                       #指定jobtracker的地址和监听端口
    <value>hadoop1:9001</value>
  </property>
</configuration>

 

     5.  conf/masters

1
hadoop1                                               #在文件中指定充当master的主机名称

 

     6.  conf/slaves

1
2
hadoop2                                               #在文件中指定充当salve的主机名称
hadoop3

 

    7.  修改hosts

1
2
3
4
vi /etc/hosts
192.168.188.210 hadoop1
192.168.188.220 hadoop2
192.168.188.230 hadoop3

 

    8. 将hadoop目录scp到其他的设备上

所有的hadoop的内容都是一样的,直接scp -r过去就可以了

1
2
cd /home/hadoop
scp -r hadoop-1.2.1 ip:/home/hadoop

 

    9. 格式化名称节点

1
2
3
4
5
cd hadoop-1.2.1
./bin/hadoop namenode -format
 
如果最后面的信息有下面这样的表示成功...
14/08/30 11:37:05 INFO common.Storage: Storage directory /home/hadoop/hadoop-1.2.1/tmp/dfs/name has been successfully formatted.

 

4.  启动hadoop

1
./bin/start-all.sh

 

如果第一次启动不成功,可以运行jps命令查看进程

如果安装的是oracle jdk 的rpm

/usr/java/jdk1.7.0_67/bin/jps  如果有hadoop的进程,可以运行kill命令将其杀掉,然后在启动..

启动后的日志在logs目录中

jobtracker  namenode  secondarynamenode 日志默认都在master上...

tasktracker  datanode    在所有slave的logs中.

 

5.  启动后的检查

通过jps命令查看,    java的进程统计列表

1
/usr/java/jdk1.7.0_67/bin/jps

 

 

总结:

1. 配置hosts文件

2. 建立hadoop运行账号

3. 配置ssh免密码登录

4. 下载并解压hadoop安装包

5. 配置namenode, 修改site文件

6. 配置hadoop-env.sh

7. 配置masters和slaves文件

8. 向各节点复制hadoop

9. 格式化namenode

10. 启动hadoop

11. 用jps检验各后台进程是否成功启动

3
0
分享到:
评论
1 楼 378629846 2014-11-26  
感谢楼自己分享,我的hadoop-0.20.2版本也部署成功

相关推荐

    Hadoop3.0分布式集群搭建(HA)详细文档.docx

    Hadoop 3.0 分布式集群搭建(HA)详细文档 本资源摘要信息主要介绍了 Hadoop 3.0 分布式集群搭建的详细步骤和要求,从搭建前的准备工作到集群的安装和配置,涵盖了主机规划、软件规划、用户规划、数据目录规划、...

    HBase 1.2 分布式安装分享

    ### HBase 1.2 分布式安装分享 #### 一、概述 HBase是Apache Hadoop生态系统中的一个重要的组成部分,它提供了一种分布式的、面向列的存储系统,能够处理非常大量的数据,并且可以实时地进行读写操作。本文档主要...

    Linux下Hadoop的分布式配置和使用.doc

    在部署Hadoop集群前,你需要确保所有节点间网络连通,并且能互相识别。这通常意味着节点间的ping测试应是畅通的,且每个节点的主机名和IP地址对应关系需明确。 ### 2. `/etc/hosts` 文件配置 在所有节点上,都需要...

    Hadoop完全分布式集群总结

    文章目录Hadoop完全分布式集群搭建一、新建虚拟机二、规划集群与服务1、逻辑结构2、物理结构3、总结构三、配置集群1、主节点基础网络配置1.1、配置固定ip地址1.2、修改主机名1.3、配置dns1.4、配置 ip 地址和主机名...

    centos7安装和基础环境配置:Hadoop分布式搭建前期准备工作.docx

    CentOS7安装和基础环境配置:Hadoop分布式搭建前期准备工作 CentOS7是 Linux 操作系统的发行版本之一,广泛应用于服务器和超级计算机领域。Hadoop是一个基于分布式计算的开源框架,广泛应用于大数据处理和分析领域...

    Hadoop分布式文件系统架构

    ### Hadoop分布式文件系统(HDFS)架构及源码分析 #### 一、HDFS的架构和设计分析 ##### 1.1 引言 Hadoop分布式文件系统(HDFS)是一种专门为运行在通用硬件上的分布式文件系统而设计的解决方案。与其他分布式文件...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ode方案 1.4.4 ...

    Linux环境Hadoop2.6+Hbase1.2集群安装部署

    在构建大数据处理环境时,Linux环境下的Hadoop2.6+Hbase1.2集群安装部署是基础步骤,而Spark分布式集群的搭建则是提升数据处理效率的关键。这些技术的组合使用,可以为大规模数据处理提供高效、可靠的解决方案。 ...

    Hadoop集群部署方案.docx

    Hadoop 集群部署方案是指在分布式系统中部署 Hadoop 集群的详细步骤和配置过程。下面是该方案的详细知识点解释: 1. Hadoop 简介 Hadoop 是Apache软件基金会旗下的开源项目,主要用于大数据处理和存储。Hadoop 的...

    Linux中安装Hadoop全分布部署

    在Linux环境中部署Hadoop全分布式集群是一项复杂但重要的任务,主要涉及到系统配置、网络通信、安全设置以及Hadoop自身的配置等多个方面。以下是按照部署步骤详细解释各知识点: 1. **JDK安装与环境变量配置**: ...

    Hadoop2.2部署文档

    《Hadoop2.2部署指南》 在当前的数字化时代,大数据处理已成为企业的重要需求,而Hadoop作为开源的大数据处理框架,因其高效、可扩展的特性,深受业界青睐。本指南将详细介绍如何在Red Hat Enterprise Linux Server...

    ubuntu分布式部署zookeeper和hbase

    ### Ubuntu分布式部署Zookeeper与HBase #### 一、Zookeeper 安装 **1.1 版本信息** - **虚拟机版本:** VMware 14 - **系统版本:** Ubuntu 18.04 - **Zookeeper版本:** 3.4.12 - **Java版本:** 1.8 **1.2 安装步骤...

    hadoop、hbase、hive、zookeeper版本对应关系续(最新版)(2015)

    2. 在Hadoop 1.2的环境下部署HBase时,应避免使用HBase 0.95.0版本,因为这可能导致与Hive 0.11.0的不兼容问题。 3. 对于Hadoop 2.2版本,推荐使用HBase 0.96及Hive 0.12或更高版本,但需注意可能出现的小问题。 4...

    基于Ubuntu的Hadoop简易集群安装与配置

    Hadoop的核心组件包括HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)和MapReduce,它们共同为大规模数据处理提供了强大的技术支持。 本实验旨在通过构建基于Ubuntu的Hadoop简易集群,深入理解...

    hadoop集群部署.docx

    1.2 稍专业点的解释:Hadoop基于“主-从”架构,其中Master节点(NameNode和ResourceManager)负责全局管理和调度,Slave节点(DataNode和NodeManager)负责数据存储和任务执行。HDFS保证数据的冗余备份,提高数据的...

    hadoop 1.2.1 api 最新chm 伪中文版

    hadoop 1.2 api 伪中文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!hadoop是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分...

    Hadoop2.6.2、Hbase1.1.2 HA

    在HA模式下,Hadoop通过NameNode的热备和ResourceManager的集群部署来提供服务的不间断运行。NameNode负责管理HDFS的元数据,而HA确保即使主NameNode故障,备用NameNode也能无缝接管,保证数据的可访问性。同时,...

Global site tag (gtag.js) - Google Analytics