Hadoop 安装手册
-
软件准备
-
a) CentOS6.2 b4bit ,需要安装 DEV 包,分区采用基本分区方式、关闭防
火墙、关闭 SELinux
-
b) Oracle Javase 1.6.37 64bit(JDK)
-
c) Hadoop1.0.4,从 http://hadoop.apache.org 下载
-
-
硬件规划
-
a) NameNode 采用高可靠性 X86 64 服务器,内存建议 64G 以上,CPU
4core 以上,支持 HT,采用冗余电源,磁盘做 Raid1
-
b) DataNode 采用终端硬件,内存建议在 32G 以上,CPU 4Core 以上,支
持 HT,使用 SATA 硬盘即可
-
-
规划角色
主机名 |
角色 |
master |
NameNode、Jobtracker |
secondmaster |
Secondary NameNode |
slave01 |
Datanode、Tasktracker |
slave02 |
Datanode、Tasktracker |
slave03 |
Datanode、Tasktracker |
slave04 |
Datanode、Tasktracker |
slave05 |
Datanode、Tasktracker |
-
规划目录
-
创建帐号
# useradd hadoop # passwd hadoop -
配置环境变量 # su – hadoop
$ vi ~/.bash_profile
文件尾增加如下内容
export JAVA_HOME=/opt/jdk
export JAVA_BIN=$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/tools.jar export HADOOP_HOME=~/hadoop
export HADOOP_BIN=$HADOOP_HOME/bin
export PATH=.:$JAVA_BIN:$HADOOP_BIN:$PATH
$source ~/.bash_profile
目录 |
说明 |
/home/hadoop/data/nn |
Namenode 元数据 |
/home/hadoop/data/snn |
Secondary Namenode 元数据 |
/home/hadoop/data/dn |
Datanode 数据 |
/opt/jdk |
Oracle Java |
7. 配置主机名及IP映射
# vi /etc/sysconfig/network
例,Namenode 角色节点变更如下
HOSTNAME=master
其它节点根据角色,根据上面第三点进行设置主机名称
# reboot
# vi /etc/hosts
master 节点中文件内容形如,IP 地址仅是样例,需要根据实际情况规划 IP 地址
127.0.0.1
192.168.0.10
192.168.0.11
192.168.0.12
192.168.0.13
192.168.0.14
192.168.0.15
192.168.0.16
配置好后,将此文件分发到其它几点上
# scp /etc/hosts secondmaster:/etc/hosts
# scp /etc/hosts slave01:/etc/hosts
...
-
SSH 互信配置
例在 master 节点上执行$ ssh-keygen (说明:一路回车)
$ cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys $ scp –r ~/.ssh secondmaster:.
$ scp –r ~/.ssh slave01:.
... -
配置Hadoop
前提把 hadoop-1.0.4.tar.gz 分发到所有节点上的/home/hadoop 目录下 $ tar –zxvf ~/hadoop-1.0.4.tar.gz
$ ln –s hadoop-1.0.4 hadoop
所有节点均执行此操作hadoop 配置文件均在$HADOOP_HOME/conf 目录下
配置 core-site.xml <configuration>
<property> <name>fs.default.name</name> <value>hdfs://master:9000</value>
localhost
master secondmaster
slave01 slave02 slave03 slave04 slave05
<description>NN listening port</description> </property>
<property>
<name>fs.checkpoint.dir</name> <value>/home/hadoop/data/snn</value> <description>2nd NN metadata folder</description>
</property> </configuration>
配置 hdfs-site.xml <configuration>
<property>
<name>dfs.name.dir</name> <value>/home/hadoop/data/nn</value> <description>NN metadata folder</description>
</property> <property>
<name>dfs.data.dir</name> <value>/home/hadoop/data/dn</value> <description>DN file data folder</description>
</property> <property>
<name>dfs.replication</name>
<value>3</value>
<description>data replica copy number</description>
</property> </configuration>
配置 mapred-site.xml <configuration>
<property>
<name>mapred.job.tracker</name> <value>master:9001</value> <description>JobTracker listening port</description>
</property> </configuration>
配置 masters secondmaster
配置 slaves slave01 slave02 slave03
slave04 slave05
所有节点的配置文件均相同 10. 配置 NTP 服务
在 master 上配置服务端
# vi /etc/ntp.conf
内容形如:
restrict default nomodify notrap noquery
restrict 127.0.0.1 restrict 192.168.0.0 mask 255.255.255.0 nomodify notrap server 0.asia.pool.ntp.org
server 1.asia.pool.ntp.org server 2.asia.pool.ntp.org server 3.asia.pool.ntp.org server 127.127.1.0
fudge 127.127.1.0 stratum 10
# /etc/init.d/ntpd restart
在其它节点执行
# crontab –e
*/15 * * * * ntpdate master
11. 格式化 HDFS
$ hadoop namenode –format
12. Hadoop 服务启动、停止 启动服务
$ start-all.sh
停止服务
$ stop-all.sh
13. Hadoop WEB UI http://master:50070 HDFS UI http://master:50030 MapReduce UI
14. 测试 Hadoop 集群
$hadoop jar tsinput
$ hadoop jar tsoutput
teragen 100 $HADOOP_HOME/hadoop-examples-*.jar terasort tsinput
$HADOOP_HOME/hadoop-examples-*.jar
$ hadoop fs -ls tsoutput
$ hadoop fs -cat tsoutput/part-00000
正常执行完成,即说明 Hadoop 集群运行正常 15. 备注
提示符“#”代表以 root 帐号执行
提示符“$”代表以 hadoop 帐号执行
相关推荐
hadoop安装手册,详细介绍如何安装配置hadoop,可按照步骤进行安装
hadoop2.0版本安装手册,包含hadoop、hive、hbase、mahout、sqoop、spark、storm、整个体系的安装配置
第 4 章 安装部署 Hive 444.1 解压并安装 Hive 44
包括hadoop安装手册,hadoop2.7.3安装包的对应的jdk1.8版本安装包
Hadoop安装部署手册是针对初学者的全面指南,旨在帮助用户了解和实践Hadoop的安装与运行。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据集。以下是详细的步骤和关键知识点:...
CentOS6.0-Hadoop安装手册,详细介绍centos下hadoop的搭建过程
《CDH安装手册》是大数据领域的一份重要参考资料,主要针对Hadoop的安装与部署进行详细阐述。CDH,全称Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个开源大数据平台,它包含了多个...
《单结点Hadoop安装手册》是一份详细指导如何在单台计算机上搭建Hadoop伪分布式环境的文档。本文档适用于希望通过实践学习和熟悉Hadoop操作的个人,尤其适合初学者进行自我训练。作者建议使用RHEL6.0作为操作系统,...
Hadoop安装手册 详细的介绍了怎么去安装Hadoop和安装过程中出现的一系列问题的解决方案
### Hadoop完全分布式安装手册 #### 一、环境规划与准备 在进行Hadoop的完全分布式安装之前,首先需要对整个环境进行规划和必要的准备工作。根据文档提供的信息,本手册将涉及以下三个主要方面: 1. **JDK安装**...
hadoop安装手册:主要包括:安装JDK;安装Hadoop;安装mysql;安装Hive;安装HBase;安装Mahout;安装 Sqoop;安装Spark;安装zookeeper;安装Storm;安装kafka
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
首先,确保所有服务器的软件版本与手册中指定的一致,例如JDK1.7、Zookeeper3.4.6、Hadoop2.6.0、Hbase1.1.5、Hive2.1.0以及Kylin1.5.0。在开始集群安装之前,有几点基础准备至关重要: 1. 关闭防火墙:防火墙可能...
在本文中,我们将深入探讨如何在Linux环境下安装Hadoop的伪分布式模式,主要关注点在于准备阶段、系统配置、SSH免密码连接、JDK安装以及Hadoop的安装和配置。以下是对每个环节的详细说明: 1. **版本选择与服务器...
hadoop 2.0 详细安装手册。hadoop 2.0 详细安装手册。
整个安装手册的编写非常详尽,涵盖了从硬件规划到服务配置、启动和验证的全过程,给初学者提供了一套全面的Hadoop安装指南。对于想要在生产环境中部署Hadoop集群的系统管理员和技术人员来说,这个手册是一个宝贵的...
Hadoop 安装文档