搭建准备工作:
1.
四台主机
:
192.168.1.34—master-namenode
192.168.1.32—slave-datanode1
192.168.1.33—slave-datanode2
192.168.1.37—slave-datanode3
编辑每台主机的
/etc/hosts
文件内容,在最后面添加:
192.168.1.34
namenode
192.168.1.33
datanode1
192.168.1.32
datanode2
192.168.1.37
datanode3
使得各个主机之间能够相互
ping
的通
关闭每台机器的防火墙以及
SELinux
2.JDK
安装
:
每台主机都需要安装
要求版本在
jdk1.6
以上
# rpm -qa | grep
java
输出如下内容
:
java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
进行卸载
:
#rpm -e --nodeps
java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
#rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
然后现在就可以使用从官网下载的完整
jdk
进行安装了
(
最简单的
RPM
安装
)
接下来进行
JDK
环境变量配置:
# vi /etc/profile
在最后面加上以下几行:
export JAVA_HOME=/usr/java/jdk1.6.0_27
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
然后修改默认的
jdk
设置:
# cd /usr/bin/
# ln –s –f /usr/java/jdk1.6.0_18/jre/bin/java
# ln –s –f /usr/java/jdk1.6.0_18/jre/bin/javac
此时在检测下
jdk
版本
# java –version
SSH
环境搭建
:
每台主机都需要安装
yum install –y openssh
添加一个用户
grid
#useradd –m grid
设置密码
#passwd grid
设置密钥
#cd ~
#mkdir .ssh
#ssh-keygen –t rsa
然后一直按回车下去,既可以形成一对公私密钥对。
#cd .ssh
把公钥拷贝到各个主机上,是的各个主机之间能够实现无密码连接
#cp id_rsa.pub authorized_keys
#scp authorized_keys datanode2:/home/grid/.ssh
#scp authorized_keys datanode3:/home/grid/.ssh
进入所有主机的
.ssh
目录,改变
authorized_keys
文件的许可权限:
#chmod 644 authorized_keys
以后各台主机相连接只需要第一次输入密码:
配置
Hadoop
Hadoop-0-20.2
版本(最新版本)下载
http://mirror.bjtu.edu.cn/apache/hadoop/core/hadoop-0.20.2/
解压
#tar –zxvf
hadoop-0.20.2.tar.gz
#cp –r hadoop-0.20.2
/home/grid/
a.
配置
core-site.xml hdfs-site.xml mapred-site.xml
b.
配置
conf/masters
删除
localhost
,加入
namenode(
主机名称
)
c.
配置
conf/slaves
删除
localhost
,加入数据节点。每行一个主机名称
datanode1
datanode2
datanode3
d.
配置
conf/hadoop-env.sh
知道到
JAVA_HOME
那一行,改动如下:
export JAVA_HOME=/usr/java/jdk1.6.0_27
e.
将配置好的
hadoop
文件拷贝到其他几台数据节点上面
#scp –r
hadoop-0.20.2 datanode1:/home/grid/
#scp –r
hadoop-0.20.2 datanode2:/home/grid/
#scp –r
hadoop-0.20.2 datanode3:/home/grid/
Hadoop
运行
(
从
namenode
启动即可
)
文件系统格式化
#bin/hadoop
namenode –format
启动所有
namenode datanode JobTracker
Secondary TaskTracker
#bin/start-all.sh
使用命令检查各个节点上得启动情况:
#/usr/java/jdk1.6.027/bin/jps
访问
Web
界面:
修改
Windows
的
hosts
使得浏览器可以访问
http://namenode:50070/
http://namenode:50030/
测试
WordCount
(在前台节点测试)
#mkdir in
#cd in
#echo “hello world” >f1.txt
#echo “hello hadoop” >f2.txt
在
hdfs
上创建一个
/tmp/input
文件夹
#bin/hadoop fs -mkdir /tmp/input
把本地的
in
文件内容考到
hdfs
中的
/tmp/input
文件夹中去
#bin/hadoop fs -put /home/grid/hadoop-0.20.2/in
/tmp/input
# bin/hadoop jar hadoop-0.20.2-examples.jar
wordcount /tmp/input/
output
查看结果(在
hdfs
中的默认目录是
/user/root/
)
#bin/hadoop dfs –cat /user/root/output/*
分享到:
相关推荐
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程 按照文档中的操作步骤,一步步操作就可以完全实现hadoop2.2.0版本的完全分布式集群搭建过程
资源名称:linux hadoop搭建手册以及三种集群模式配置内容简介: linux hadoop搭建手册以及三种集群模式配置前半部分主要讲述了环境配置 环境配置环境配置;后半部分主要讲述Hadoop集群有三种运行模式,分别为单机...
操作手册-hadoop集群伪分布式搭建v1.12.0.md
### Hadoop分布式平台搭建手册 #### 一、安装开发集群于Windows环境 ##### 目的 本章节的主要目的是介绍如何在多台计算机上(本文档案例中为4台)搭建Hadoop开发集群,并确保读者能够运行由Hadoop开发者提供的示例...
### Hadoop-2.6.0 分布式部署详解 #### 一、环境说明与配置需求 ##### 1.1 安装环境说明 ...以上内容为Hadoop-2.6.0分布式部署的基本流程与关键配置点,希望对正在学习或实践Hadoop集群部署的朋友有所帮助。
通过本手册的学习,您将了解如何从零开始搭建一个基本的Hadoop集群。 #### 二、安装前准备 1. **下载安装介质**: - 下载地址:`...
1. **主机**:确保你有至少两台或更多的服务器来搭建Hadoop集群,这些主机应具有足够的硬件资源,如内存、CPU和磁盘空间。 2. **用户**:通常,我们使用非root用户来运行Hadoop服务,以避免权限问题。创建一个新...
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程.
1. **Hadoop安装与配置**:包括Hadoop环境的搭建,配置文件详解,以及如何进行单机模式、伪分布式模式和完全分布式模式的安装。 2. **HDFS原理**:讲解HDFS的数据存储模型,命名空间,副本策略,以及数据块的读写...
Hadoop高可用集群搭建手册 本文档主要介绍了Hadoop 2.6高可用集群的搭建过程,包括集群规划、搭建准备、集群搭建和配置等步骤。下面是从中提取的知识点: 1. 集群规划 在规划Hadoop集群时,需要考虑到集群的拓扑...
Hadoop+HBase集群搭建详细手册 本文将详细介绍如何搭建Hadoop+HBase集群,包括前提准备、机器集群结构分布、硬件环境、软件准备、操作步骤等。 一、前提准备 在搭建Hadoop+HBase集群之前,需要准备以下几个组件:...
### Hadoop环境搭建手册 #### 一、Hadoop简介 Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。该框架由Apache软件基金会维护,是大数据领域内最重要的技术之一。Hadoop的核心组件包括MapReduce和...
基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark ...
通过阅读本书,读者不仅能够了解到如何搭建和配置Hadoop集群,还能学习到如何优化Hadoop作业的性能,处理数据的输入输出,以及如何使用Hadoop生态系统中的其他工具,如Hive、Pig和HBase等,来辅助解决各类数据处理...
Hadoop环境搭建手册 Hadoop,作为开源的分布式计算框架,是云计算领域的重要组成部分,尤其在大数据处理上表现卓越。本手册将详细讲解如何搭建一个完整的Hadoop环境,包括所有基本信息,供读者参考并实操。 **...
《Hadoop 0.20.1 配置手册》是一本针对Hadoop早期版本0.20.1的详细配置指南,对于理解和操作Hadoop集群具有重要价值。Hadoop作为一个开源的大数据处理框架,其核心组件包括HDFS(分布式文件系统)和MapReduce(并行...
5. **Hadoop安装与配置**:从安装Java环境到搭建Hadoop集群,再到配置Hadoop参数,这些实践步骤是每个开发者都需要掌握的。 6. **数据输入与输出**:学习如何使用Hadoop的InputFormat和OutputFormat,以及...
hadoop 中文手册 Hadoop文档 下面的文档是一些概念介绍和操作教程,可帮助你开始使用Hadoop。...Hadoop集群搭建 Hadoop分布式文件系统 Hadoop Map-Reduce教程 Hadoop本地库 API参考 维基 常见问题
【Ubuntu10.04下Hadoop-0.20.2集群配置手册】 这篇文档主要介绍了如何在Ubuntu 10.04操作系统环境下配置Hadoop-0.20.2集群,包括集群的硬件环境准备、软件环境的搭建、SSH无密码验证以及Hadoop的配置步骤。 首先,...