10分钟搭建Hadoop集群
1. 准备
3台Linux机器或虚拟机,安装了CentOS6/Redhat6/Ubuntu;
在所有机器上都安装了ssh和rsync,ubuntu安装例子:
$ sudo apt-get install ssh $ sudo apt-get install rsync
|
安装java。
2. 规划节点:
将其中一台机器作为master作为NameNode,另外两台作为DataNode,命名3台机器为:node1,node2,node3,这里将node1作为NameNode,node2,node3作为dataNode;
在所有机器的/etc/hosts中加入hostname配置信息,加入如下例子中的红色部分:
127.0.0.1 localhost
# The following lines are desirable for IPv6 capable hosts
::1 ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
192.168.1.11 node1
192.168.1.12 node2
192.168.1.13 node3
|
3. 环境准备:
为方便管理和安装,在所有机器上创建同一个hadoop用户,以下所有操作都在此账户下进行。
设置无密码登陆,在node1上创建public密钥,并将public密钥copy到其他节点机器,并将public密钥导入到所有机器(包括本机):
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
|
导入密钥后,在node1上,分别用ssh localhost;ssh node1;ssh node2;ssh node3测试密钥安装正确,并能无密码登陆。
规划hadoop数据目录,在所有机器上创建如下目录:
$ mkdir ~/data
$ mkdir ~/data/hdfs
$ mkdir ~/data/hdfs/name #namenode
$ mkdir ~/data/hdfs/data #datanode
$ mkdir ~/data/hdfs/tmp #临时文件夹
|
修改配置文件:
hadoop-1.0.4/conf/hadoop-env.sh 中指定JAVA_HOME:
# The java implementation to use. Required.
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
export JAVA_HOME=/opt/java/jdk1.6.0_24
# Extra Java CLASSPATH elements. Optional.
# export HADOOP_CLASSPATH=
|
hadoop-1.0.4/conf/core-site.xml
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/data/hdfs/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://node1:9000</value>
</property>
|
hadoop-1.0.4/conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/data/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data/hdfs/data</value>
</property>
|
hadoop-1.0.4/conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>node1:9001</value>
</property>
<property>
<name>mapreduce.jobtracker.system.dir</name>
<value>/home/hadoop/data/hdfs/mapred/system</value>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value>/home/hadoop/data/hdfs/mapred/local</value>
</property>
|
hadoop-1.0.4/conf/masters
hadoop-1.0.4/conf/slaves
4. 同步hadoop所有软件和配置到其他机器
创建目标机器列表文件,并加入目标机器名:/home/hadoop/servers
创建同步脚本:/home/hadoop/cp_hadoop
for host in `cat servers`
do
echo ------------------------------------------------------------------
echo rsync host: $host
ssh $host 'rm -fr /home/hadoop/hadoop-1.0.4'
rsync -avz/home/hadoop/hadoop-1.0.4 $host:/home/hadoop/hadoop-1.0.4
done
|
执行同步脚本: $ ./cp_hadoop
5. 启动所有服务:
$ cd/home/hadoop/hadoop-1.0.4/bin
$ ./start_all.sh
|
6. 访问web界面验证安装:
-
NameNode-http://node1:50070/
-
JobTracker-http://node2:50030/
分享到:
相关推荐
"基于Docker搭建Hadoop集群" 在本文中,我们将介绍如何基于Docker搭建Hadoop集群。Hadoop是大数据处理的常用工具,而Docker则是当前最流行的容器化技术。通过将Hadoop部署到Docker容器中,我们可以更方便地管理和...
脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,其他操作系统会有些...
标题中的“大数据教程之搭建Hadoop集群.zip_大数据环境搭建hadoop”暗示了这是一个关于如何在大数据环境中构建Hadoop集群的教程。Hadoop是Apache软件基金会的一个开源项目,主要用于处理和存储海量数据,其分布式...
在进行搭建Hadoop集群的过程中,需要注意的是本文档提到的参考资料,包括北航王宝会老师在Windows下大数据虚拟集群配置的指导,以及CSDN博主zhishengqianjun关于VMware Fusion配置Nat静态IP的文章,它们为本文档的...
搭建Hadoop集群在LinuxRedHat、CentOS上的实现 Hadoop是一种流行的开源大数据处理平台,由Google开发,现被Apache基金会维护。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce,分别负责数据存储...
在搭建Hadoop集群之前,首先需要准备多台虚拟机。可以使用VMware或VirtualBox等虚拟机软件,创建至少三台虚拟机,分别作为NameNode、DataNode和Secondary NameNode。确保每台虚拟机的网络设置为同一网络模式(如NAT...
Hadoop集群安装笔记是一篇详细的安装指南,旨在帮助新手快速搭建Hadoop学习环境。以下是该笔记中的重要知识点: Hadoop集群安装目录 在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit...
【搭建Hadoop集群详解】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据而设计。它的核心设计理念是高容错性、高效性和可扩展性,这使得Hadoop能够在大规模集群中处理PB级别的数据。Hadoop的可靠性源于...
根据提供的文件信息,下面将详细介绍在虚拟机上搭建Hadoop集群环境的相关知识点。 1. 安装虚拟机和操作系统 首先,需要安装虚拟机软件,例如文档中提到的VMware Workstation,它是一款流行的虚拟化软件,可以安装在...
在搭建Hadoop集群的过程中,配置文件起着至关重要的作用,它们定义了集群的运行方式、节点间通信方式以及数据存储和处理的策略。本压缩包包含的文件是全面的Hadoop集群配置集合,旨在帮助用户顺利构建和管理自己的...
"hadoop集群环境的搭建" Hadoop 是一个开源的大数据处理框架,由Apache基金会开发和维护。它可以实现大规模数据的存储和处理,具有高可扩展性、可靠性和高性能等特点。搭建 Hadoop 集群环境是实现大数据处理的重要...
【描述】:本教程专为初学者设计,详细阐述了如何手动搭建Hadoop集群,步骤详尽,易于理解。 【标签】:Hadoop集群搭建 【正文】: Hadoop是一个开源的分布式计算框架,它允许在普通硬件上处理大量数据。基于...
本篇将详细讲解如何利用Ansible自动安装Hadoop集群。 首先,理解Ansible的工作原理至关重要。Ansible基于SSH(Secure Shell)协议,无需在目标节点上安装任何代理,通过控制节点即可实现远程管理。它使用YAML格式的...
### 基于Hadoop集群搭建HBase集群详解 #### 一、引言 随着大数据技术的迅猛发展,海量数据的高效存储与处理成为企业关注的重点。Hadoop作为一款能够处理大量数据的基础框架,被广泛应用于各类场景之中。然而,在...
hadoop搭建集群笔记.虚拟机搭建hadoop集群
该文档提供了linux环境中搭建hadoop集群(大数据)的步骤,个人认为比较详细,供大家学习
Hadoop 集群架构搭建分析 Hadoop 集群架构搭建分析是指设计和搭建一个高效、可靠、可扩展的 Hadoop 集群环境,以满足大数据处理和分析的需求。本文将从概述、环境准备、环境搭建三个方面对 Hadoop 集群架构搭建进行...
Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验。虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的。 连接服务器 使用 ssh 命令连接远程...