前段时间,搭建了一个hadoop分布式环境,特点在于
1 把定制的配置文件和hadoop源码分开,这样升级hadoop版本的时候,不需要重新修改配置文件;
2 经常要在集群模式/单点模式下进行切换
硬件准备情况:
有4台机器,一台作为namenode,三台作为datanode,机器名分配如下
10.2.224.24 namenode
10.2.224.25 datanode1
10.2.224.26 datanode2
10.2.224.27 datanode3
环境搭建步骤
1.在每台机器上创建一个admin用户,打通从namenode到各个datanode的ssh通道,这个在网上资料很多,不再描述;
2.mkdir /home/admin/hadoop-installed
3. 在 /home/admin/hadoop-installed目录下解压hadoop压缩包,解压为hadoop
4. mkdir /home/admin/hadoop-installed/cluster-conf
5. 在cluster-conf目录下创建如下四个文件
masters
引用
namenode #namenode机器的机器名
slaves
引用
datanode1
datanode2
datanode3
hadoop-site.xml
引用
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/hadoop-installed/filesystem</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:54310</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdsf://namenode:54311</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
hadoop-env.sh
引用
export JAVA_HOME=/usr/ali/java
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
export HADOOP_LOG_DIR=/home/admin/hadoop-installed/logs
6.增加环境变量HADOOP_CONF_DIR
引用
export HADOOP_CONF_DIR=/home/alisoft/hadoop-installed/conf
7.增加single-conf目录,在该目录下也增加如下四个文件
masters
引用
localhost #namenode机器的机器名
slaves
引用
localhost
hadoop-site.xml
引用
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/hadoop-installed/filesystem</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdsf://localhost:54311</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx512m</value>
</property>
</configuration>
hadoop-env.sh
引用
export JAVA_HOME=/usr/ali/java
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_SECONDARYNAMENODE_OPTS"
export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote $HADOOP_DATANODE_OPTS"
export HADOOP_BALANCER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_BALANCER_OPTS"
export HADOOP_JOBTRACKER_OPTS="-Dcom.sun.management.jmxremote $HADOOP_JOBTRACKER_OPTS"
export HADOOP_LOG_DIR=/home/alisoft/hadoop-installed/logs
8. ln -s cluster-conf/ conf 集群模式
或者 ln -s single-conf/ conf 单机调试模式
9. 增加一个同步脚本
引用
DESTSERVER='datanode1 datanode2 datanode3'
for DEST in $DESTSERVER
do
rsync -v -r -l -H -p -g -t -S -e ssh --exclude ".svn" --delete /home/admin/hadoop-installed/conf/ admin@$DEST:/home/admin/hadoop-installed/conf/
rsync -v -r -l -H -p -g -t -S -e ssh --delete /home/admin/hadoop-installed/hadoop/ alisoft@$DEST:/home/admin/hadoop-ins
talled/hadoop/
done
exit 0
分享到:
相关推荐
hadoop的环境搭建过程.方便第一次使用hadoop的同学.快速搭建环境
在本教程中,我们将详细介绍如何在Windows系统下搭建Hadoop环境,内容涉及虚拟机的安装、基础环境配置以及Hadoop集群的具体搭建步骤。适合初学者跟随本教程一步步进行操作。 首先,搭建Hadoop环境需要一台高性能...
HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...
### Hadoop环境搭建手册 #### 一、Hadoop简介 Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。该框架由Apache软件基金会维护,是大数据领域内最重要的技术之一。Hadoop的核心组件包括MapReduce和...
Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验。虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的。 连接服务器 使用 ssh 命令连接远程...
Hadoop 多节点环境搭建 Hadoop 是一种分布式计算技术,能够处理大量数据。搭建 Hadoop 环境是学习和使用 Hadoop 的基础。本文将详细介绍如何搭建多...本文提供了详细的步骤和命令,能够帮助读者快速搭建 Hadoop 环境。
这些资源可以帮助初学者快速理解和配置Hadoop环境,同时也为有经验的开发者提供了便捷的开发资源。 总的来说,搭建Hadoop开发环境是一个涉及多个步骤的过程,包括安装依赖、配置环境、集成开发工具等。理解并掌握...
- Hadoop本地模式主要用于测试和开发,便于快速搭建环境。 - 安装步骤包括下载Hadoop源代码包、解压并配置环境变量。 **2. Hadoop伪分布式模式安装** - 伪分布式模式允许在单台机器上模拟分布式环境,是学习...
本教程旨在指导读者快速搭建一个基于Hadoop的大数据处理环境。适用于新手快速入门,节省时间和精力。在开始之前,请确保具备以下条件: - 已安装VMware Workstation或类似虚拟机软件 - 已安装CentOS 6.7 x64位操作...
hadoop 环境搭建、机器部署以及 Linux 常用命令操作指南 本指南将指导用户从头开始搭建 Hadoop 环境,包括虚拟机环境的准备、Linux 基础知识、shell 增强大数据集群环境准备、ZooKeeper 介绍及集群操作网络编程等...
【Hadoop伪分布式环境搭建详解】 Hadoop作为大数据处理的核心框架,对于初学者和专业开发人员来说,理解并掌握其安装配置至关重要。Hadoop提供了多种运行模式,包括本地模式、伪分布式模式以及集群模式,每种模式都...
王家林教授通过图文教程详细指导了如何从零开始搭建Hadoop环境,提供了极为详尽的操作步骤和解释,帮助初学者能够快速掌握搭建过程,并理解Hadoop的工作原理。此外,他强调了工欲善其事,必先利其器的理念,说明了在...
利用VMWare虚拟机建立3台ubuntu虚拟系统,在此基础上搭建的hadoop完全分布式环境,本人亲测可行
**Hadoop快速入门** 1. **目的**:通过搭建Hadoop环境,学习和理解其工作原理,为实际的大数据处理任务做好准备。 2. **先决条件**: - **支持平台**:Hadoop可以在多种操作系统上运行,如Linux、Windows等。 - ...
在本文中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境。Cygwin是一个为Windows操作系统提供Linux-like环境的开源工具,而Eclipse是一款流行的集成开发环境(IDE),广泛用于Java应用程序的开发...
通过以上步骤,你便能在本地Linux环境中快速搭建一个基本的Hadoop运行环境。然而,实际生产环境中,Hadoop通常会在多台机器上以集群模式运行,这时还需要考虑网络配置、数据分布策略、容错机制等更复杂的因素。
【Hadoop环境部署自动化Shell脚本】是一种高效的方法,用于快速搭建Hadoop集群,无论是用于学习还是开发。本文档提供了一个详细的脚本,涵盖了从Java环境配置到Hadoop集群的完全分布式安装的所有步骤,旨在降低...
### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...
通过以上步骤,您已经成功在现有的Hadoop集群环境中搭建了HBase集群。这将极大地提高对存储在Hadoop上的数据的访问效率,并支持更多复杂的数据查询需求。需要注意的是,实际部署过程中可能还会遇到一些具体的配置...