1部署介绍
1.1环境说明
集群中包括4个节点:1个Master,3个Salve,节点之间局域网连接,可以相互ping通。节点IP地址分布如下:
机器名称 |
IP地址 |
Master |
192.168.1.2 |
Salve1 |
192.168.1.3 |
Salve2 |
192.168.1.4 |
Salve3 |
192.168.1.5 |
Master机器主要配置NameNode和JobTracker的角色,负责总管分布式数据和分解任务的执行;3个Salve机器配置DataNode和TaskTracker的角色,负责分布式数据存储以及任务的执行。
1.2网络配置
1)查看当前机器名称
用下面命令进行显示机器名称,如果跟规划的不一致,要按照下面进行修改。
hostname
2)修改机器名
1. 打开/etc/hostname文件;
sudo gedit /etc/hostname
2. 将/etc/hostname文件中的ubuntu改为你想取的机器名。重启系统后才会生效。
3)配置hosts文件(必须)
"/etc/hosts"这个文件是用来配置主机将用的DNS服务器信息,是记载LAN内接续的各主机的对应[HostName和IP]用的。当用户在进行网络连接时,首先查找该文件,寻找对应主机名(或域名)对应的IP地址。
sudo gedit /etc/hosts
2.创建hadoop用户组和用户
2.1. 创建hadoop用户组;
sudo addgroup hadoop
2.2. 创建hadoop用户;
sudo adduser -ingroup hadoop hadoop
2.3. 给hadoop用户添加权限;
sudo gedit /etc/sudoers
按回车键后就会打开/etc/sudoers文件了,给hadoop用户赋予root用户同样的权限。
在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL
3. SSH无密码验证配置
3.1安装SSH
sudo apt-get install ssh安装SSH协议
sudo apt-get install rsync (rsync是一个远程数据同步工具)
3.2配置节点间无密码登录
1
、转换成
hadoop
用户
su hadoop
2、生成无密码密钥对
ssh-keygen –t rsa –P “”
3、把id_rsa.pub追加到授权的key里面去
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4、修改文件"authorized_keys"权限
chmod 600 ~/.ssh/authorized_keys
5、用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径(和上面生成的文件同)
6、退出root登录,使用hadoop普通用户验证是否成功。
ssh localhost
7、接下来的事儿是把公钥复制所有需要无密码访问的机器上。使用下面的命令格式进行复制公钥:
scp ~/.ssh/id_rsa.pub 远程用户名@远程服务器IP:~/
8、然后将公钥追加到该节点的授权文件"authorized_keys"中去
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
9、最后记得把"/home/hadoop/"目录下的"id_rsa.pub"文件删除掉。
rm –r ~/id_rsa.pub
4Java环境安装
所有的机器上都要安装JDK,现在就先在Master服务器安装,然后其他服务器按照步骤重复进行即可。安装JDK以及配置环境变量,需要以"root"的身份进行。
4.1安装jdk
1、首先用root身份登录"Master.Hadoop"后在"/usr"下创建"java"文件夹
mkdir /usr/java
2、把相应的安装包复制到/usr/java目录下
cp /home/hadoop/ jdk-6u31-linux-i586.bin /usr/java
3、接着进入"/usr/java"目录下通过下面命令使其JDK获得可执行权限,并安装JDK。
chmod +x jdk-6u31-linux-i586.bin(修改权限)
./jdk-6u31-linux-i586.bin(运行)
4、该过程可以直接下载jdk*.tar.gz包解压之后移动到/usr/java目录下,然后修改所属用户和组。
chown -R root:root /usr/java
4.2配置环境变量
编辑"/etc/profile"文件,在后面添加Java的"JAVA_HOME"、"CLASSPATH"以及"PATH"内容。
# set java environment
export JAVA_HOME=/usr/java/jdk1.6.0_31
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
4.3生效并验证
source /etc/profile
java -version
5 hadoop集群安装
5.1安装hadoop
1、下载hadoop并解压,然后将解压后的文件夹移动到合适的目录下,并把读权限分配给hadoop用户(非常重要)
chown –R hadoop:hadoop hadoop-1.2.1
2、把Hadoop的安装路径添加到"/etc/profile"中,修改"/etc/profile"文件(配置java环境变量的文件),将以下语句添加到末尾,并使其有效:
# set hadoop path
export HADOOP_HOME_WARN_SUPPRESS=1
export HADOOP_HOME=#####
export PATH=$PATH :$HADOOP_HOME/bin
5.2配置hadoop
1)配置hadoop-env.sh
该"hadoop-env.sh"文件位于"~/conf"目录下。
export JAVA_HOME=/usr/java/jdk1.6.0_31
2)配置core-site.xml文件
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>$HADOOP_HOME/tmp</value>
(备注:请先在 /usr/hadoop 目录下建立 tmp 文件夹)
<description>A base for other temporary directories.</description>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.1.2:9000</value>
</property>
</configuration>
3)配置hdfs-site.xml文件
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
(备注:replication 是数据副本数量,默认为3,salve少于3台就会报错)
</property>
<configuration>
4)配置mapred-site.xml文件
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>http://192.168.1.2:9001</value>
</property>
</configuration>
5)配置masters文件
去掉"localhost",加入Master机器的IP:192.168.1.
sudo gedit masters
6)配置slaves文件(Master主机特有)
去掉"localhost",加入集群中所有Slave机器的IP,也是每行一个。
sudo gedit slaves
7)克隆hadoop
将 Master上配置好的hadoop所在文件夹复制到所有的Slave的对应目录下(实际上Slave机器上的slavers文件是不必要的,复制了也没问题)。(备注:此时用户可以为hadoop也可以为root),修改权限,配置/etc/profile
5.3启动
1)格式化HDFS文件系统
在"Master "上使用普通用户hadoop进行操作。(备注:只需一次,下次启动不再需要格式化,只需 start-all.sh)
hadoop namenode –format
2)启动hadoop
start-all.sh
相关推荐
部署Hadoop涉及安装和配置Hadoop集群的各个组件,这包括HDFS、MapReduce以及Hadoop 2.0引入的YARN。Hadoop集群可以部署在物理服务器上,也可以部署在虚拟化环境中。对于企业的实际应用来说,部署前的规划尤为重要,...
这包括配置Hadoop的运行环境,如安装Java环境,设置Hadoop的环境变量,配置Hadoop的配置文件如core-site.xml、hdfs-site.xml和mapred-site.xml等。同时,理解Hadoop的伪分布式和完全分布式模式也是必备的知识点。 ...
这个名为“hadoop-1.0源代码(全)”的压缩包包含的是一整套Hadoop 1.0版本的源代码,这对于开发者来说是一个宝贵的资源,可以深入理解Hadoop的工作原理和实现细节。 在压缩包中,我们可以看到以下几个关键目录: ...
Hadoop的配置管理系统(conf包)负责读取和处理系统配置,它依赖于fs包来读取配置文件。fs包提供了文件系统操作的抽象,Hadoop通过这个抽象来操作不同的文件系统。系统的配置信息和用户数据都需要存储在HDFS上,这些...
Hadoop 的安装相对较为复杂,需要配置环境变量、core-site.xml、hdfs-site.xml 等多个文件。在本节中,我们将详细介绍 Hadoop 的安装过程。 一、安装 JDK Hadoop 需要 Java 环境的支持,因此我们需要首先安装 JDK...
hadoop&hive安装配置 本文将详细介绍hadoop&hive的安装配置过程,包括对hadoop集群的搭建和hive的配置。下面将逐步介绍每个步骤的详细内容。 hadoop集群搭建 在开始安装hadoop之前,我们首先需要准备三台机器,...
【Hadoop 完全分布式安装与配置详解】 Hadoop 是一个开源的分布式计算框架,以其高可靠性和可扩展性在大数据处理领域广受欢迎。本文将详细介绍如何在完全分布式环境中安装和配置 Hadoop 2.3 版本。 **一、Hadoop ...
### 3.2 安装和配置Hadoop #### 3.2.1 安装Hadoop 在Master节点和所有Slave节点上安装Hadoop,具体安装步骤如下: 1. 将hadoop-1.0.3.tar.gz解压到要安装的路径中。 2. 解压完成后修改/etc/profile文件并添加以下...
之后需要下载Hadoop软件,解压,并配置Hadoop运行环境,格式化HDFS(Hadoop分布式文件系统),启动Hadoop环境并运行程序进行测试,最后查看集群状态确认安装和运行情况是否正常。 2. 集群Hadoop系统安装基本步骤 ...
通过本文的学习,您将能够独立完成Hadoop的安装与配置。 #### 二、准备工作 在开始安装之前,我们需要准备三台服务器(假设为hadoop1、hadoop2、hadoop3),并且确保每台服务器之间能够通过SSH无密码登录。此外,...
最后,Hadoop文档通常包括参考指南,为用户提供Hadoop使用过程中的帮助信息,包括Hadoop的安装、配置、使用、监控等各个方面。Hadoop作为大数据处理领域的重要技术,已经成为IT行业处理大规模数据不可或缺的工具之一...
【细解Hadoop】 Hadoop是一个开源的分布式计算框架,主要解决...从Hadoop 1.0到Hadoop 2.0的演进,反映了大数据处理领域对高可用性、可扩展性和灵活性的需求。随着技术的发展,Hadoop将继续在大数据时代扮演重要角色。
在本文中,我们将深入探讨如何配置一个基于Hadoop v1.0的集群,这是一个关键的分布式计算环境,常用于大数据处理。我们将分为几个步骤来详细阐述这个过程,从准备环境到集群的设置,再到测试经典的WordCount程序。 ...
本文档提供了Hadoop完全分布式集群的安装和配置步骤,包括三台虚拟机的配置、主机名的设置、hosts文件的配置、防火墙的关闭、NTP服务的安装和配置、免密码登录的配置、JDK的安装、Hadoop的安装和配置。 一、主机名...
#### Hadoop1.0 的局限性 Hadoop1.0作为初代的大数据处理框架,在数据存储和处理方面取得了显著成就,但也暴露出了一系列问题,主要包括: - **HDFS(Hadoop Distributed File System)**: - **资源隔离**:HDFS...
在Windows操作系统上配置Hadoop环境是一项相对复杂但必要的任务,因为Hadoop主要设计为在Linux环境中运行。然而,为了在Windows上本地开发或测试Hadoop应用程序,我们需要对环境进行一些特殊的配置,特别是涉及到`...
通过本章的学习,读者应能掌握Hadoop的基本安装和配置方法,了解Hadoop的核心组件和工作原理,并能进行基本的Hadoop集群管理和数据处理任务。这些知识和技能对于深入理解和应用大数据技术至关重要。
Hadoop的安装环境涉及配置Hadoop的运行环境,包括Java环境、SSH免密登录设置以及Hadoop的配置文件设置等。 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目之一,它是一个高度容错的系统,适合在廉价硬件上...
在`hadoop HA集群安装文档1.0.docx`中,应详细介绍了如何配置两个NameNode节点,设置JournalNodes和Zookeeper,以及如何启用和测试HA模式。这些步骤是确保Hadoop集群稳定性和容错性的基础。 接下来是Hive的安装。...
在探讨Hadoop2.7.1、HBase1.0、Hive1.2以及ZooKeeper3.4.6的安装和配置时,我们首先需要了解这些组件的基本功能以及它们在整个大数据处理框架中所扮演的角色。以下对这些知识点进行详细说明: ### Hadoop2.7.1 ...