环境:CentOs6、hadoop-2.0.0-cdh4.0.1、jdk1.7
namenode:master.hadoop(ip:192.168.146.68)
datanode:slave1.hadoop(ip:192.168.146.69)、slave2.hadoop(ip:192.168.146.70)
配置步骤:
(1)配置NameNode和DataNode
在进行Hadoop集群配置中,需要在"/etc/hosts"文件中添加集群中所有机器的IP与主机名,这样Master与所有的Slave机器之间不仅可以通过IP进行通信,而且还可以通过主机名进行通信。所以在所有的机器上的"/etc/hosts"文件末尾中都要添加如下内容:
127.0.0.1 localhost
192.168.146.68 master.hadoop
192.168.146.69 slave1.hadoop
192.168.146.70 slave2.hadoop
(备注:当设置SSH无密码验证后,可以"scp"进行复制,然后把原来的"hosts"文件执行覆盖即可。)
修改每台机器的/etc/sysconfig/network,设定HOSTNAME 主机名
(2)在所有的机器上建立相同的用户
useradd hadoop
passwd hadoop
成功建立hadoop用户后,输入用户密码就是该用户密码.
(3)SSH免密码登录设置
原理:
首先在客户端上创建一对公私钥 (公钥文件:/.ssh/id_rsa.pub; 私钥文件:/.ssh/id_rsa)。然后把公钥放到服务器上(~/.ssh/authorized_keys), 自己保留好私钥.在使用ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了
操作:
vi /etc/ssh/sshd_config
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
使用hadoop用户登录
在所有机器/home/hadoop下
mkdir .ssh
chmod 700 .ssh
cd .ssh
ssh-keygen \-t rsa
这条命是生成其无密码密钥对,询问其保存路径时直接回车采用默认路径。生成的密钥对:id_rsa和id_rsa.pub,默认存储在"/home/hadoop/.ssh"目录下。
ls -l 会看到id_rsa和id_rsa.pub
cat id_rsa.pub>>authorized_keys
将本机器的id_rsa.pub加到authorized_keys中,
并修改authorized_keys权限,
chmod 644 authorized_keys
ssh localhost
这样,ssh 可以免密码登录localhost了。
将master.hadoop机器的id_rsa.pub加到salve1.hadoop的authorized_keys中,
cp id_rsa.pub id_rsa.pub.master
scp id_rsa.pub.master hadoop@192.168.146.69:/home/hadoop/.ssh
在slave1.hadoop机器的hadoop用户下
cat id_rsa.pub.master>>authorized_keys
ssh hadoop@192.168.146.68
ssh就可以免密码登录master.hadoop了。
反之,将salve1.hadoop机器的id_rsa.pub加到master.hadoop的authorized_keys中,
cp id_rsa.pub id_rsa.pub.slave1
scp id_rsa.pub.slave1 hadoop@192.168.146.68:/home/hadoop/.ssh
在master.hadoop机器的hadoop用户下
cat id_rsa.pub.slave1>>authorized_keys
ssh hadoop@192.168.146.69
ssh 就可以免密码登录slave1.hadoop了,
其他机器之间的SSH通讯可以同样操作。
(4)在所有机器上安装JDK,设置JAVA_HOME
vi /etc/profile
export JAVA_HOME=/home/hadoop/jdk
export JRE_HOME=/home/hadoop/jdk/jre
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
source /etc/profile使得配置生效。
(5)在所有机器上安装配置Hadoop
首先在namenode上配置,配置后在分发到datanode上
下载http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.0.1.tar.gz,然后解压到/home/hadoop/下即可
tar -zxvf hadoop-2.0.0-cdh4.0.1.tar.gz
mv hadoop-2.0.0-cdh4.0.1 /home/hadoop/hadoop
cd /home/hadoop/hadoop/etc/hadoop 修改配置文件
修改hadoop-env.sh:
export JAVA_HOME=/home/hadoop/jdk
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
修改core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master.hadoop:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop/tmp</value>
</property>
</configuration>
修改mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master.hadoop:9001</value>
</property>
</configuration>
修改hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
slaves里写入作为datanode节点的机器的IP
192.168.146.69
192.168.146.70
到此,hadoop的有关配置已经完成,namenode端通过如下命令把配置好的hadoop发送到各个datanode处:
scp -r hadoop hadoop@slave1.hadoop:/home/hadoop/
scp -r hadoop hadoop@slave2.hadoop:/home/hadoop/
(6)关闭所有机器上的防火墙
注意点:关闭所有机器上的防火墙,不然会导致datanode起不来
/etc/init.d/iptables stop
(7)在master.hadoop机器的hadoop用户下启动hadoop
bin/hdfs namenode -format
sbin/./start-all.sh
如果没有其它差错的话,hadoop可以正常启动,在namenode,datanode端用jps命令查看启动情况
namenode:
xxxx NameNode
xxxx SecondaryNameNode
xxxx DataNode
datanode:
xxxx NodeManager
xxxx DataNode
然后可以通过如下地址来查看集群运行状况:http://192.168.146.68:50070/
分享到:
相关推荐
Hadoop分布式安装配置 Hadoop是当前大数据处理的主流技术之一,由于其开源、可扩展、灵活的特点,广泛应用于大数据处理、数据分析、机器学习等领域。为帮助读者更好地理解Hadoop的安装配置,本文将从大数据概念、...
hadoop分布式安装02.mp4
【分布式安装Java与Hadoop】 在进行Hadoop的分布式安装之前,首要任务是确保所有参与节点都安装了相同版本的Java。这是因为Hadoop是用Java编写的,它依赖于Java运行环境来执行其核心服务。在本文中,我们将讨论如何...
本笔记将深入探讨Hadoop的分布式安装过程,帮助读者理解如何在多台机器上构建一个高效、可靠的Hadoop集群。 首先,Hadoop是Apache软件基金会的一个开源项目,其核心设计目标是处理和存储海量数据。它采用了分片...
### Hadoop完全分布式详细安装过程知识点解析 #### 一、概览 本文旨在详细介绍Hadoop在完全分布式环境下的安装步骤及注意事项。整个安装过程分为六个主要部分:安装虚拟化工具VMware、在VMware上安装Ubuntu系统、...
Hadoop是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来...Hadoop分布式安装与配置手册 Hadoop权威指南原版 hadoop权威指南中文第二版 Hadoop实战-陆嘉恒 分布式基础学习 用+Hadoop+进行分布式并行编程
"Hadoop技术-Hadoop完全分布式安装" Hadoop技术是当前最流行的分布式计算框架之一,广泛应用于数据存储、数据处理和数据分析等领域。Hadoop完全分布式安装是指在多台机器上安装和配置Hadoop,以便更好地处理大规模...
基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户、我的分享、我...
### Hadoop分布式文件系统(HDFS):关键技术与实践 #### 摘要 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与...
Hadoop分布式缓存是Hadoop生态系统中的一个重要组成部分,它允许应用程序在执行MapReduce任务时共享和重用数据,从而提高整体性能。这份源码提供了深入理解Hadoop如何管理和利用分布式缓存的机会,对于想要优化...
Hadoop分布式文件系统架构和设计 Hadoop分布式文件系统是Hadoop生态系统的核心组件之一,负责存储和管理大规模数据集。下面将对Hadoop分布式文件系统的架构和设计进行详细介绍。 一、前提和设计目标 Hadoop分布式...
《高可用性的HDFS——Hadoop分布式文件系统深度实践》专注于Hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoop backup node方案、avatarnode解决方案以及最新...
Hadoop分布式集群配置指南 Hadoop分布式集群配置是大数据处理的关键步骤之一,本指南将指导读者成功配置一个由5台计算机构成的Hadoop集群,并成功运行wordcount处理大型数据(大于50G)。 一、Hadoop集群架构简介 ...
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
本文将讨论如何基于Hadoop分布式存储与分析平台解决这一问题。 Hadoop是一个开源的分布式存储和处理大数据的框架,它能有效地存储和处理PB级别的数据。Hadoop的核心是HDFS(Hadoop Distributed File System),它...
CentOS7安装和基础环境配置:Hadoop分布式搭建前期准备工作 CentOS7是 Linux 操作系统的发行版本之一,广泛应用于服务器和超级计算机领域。Hadoop是一个基于分布式计算的开源框架,广泛应用于大数据处理和分析领域...
基于Hadoop分布式爬虫设计综述 Hadoop分布式爬虫设计是当今互联网发展的最大挑战之一,旨在快速高效和安全地让网络用户在浩瀚的信息海洋中找到并获取自己所需的资源。本文主要阐述了基于Hadoop分布式文件系统HDFS...
Hadoop分布式配置文件hdfs-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、mapred-site.xml和yarn-site.xml...
Hadoop分布式配置文件mapred-site.xml,用于在搭建Hadoop分布式集群时,设置集群规划所用,集群中虚拟机都需要修改该配置文件,除此之外,还需要修改其他配置文件,包括core-site.xml、hdfs-site.xml和yarn-site.xml...