有三台机子:
192.168.1.100 node1 master
192.168.1.101 node2 slaves
192.168.1.102 node3 slaves
这是我配置hadoop分布式集群的步骤,如有问题,请指正。
一. 开通ssh,开机自启动,因为hadoop通过SSH通信
root用户:service sshd start
chkconfig sshd on
reboot 重启
二.添加用户组和用户 hadoop
groupadd hadoop
adduser -g hadoop hadoop
三.修改HOST
修改2个文件:
1./etc/hosts
192.168.1.100 node1
192.168.1.101 node2
192.168.1.102 node3
2./etc/sysconfig/network,修改
四.配置SSH无密码登陆各机器
我们现在要实现在node1上用hadoop用户可以ssh不输密码直接连通 node2,node3。
切换到hadoop用户 # su hadoop
然后写命令:# ssh-keygen -t rsa,一直回车,
这样就会在当前用户的根目录/.ssh/下生成一对密钥,
# cp id_rsa.pub authorized_keys
# ssh localhost 看是否能连通本机。第一次登陆会提示Are you sure you want to continue connecting (yes/no)? 回答yes
# scp authorized_keys hadoop@node2:~/.ssh/
# scp authorized_keys hadoop@node3:~/.ssh/
# ssh node2
# ssh node3
注:有时候把公钥copy过去也无效,老是让输入密码,这个的原因之一是处于安全问题,需要改变下权限:
到node2和node3的hadoop目录下 //usr/hadop/.ssh/
chmod 600 authorized_keys
chmod 700 -R .ssh
五.安装JAVA
# mkdir /usr/local/java
# cd /usr/local/java
# cp jdk-6u22-linux-i586.bin ./
# chmod +x jdk-6u22-linux-i586.bin
# ./jdk-6u22-linux-i586.bin
# vim /etc/profile,在这个文件末尾配置java的环境变量
export JAVA_HOME=/usr/home/jdk1.6.0_13
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
立即生效
# source /etc/profile
# java -version
java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Client VM (build 11.3-b02, mixed mode, sharing),提示这些信息,java安装成功
六.安装hadoop
下载hadoop-0.20.203.0rc1.tar.gz
# tar zxvf hadoop-0.20.203.0rc1.tar.gz
在当前目录生成 hadoop-0.20.203.0 目录
配置环境变量:
# vi /etc/profile
export HADOOP_HOME=/usr/home/hadoop/hadoop-0.20.203.0
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATH
修改目录权限:
chgrp hadoop hadoop-0.20.203.0
chown -R hadoop:hadoop hadoop-0.20.203.0
# cd hadoop-0.20.203.0/conf目录
开始配置hadoop
# vi master
node1
# vi slaves
node2
node3
# vi hadoop-env.sh
export JAVA_HOME=/usr/home/jdk1.6.0_13
# vi core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>webinterface.private.actions</name>
<value>false</value>
<final>true</final>
<desc>这个参数实际上就是为了方便测试用。允许在web页面上对任务设置优先级以及kill任务</desc>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
<final>true</final>
<desc>trash机制,当你删除DFS上的文件或目录时,会自动mv到当前用户的.Trash目录,保留时长1440分钟</desc>
</property>
# vi hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/NameData</value>
<desc>数据存放目录</desc>
</property>
<property>
<name>dfs.permissions</name>
<value>true</value>
<desc>操作dfs文件时,权限验证</desc>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<desc>数据备份数</desc>
</property>
# vi mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>192.168.239.132:9001</value>
</property>
# hadoop namenode -format 格式化
# bin/start-all.sh 启动
分享到:
相关推荐
本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop的配置文件主要包括`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`、`mapred-site.xml`等,这些XML...
《Hadoop集群配置及MapReduce开发手册》是针对大数据处理领域的重要参考资料,主要涵盖了Hadoop分布式计算框架的安装、配置以及MapReduce编程模型的详细解析。Hadoop作为Apache基金会的一个开源项目,因其分布式存储...
hadoop集群配置范例及问题总结 Hadoop集群配置是大数据处理的关键步骤,本文将详细介绍Hadoop集群配置的步骤和注意事项。 一、硬件环境配置 Hadoop集群需要多台机器组成,通常使用虚拟机来模拟多台机器。 VMware ...
hadoop集群配置文档
Hadoop集群配置范例及问题总结 Hadoop集群配置是一个复杂的过程,需要详细的规划和实施。以下是Hadoop集群配置的相关知识点: 1. 硬件环境:Hadoop集群需要至少两台机器,安装ubuntu11操作系统,并采用桥接模式,...
Hadoop 集群配置是一个复杂的过程,涉及到多台服务器之间的通信和数据存储。在这个详解中,我们将深入理解如何在Fedora和Ubuntu系统上搭建一个Hadoop集群。 首先,为了确保集群中的节点能够相互识别,我们需要配置...
在Hadoop集群配置过程中,安装和配置Hive是一个重要环节。这个过程中需要保证Hadoop集群本身已经搭建好并且运行正常。在安装Hive之前,一般需要先安装和配置好MySQL数据库,因为Hive会使用MySQL来存储其元数据。元...
hadoop配置详细教程,涵盖了Hadoop集群配置从头到尾的所有细节部署,其中注意点已用红色标记,此文档曾用于企业Hadoop集群搭建教程,涵盖了 准备篇---配置篇----启动测试篇---问题篇,解决网络上Hadoop集群配置教程...
### Hadoop集群配置及MapReduce开发手册知识点梳理 #### 一、Hadoop集群配置说明 ##### 1.1 环境说明 本手册适用于基于CentOS 5系统的Hadoop集群配置,具体环境配置如下: - **操作系统**:CentOS 5 - **JDK版本...
Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...
【基于CentOS 7的Hadoop集群配置的研究与实现】 Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。本论文详细探讨了在CentOS 7操作系统上配置和实施Hadoop集群的过程,这对于理解和掌握大数据处理...
### Eclipse链接Hadoop集群配置详解 #### 一、前言 在大数据处理领域,Hadoop因其卓越的分布式处理能力而备受青睐。为了更好地利用Hadoop的强大功能,开发人员经常需要在本地开发环境中与Hadoop集群进行交互。本文...
hadoop集群配置 很实用的入门参考书