NOTE:因为hadoop远程调用用的是RPC,所以linux系统必须关闭防火墙
service iptables stop
1.vi /etc/inittab
id:5:initdefault:改为id:3:initdefault:即为字符型启动
2.ip configuration:/etc/sysconfig/network-scripts/
3.vi /etc/hosts,add hostname
4.useradd hadoop :增加一个用户
passwd hadoop :给用户加密码
5.对于以下文件:
-rw-r–r– 1 root root 42266180 Dec 26 10:08 hadoop-0.19.0.tar.gz
可用如下的命令修改:
chmod 777 hadoop hadoop-0.19.0.tar.gz :修改文件权限为最大权限
chown hadoop.hadoop hadoop-0.19.0.tar.gz :修改文件的所有者和组所有者都改为hadoop
6.在每台master和slavers上各增加ssh授权(在hadoop用户下操作)
用ssh-keygen -t rsa命令后一路三个回车
cd .ssh
cp id_rsa.pub authorized_keys
通过scp将master上的authorized_keys文件Copy到其他所有slaves机器上如:
scp authorized_keys root@slave01:/home/hadoop/master_au_keys
同时将每天slave机器上的authorized_keys也copy到master机器上增加进master的authorized_keys中
用ssh master或ssh slave01不用密码,即OK!
7.安装JDK
到sun网站下载JDK安装包jdk-6u11-linux-i586.bin,copy到机器的usr目录中,并在每台机器的root用户下面安装.
在root用户下:
cd /usr
chmod +x jdk-6u11-linux-i586.bin 给安装文件增加执行权限.
./jdk-6u11-linux-i586.bin,按提示按几个空格健后,输入yes后开始安装jdk6.
安装好后,将目录名修改为jdk6.
注(Centos5.2可以不用删除1.4的jdk了):一般linux里安装好后自带一个1.4的jdk,必须删除.
rpm -qa |grep -i java,将查看到的包含java的rmp包全部删除.
rpm -e 包名.
设置JDK的环境变量,考虑到JDK可能会有其他系统用户也会用到,建议将环境变量直接设置在/etc/profile中具体内容:
export JAVA_HOME=/usr/jdk6
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
用source /etc/profile使用java环境生效.
8.Hadoop环境变量设置和配置文件修改
在conf/hadoop-env文件里增加jdk目录
export JAVA_HOME=/usr/jdk6
在masters里增加nameNode机器名:master
在slavers里增加dataNode机器名:slave01…
在/etc/profile文件中增加hadoop的path路径:
export HADOOP_HOME=/home/hadoop/hadoop-0.19.0
export PATH=$PATH:$HADOOP_HOME/bin
修改hadoop-site.xml
增加以下内容:
fs.default.name//你的namenode的配置,机器名加端口
hdfs://10.2.224.46:54310/
mapred.job.tracker//你的JobTracker的配置,机器名加端口
hdfs://10.2.224.46:54311/
dfs.replication//数据需要备份的数量,默认是三
1
hadoop.tmp.dir//Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令了。
/home/hadoop/tmp/
dfs.name.dir
/home/hadoop/name/
dfs.data.dir
/home/hadoop/data/
mapred.child.java.opts//java虚拟机的一些参数可以参照配置
-Xmx512m
dfs.block.size//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性交验,默认配置512是checksum的最小单元。
5120000
The default block size for new files.
———————–
启动之前,我们先要格式化namenode,先进入~/HadoopInstall/hadoop目录,执行下面的命令
$bin/hadoop namenode -format
下面就该正式启动hadoop啦,在bin/下面有很多启动脚本,可以根据自己的需要来启动。
* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
* stop-all.sh 停止所有的Hadoop
* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack
* stop-mapred.sh 停止Map/Reduce守护
* start-dfs.sh 启动Hadoop DFS守护.Namenode和Datanode
* stop-dfs.sh 停止DFS守护
————————–
查看和测试
bin/hadoop dfsadmin -report 查看所有的datanode节点情况
通过web形式去浏览 NameNode和 JobTracker
* NameNode - http://10.0.0.88:50070
* JobTracker - http://10.0.0.88:50030
分享到:
相关推荐
Linux 下 Hadoop 集群安装指南 一、Linux 下 Hadoop 集群安装前的准备工作 在开始安装 Hadoop 集群之前,我们需要安装 VMware 和 Ubuntu Linux 作为操作系统。这一步骤非常重要,因为 Hadoop 集群需要在 Linux ...
在安装Hadoop集群之前,需要准备好安装环境。安装环境包括Java Development Kit(JDK)和Virtual Machine(VMware)。VMware虚拟机可以模拟多台机器,方便Hadoop集群的安装和测试。 安装环境 在安装Hadoop集群之前...
在IT领域,Linux Hadoop集群安装是一个复杂但至关重要的任务,尤其对于大数据处理和分析的组织来说。Hadoop是Apache软件基金会开发的一个开源框架,它允许分布式存储和处理大规模数据集。下面,我们将深入探讨Hadoop...
在安装 Hadoop 集群之前,需要创建一个专门的用户和组来管理 Hadoop 集群。在 Linux 系统中,使用 groupadd 和 adduser 命令创建用户和组。例如,创建名为 hadoop 的用户和组: ``` groupadd hadoop adduser -g ...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
在Linux环境下搭建Hadoop集群是一项复杂但至关重要的任务,它为大数据处理提供了强大的分布式平台。以下将详细介绍如何在一台虚拟机上安装多台Linux服务节点,并构建Hadoop集群环境。 首先,我们需要准备一个基础...
总之,搭建Linux下的Hadoop集群需要对Hadoop的基本架构有深入理解,熟悉Linux网络配置,并能熟练进行系统级别的设置。这个过程虽然繁琐,但通过良好的规划和细致的实施,可以构建出稳定、高效的数据处理平台。在实践...
亲测自己配置的Linux中安装配置hadoop集群
自动化安装hadoop集群 脚本搭建hadoop集群 可以自定义主机名和IP地址 可以自定义安装jdk和hadoop(格式为*tar.gz) 注意事项 1、安装完jdk和hadoop请手动source /etc/profile 刷新环境变量 2测试脚本环境为centOS6,...
教程:在linux虚拟机下(centos),通过docker容器,部署hadoop集群。一个master节点和三个slave节点。
Linux 操作系统安装环境下Hadoop集群搭建详细简明教程
在安装 Hadoop 集群时,需要配置 YUM 源,以便安装必要的软件包。这里需要连接 ISO 映像文件,并更新 YUM 源,以确保安装的软件包是最新的。 安装必要软件 在配置 YUM 源后,需要安装必要的软件包,例如 Vim、Zip...
本文档详细介绍了在Linux环境下Hadoop集群环境安装的每一步骤。
资源名称:vmware虚拟机下hadoop集群安装过程内容简介: Hadoop俗称分布式计算,最早作为一个开源项目,最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样,虽然Hadoop最初十分简单,但随着近些年来...
在安装Hadoop集群之前,我们需要确保系统已经安装了必备软件,包括ssh、rsync和Jdk1.6。ssh是默认安装到系统中的,而rsync可以使用yum install rsync来安装。Jdk1.6的安装方法这里就不多介绍了。 安装Hadoop软件 ...
搭建Hadoop集群在LinuxRedHat、CentOS上的实现 Hadoop是一种流行的开源大数据处理平台,由Google开发,现被Apache基金会维护。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce,分别负责数据存储...
【标题】:Hadoop集群及插件安装 在大数据处理领域,Hadoop是一个核心的开源框架,用于存储和处理大规模数据。本指南将详细介绍如何在集群环境中安装和配置Hadoop,以及与其紧密相关的Zookeeper、HBase、Hive、...
【大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置】 实验主要涉及了大数据技术中的基础概念,包括Linux操作系统、Java环境、SSH服务、Hadoop集群的搭建与配置。以下是具体步骤和知识点的详细解释:...
Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台,用户可借助Hadoop存有基础环境的配置(虚拟机安装、Linux安装等),Hadoop集群搭建,配置和测试。 一、虚拟机的安装 VMware (Virtual Machine...