hadoop集群的教程网上很多,看起来不难,但自己动手时,却总是遇到这样那样的问题,今天终于成功运行了3台集群,稍微有点紧张,先记录下来。
期间主要参考这位兄弟的文章:
http://blog.csdn.net/hguisu/article/details/7237395
1. 安装JDK、hadoop
在/etc/profile中,添加hadoop的bin和主目录。
2. 3台centos 6.2的集群要ssh无密码访问。
因为是用vmware虚拟出来的3台服务器,所以最好是先配好一台后,用克隆,克隆多两台,这样会节省很多时间。
虽然生成rsa并且无密码访问另外几台机器,但第一次ssh另外机器是,还是会询问是否把对方机器添加到本机,要手动输入yes。所以,机器少的情况下,最笨最保险的方法是手动ssh另外机器的ip和名字,记住,如果在/etc/hosts下添加了另外机器的名字,之前的ssh机器ip和ssh机器名是必要的。
3. 机器分工
192.168.128.140 namenode.blackwing.com
192.168.128.141 datanode.blackwing.com
192.168.128.136 jobtracker.blackwing.com
master是namenode这台机。另外两台作为datanode使用。此外,master还是后面hbase连接的机器。
4. 各文件配置(3台机器一样)
core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode.blackwing.com/</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/</value>
</property>
</configuration>
其中
hdfs://namenode.blackwing.com
说明,namenode的uri
hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/var/dfs/,/var/dfs2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/var/hadoop/data,/var/hadoop/data2</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
PS:上面列出的路径,不必预先创建
其中的dfs.name.dir和dfs.data.dir都设置为另个存储目录,是为了备份、冗余,以免其中一个路径下文件发生意外,还可以有备份使用。
而dfs.replication,是因为有两台datanode,所以设置为2。注意,如果这个数字大于实际datanode机器数,会报错。
mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>jobtracker.blackwing.com:8021</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/var/mapred</value>
</property>
</configuration>
这个文件,设置的是进行map reduce 任务的机器uri。
5. masters和slaves文件
masters其实是误导,其中列出是作为namenode冗余而存在的secondary namenode机器名。
这里顺便说明下对应脚本的作用:
start-mapred.sh的作用:
1. 在启动此脚本的机器上,启动job tracker服务。
2. 在slaves文件列出的主机中,启动task tracker服务。
start-dfs.sh脚本作用:
1. 在本机启动namenode
2. 在slaves列出主机中启动datanode
3. 在master列出主机中启动secondary namenode
OK,现在需要格式化namenode:
hadoop namenode -format
之后,可以在dfs.name.dir所列出目录下看到相应文件夹。
至此,没意外的话,在namenode上运行start-all.sh则可以后,namenode会在启动本机的jobtracker和namenode进程外,还会启动另外两台机器的datanode和tasktracker。
简单的办法是,在每台机器上,登录对应用户,输入jps则可以看到相应的进程。
hadoop的web界面默认地址是:
http://localhost:50070
补充:
1)如果是以hadoop用户ssh到各台机器,还是会出现需要输入密码的情况(root则不会),这时,记得hadoop用户下的.ssh文件夹,及其下所有文件,都是700权限。
2)看启动log,如果发现启动进程绑定到另外一个不明的host或ip,则需要修改机器hostname,修改成这台机器的节点名,例如这台是jobtracker.blackwing.com,则可以这样修改:
hostname jobtracker.blackwing.com
分享到:
相关推荐
"在VM下hadoop集群搭建" 本资源主要介绍了在VMware Workstation中搭建Hadoop集群的步骤,涵盖了前期准备、安装步骤、配置SSH无密码登录、配置Hadoop等方面的内容。 一、前期准备 在搭建Hadoop集群之前,需要安装...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
在构建Hadoop集群之前,需要对各台服务器进行必要的配置,确保集群能够稳定运行。主要包括修改主机名称、配置域名解析规则、关闭防火墙以及配置免密登录等步骤。 ##### 1. 修改主机名称 主机名称对于网络通信至关...
现在,我们已经搭建好了Docker环境,下一步我们将基于Docker搭建Hadoop集群。Hadoop是大数据处理的常用工具,它可以对大规模数据进行处理和分析。 我们可以使用Docker来部署Hadoop集群。首先,我们需要创建一个新的...
在搭建Hadoop集群的过程中,需要进行网络配置、系统配置和Hadoop集群配置。网络配置通常包括设置静态IP地址,以避免因DHCP重新分配导致的IP地址混乱。系统配置涉及配置Hosts文件,该文件用于将IP地址与主机名关联...
Hadoop 配置教程在 VM 环境下 Hadoop 是一个分布式系统基础架构,由 HDFS、MapReduce 和 Hbase 组成,分别是 Google 集群系统 GFS、MapReduce、BigTable 的开源实现。具有扩容能力强,效率高,成本低,可靠性好等...
Hadoop在两台Ubuntu的VM虚拟机的集群配置 Hadoop是 Apache 软件基金会旗下的开源大数据处理框架,它使用分布式计算来处理大规模数据。为了更好地学习和实践Hadoop,我们可以使用VMware WorkStation创建两台Ubuntu...
#### 三、Hadoop单机集群配置步骤详解 ##### 1. 设置固定IP 为了保证网络通信稳定,首先需要设置虚拟机的静态IP。这一步骤中,`DEVICE`的值应与`/etc/udev/rules.d/70-persistent-net.rules`文件中的`NAME`值相对应...
### Hadoop集群三台虚拟机安装配置详解 #### 一、环境准备与概述 本教程主要介绍如何在三台Linux虚拟机上安装配置Hadoop集群。三台虚拟机的IP地址分别为192.168.116.10(作为NameNode)、192.168.116.11(作为...
在VMware虚拟机中安装hadoop集群并配置
#### 三、Hadoop集群的安装与配置 **1. 安装Java环境** - **解压Java包**:将Java安装包`jdk-7u51-linux-x64.tar`解压至`/opt`目录下,重命名为`java`。 - **配置环境变量**:编辑`/etc/profile`文件,添加Java...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本教程将详细介绍如何在Linux环境中配置Hadoop...记住,每个环节都需要细心操作,确保配置无误,才能保证Hadoop集群的稳定运行。
### CDH 5.7.0 基于VM虚拟机的Hadoop集群搭建 #### 总述 本文档详细介绍了如何在VMware Workstation Pro 12虚拟化平台上搭建一个CDH 5.7.0 Hadoop集群,用于测试环境。通过此文档的学习与实践,读者能够了解在...
6. 配置Hadoop集群: - 修改Hadoop的配置文件,包括但不限于hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和slaves文件; - 在各Hadoop节点上创建必要的文件夹,...
Hadoop集群配置 完成上述准备工作后,接下来需要对Hadoop集群进行详细的配置。 - **修改Hadoop配置文件**: - **hadoop-env.sh**: 设置JAVA_HOME环境变量指向已安装的JDK路径。 - **core-site.xml**: 配置...
大数据课程入门,使用Vm虚拟机搭建hadoop集群,用到的系统是centOS6.8,该视频同步了如何安装虚拟机、修改虚拟网卡、配置ssh环境、配置JDK1.8及hadoop2.7.4。视频时长一小时半,当然也可以看另外一条链接:...