Ubuntu上安装HADOOP多机完全分布式集群
http://yangshangchuan.iteye.com/blog/1840481
1、三台机器
host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)
host6(DataNode、TaskTracker)
host8(DataNode、TaskTracker)
vi /etc/hostname(分别给每一台主机指定主机名)
vi /etc/hosts(分别给每一台主机指定主机名到IP地址的映射)
2、新建用户和组
三台机器上面都要新建用户和组
addgroup hadoop
adduser --ingroup hadoop hadoop
更改临时目录权限
chmod 777 /tmp
注销root以hadoop用户登录
3、配置SSH
在host2上面执行
ssh-keygen -t rsa(密码为空,路径默认)
该命令会在用户主目录下创建 .ssh 目录,并在其中创建两个文件:id_rsa 私钥文件,是基于 RSA 算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub 公钥文件,和 id_rsa 文件是一对儿,该文件作为公钥文件,可以公开
cp .ssh/id_rsa.pub .ssh/authorized_keys
把公钥追加到其他主机的authorized_keys 文件中
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host6
ssh-copy-id -i .ssh/id_rsa.pub hadoop@host8
可以在host2上面通过ssh无密码登陆host6和host8
ssh host2
ssh host6
ssh host8
4、准备HADOOP运行环境
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz
tar -xzvf hadoop-1.1.2.tar.gz
在/home/hadoop/.bashrc 中追加:
export PATH=/home/hadoop/hadoop-1.1.2/bin:$PATH
重新登录就生效
ssh localhost
which hadoop
5、配置HADOOP运行参数
vi conf/masters
把localhost替换为:host2
vi conf/slaves
删除localhost,加入两行:
host2
host6
host8
vi conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://host2:9000</value>
</property>
vi conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/dfs/filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/dfs/filesystem/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
vi conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>host2:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>4</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/home/hadoop/mapreduce/system</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/mapreduce/local</value>
</property>
6、复制HADOOP文件到其他节点
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host6:/home/hadoop/hadoop-1.1.2
scp -r /home/hadoop/hadoop-1.1.2 hadoop@host8:/home/hadoop/hadoop-1.1.2
7、格式化名称节点并启动集群
hadoop namenode -format
8、启动集群并查看WEB管理界面
start-all.sh
访问http://localhost:50030可以查看 JobTracker 的运行状态
访问http://localhost:50060可以查看 TaskTracker 的运行状态
访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等
9、停止集群
stop-all.sh停止集群
分享到:
相关推荐
对于想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,Spark 集群的构建分为了五个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整...
根据提供的文件信息,本文将详细解析如何在Ubuntu 16.04虚拟机环境下搭建Hadoop完全分布式集群。本文档适合已经具备基本Linux操作技能并对Hadoop有一定了解的读者。 ### 一、所需文件及软件 为了搭建Hadoop完全...
标题“Ubuntu 14.04.1 + Hadoop 2.4 完全分布式搭建要点”涉及到的是在Ubuntu 14.04.1操作系统上安装和配置Hadoop 2.4版本的过程,这是一个大数据处理框架,常用于分布式存储和计算任务。Hadoop的核心组件包括HDFS...
本教程提供了一个全面的指南,帮助读者了解如何在Linux环境下安装和配置Hadoop完全分布式集群。需要注意的是,实际部署过程中还可能遇到各种细节问题,如网络配置、权限管理等方面的问题,需要根据实际情况灵活处理...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要...在实际生产环境中,为了实现更高的可用性和容错性,通常会搭建多节点的完全分布式集群。但作为初学者,伪分布式环境足以满足学习需求,并且可以有效降低入门门槛。
### Hadoop完全分布式详细安装过程知识点解析 #### 一、概览 本文旨在详细介绍Hadoop在完全分布式环境下的安装步骤及注意事项。整个安装过程分为六个主要部分:安装虚拟化工具VMware、在VMware上安装Ubuntu系统、...
###### 3.3.3 进行Hadoop集群完全分布式的安装配置 - 下载并解压Hadoop安装包。 - 配置`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等配置文件。 - 格式化HDFS文件系统。 - 启动Hadoop集群。 #### 四、...
Hadoop完全分布式安装教程 本文档旨在指导用户完成Hadoop的完全分布式安装,涵盖了从虚拟机安装到Hadoop配置文件的详细步骤。本教程适合初学者和中级用户,旨在帮助他们快速掌握Hadoop的安装和配置。 一、Hadoop...
### Hadoop2.6.5 + Ubuntu16.04 完全分布式集群配置详解 #### 一、概述 在IT行业中,Hadoop是一个广泛使用的开源软件框架,用于分布式存储和处理大型数据集。本文旨在提供一个详尽的指南,帮助用户在Ubuntu 16.04...
通过上述步骤,我们成功地在Ubuntu环境下搭建了一个Hadoop完全分布式集群。这个过程不仅涉及到了软件安装与配置,还涵盖了网络通信和安全方面的考虑。掌握了这些知识后,你可以更加自信地应对实际工作中可能遇到的大...
### VMware下完全分布式Hadoop集群安装笔记 #### 一、准备工作与环境搭建 **1. 安装VMware** 在开始之前,首先需要一个虚拟化平台来模拟多台计算机之间的交互,这里选择的是VMware。根据您的操作系统选择合适的...
本教程将带你逐步了解如何在Windows 7环境下,借助虚拟机软件VMware搭建一个完整的Hadoop分布式集群。我们将深入探讨以下知识点: 1. **Hadoop概述**:Hadoop是基于Java的分布式计算框架,由Apache软件基金会开发,...
总之,部署一个完全分布式的Hadoop集群涉及到多个环节,包括操作系统和依赖的准备、Hadoop的安装与配置,以及服务的启动和测试。每个步骤都需要仔细处理,以确保集群的稳定性和高效运行。在整个过程中,良好的文档...
本教程将详细阐述Hadoop的完全分布式安装过程,并涵盖相关的配置与优化,旨在帮助用户从零开始构建一个稳定、高效的Hadoop集群。 一、Hadoop概述 Hadoop由Apache基金会开发,其核心组件包括HDFS(Hadoop ...
用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop具有高可靠、 高扩展、高效性、高容错等优点。 Hadoop框架最核心的设计是HDFS(Hadoop Distributed File System)和MapReduce。HDFS为海量的...
【Hadoop完全分布式集群搭建】 在IT领域,Hadoop是一个开源的分布式计算框架,它允许在廉价硬件上处理大规模数据。本篇文章将详细介绍如何在完全分布式模式下搭建一个Hadoop集群,具体步骤包括硬件环境准备、集群...
- **完全分布式模式**:在多台机器上部署Hadoop,需要更多配置,包括主机名解析、Hadoop配置文件的分发等。 ### 五、解决安装警告 在安装过程中可能出现警告,通常是由于版本不匹配导致的。一种常见的警告是关于...
- **完全分布式模式**:适用于多节点集群,配置更复杂,涉及到更多的节点管理和网络配置。 6. **伪分布式模式操作**: - **配置文件修改**:在`core-site.xml`中设置HDFS的默认FS,`hdfs-site.xml`中配置副本数等...
实验目的: 1. 熟悉常用的基本命令操作 2. 掌握搭建环境部署项目 3. 体会云计算虚拟化等概念 实验环境: 1. 个人电脑 Windows10 2. 远程访问 jupyterlab 虚拟机(Ubuntu20.04) ...3. Linux+hadoop 完全分布式集群搭建