#Hadoop集群部署
|
Jdk版本 : jdk-6u20-linux-i586.bin
|
Hadoop版本: hadoop-0.21.0.tar.gz
|
|
#1.虚拟机安装配置
|
(略)
(略)部署时先建立hadoop用户然后使用hadoop用户登录进行配置
所有的机器上都要安装JDK,现在就先在Master服务器安装,然后其他服务器按照步骤重复进行即可。安装JDK以及配置环境变量,需要以"root"的身份进行
3.1 将jdk-6u20-linux-i586.bin文件拷贝的系统中,然后将其拷贝到/usr/local/目录下
~$: sudo cp /home/hadoop/Desktop/jdk-6u20-linux-i586.bin /usr/local
|
3.2 进入文件目录执行安装命令
~$: cd /usr/local
~$: ./jdk-6u20-linux-i586.bin
|
3.3 安装完成后进行jdk配置
~$: sudo gedit /etc/environment
|
3.4 在environment文件中添加配置
PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/jdk1.6.0_20/bin"
CLASSPATH="/usr/local/jdk1.6.0_20/lib"
JAVA_HOME="/usr/local/jdk1.6.0_20"
|
3.5 测试是否安装成功
3.6修改hosts文件(添加本机192.168.170.43 node1 ,192.168.168.220 master )
|
所有的机器上都要创建hadoop用户组及hadoop用户,现在就先在Master服务器安装,然后其他服务器按照步骤重复进行即可。需要以"root"的身份进行
4.1 切换到root下 执行创建命令
4.2 为hadoop组添加hadoop用户
~$ sudo adduser -ingroup hadoop hadoop
|
4.3 为hadoop添加权限
~$ sudo gedit/etc/sudoers
|
4.4 在sudoers文件里,root下添加信息
Root ALL=(ALL:ALL) ALL
Hadoop ALL=(ALL:ALL) ALL
|
4.5 设置可写权限
|
所有的机器上都要安装配置ssh
5.1 将ssh文件放入系统中进行安装,默认目录/etc/ssh
~$ sudo dpkg -i openssh-client_5.3p1-3ubuntu3_i386.deb
~$ sudo dpkg -i openssh-server_5.3p1-3ubuntu3_i386.deb
~$ sudo dpkg -i ssh_5.3p1-3ubuntu3_all.deb
|
5.2 测试是否安装成功
5.3 为hadoop用户生成密钥对,先切换到hadoop用户下(默认目录是/home/hadoop/.ssh)
~$ su hadoop
~$ cd /home/hadoop
~$ ssh-keygen -trsa
~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
|
5.4 测试连接是否成功(第一次连接会有提示)
~$ ssh localhost
~$ ssh node1
The authenticity of host ‘node1 (10.64.56.76)’ can’t be established. RSA key fingerprint is 03:e0:30:cb:6e:13:a8:70:c9:7e:cf:ff:33:2a:67:30. Are you sure you want to continue connecting (yes/no)?
|
5.5 将authorized_keys复制到其他子节点中(使用ssh localhost)
~$ cd .ssh
~$ scp authorized_keys node1:/home/hadoop/.ssh
|
5.6 修改authorized权限
~$ chmod 644 authorized_keys
|
|
#6.hadoop安装及配置
|
#切换到hadoop用户下
6.1 将hadoop文件放入系统中 拷贝到/usr/local 目录下
~$ sudo cp /home/hadoop/Desktop/hadoop-0.21.0.tar.gz /usr/local
|
6.2 执行解压,修改hadoop-0.21.0文件夹名称方便以后操作(权限不够就切换root用户)
~$ cd /usr/local/
~$ sudo tar -zxvf hadoop-0.21.0.tar.gz
~$ cd /usr/local/
~$ mv hadoop-0.21.0 hadoop
|
6.3 配置hadoop的conf/hadoop-env.sh文件(将jdk的路径添加上)
~$ sudo gedit /usr/local/hadoop/conf/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.6.0_20
|
6.4 配置conf/core-site.xml(所有节点相同)
~$ sudo gedit /usr/local/hadoop/conf/core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://master:49000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop_home/var</value>
</property>
|
6.5 配置conf/mapred-site.xml(所有节点相同)
~$ sudo gedit /usr/local/hadoop/conf/mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>master:49001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/hadoop_home/var</value>
</property>
|
6.6 配置 conf/hdfs-site.xml(所有节点相同)
~$ sudo gedit /usr/local/hadoop/conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/name1</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data1</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
|
6.7 配置masters和slaves主从结点
~$ sudo gedit /usr/local/hadoop/conf/masters
master
~$ sudo gedit /usr/local/hadoop/conf/slaves
node
|
|
格式化一个新的分布式文件系统
7.1进行格式化(执行完后可以到master机器上看到/home/hadoop//name1)
~$ cd /usr/local/hadoop
~$ bin/hadoop namenode-format
|
7.2 启动所有节点
~$ ssh localhost
~$ cd /usr/local/hadoop
~$ bin/start-all.sh
|
系统输出以下信息
starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-ubuntu.out
node2: starting datanode, loggingto /usr/local/hadoop/logs/hadoop-hadoop-datanode-ubuntu.out
node3: starting datanode, loggingto /usr/local/hadoop/logs/hadoop-hadoop-datanode-ubuntu.out
node1:starting secondarynamenode,logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-ubuntu.out
starting jobtracker, logging to/usr/local/hadoop/logs/hadoop-hadoop-jobtracker-ubuntu.out
node2: starting tasktracker,logging to /usr/local/hadoop/logs/hadoop-hadoop-tasktracker-ubuntu.out
node3: starting tasktracker,logging to /usr/local/hadoop/logs/hadoop-hadoop-tasktracker-ubuntu.out
As you can see in slave's output above, it will automatically format it's storage directory(specified by dfs.data.dir) if it is not formattedalready. It will also create the directory if it does not exist yet.
|
7.3 关闭所有节点
~$ ssh localhost
~$ cd /usr/local/hadoop
~$ bin/stop-all.sh
|
|
浏览NameNode和JobTracker的网络接口,它们的地址默认为:
Hadoop fs -rmr input
1 ssh localhost 登录仍然需要密码
Agent admitted failure to sign using the key.
解决办法:cd .ssh
Ssh-add ~/.ssh/id_rsa
2 如果启动成功 但是页面没有显示连接的node
一定是节点配置问题 hosts
|
分享到:
相关推荐
Hadoop 集群部署操作 Hadoop 集群部署操作是指规划、安装和配置 Hadoop 集群的整个过程,以便在生产环境中运行 Hadoop 应用程序。下面是 Hadoop 集群部署操作的详细知识点: 规划 Hadoop 集群 * 规划主机名:...
"Hadoop集群部署方案" Hadoop 集群部署方案是指在分布式系统中部署 Hadoop 集群的详细步骤和配置过程。下面是该方案的详细知识点解释: 1. Hadoop 简介 Hadoop 是Apache软件基金会旗下的开源项目,主要用于大数据...
### Hadoop集群部署前期准备知识点解析 #### 一、实验目的 本次实验旨在为Hadoop集群的部署做好前期准备工作,并在此基础上撰写实验报告。主要内容包括但不限于添加Hadoop用户及其权限管理、配置网络环境、禁用可能...
本压缩包文件包含了一系列关于Hadoop集群部署、实战应用以及相关技术的详细资料,对于想要深入了解和掌握Hadoop技术的人来说,是非常宝贵的资源。 首先,我们来看《EasyHadoop集群部署文档.doc》。这份文档通常会...
Hadoop集群部署知识点详解 Hadoop集群部署是大数据处理的核心组件之一,正确的部署可以确保集群的高可用性和高性能。本文将详细介绍Hadoop集群部署的各个步骤,并对关键技术点进行解析。 一、先决条件 在开始...
Hadoop集群部署完整版 Hadoop是一款开源的大数据处理框架,主要用于存储和处理大量的数据。Hadoop集群部署是指在多台服务器上部署Hadoop,以实现高可用性、高性能和高 Scalability的大数据处理。 Hadoop简介 ...
"机房Hadoop集群部署"是一个复杂的过程,涉及到硬件准备、软件安装、配置优化以及系统测试等多个环节。以下是对这一主题的详细阐述: 1. **硬件规划**:机房中的Hadoop集群通常由多台服务器组成,包括NameNode(主...
### Hadoop集群部署手册知识点详解 #### 一、实验背景与目标 本次实验的主要目的是让学习者能够掌握从零开始配置Hadoop-0.21集群的方法。通过本实验,参与者不仅能了解Hadoop集群的基本组成及其工作原理,还能实际...
Hadoop 集群部署详解 Hadoop 集群部署是大数据处理和存储的关键步骤,以下是 Hadoop 集群部署的详细说明: 1. NameNode 和 JobTracker 的角色 在 Hadoop 集群中,一台机器被指定为 NameNode,另一台不同的机器被...
### Hadoop集群部署之双虚拟机版 #### 一、概述 本文主要介绍如何通过一台物理机器开启两个虚拟机的方式,构建一个简单的Hadoop集群。该集群由一个名为`shenghao`的主节点(Namenode)和一个名为`slave`的从节点...
"Hadoop 集群部署" Hadoop 是一种基于分布式计算的开源框架,主要用于处理大规模数据。为了成功部署 Hadoop 集群,需要准备好 Linux 操作系统、虚拟机环境、Hadoop 软件包、hosts 文件、namenode、datanode 等组件...
首先,我们来看任务1——Hadoop集群的部署。这一步至关重要,因为它为整个大数据处理系统提供了基础架构。在虚拟机中安装Ubuntu Kylin 16.04.4是常见的选择,因为这是一个稳定且支持Hadoop的Linux发行版。安装完成后...
【Hadoop集群部署文档】 Hadoop是一个开源的分布式计算框架,允许在大规模集群上处理大量数据。本文档基于作者的实际部署经验,详细介绍了在多台机器上构建Hadoop集群的步骤,特别适合初学者和寻求深入理解Hadoop...
### Hadoop集群部署及测试实验知识点总结 #### 一、实验背景与目标 **实验标题:** Hadoop集群部署及测试实验(三) **实验描述:** 本次实验旨在通过JAVA API实现MapReduce的经典案例——倒排索引,进一步熟悉...
由于工作需要,最近一段时间开始接触学习 Hadoop 相关的东西,目前公司的实时任务和离线任务都跑在一个 Hadoop 集群,离线 任务的特点就是每天定时跑,任务跑完了资源就空闲了,为了合理的利用资源,我们打算在搭一...
### Hadoop集群部署及测试实验知识点详述 #### 一、实验目的与要求 本实验旨在让学生通过实际操作,深入了解并掌握Hadoop集群的基本安装、配置及简单的测试过程。具体目标包括: 1. **理解虚拟机环境搭建**: - ...
2.3 Hadoop 集群的测试与优化一旦集群部署完毕,进行基本的功能测试是非常重要的,如创建文件系统目录、上传数据、运行 MapReduce 示例任务等。这些操作有助于验证 Hadoop 集群的正确性和可用性。同时,根据实际需求...
大数据处理框架:Hadoop:Hadoop集群部署与管理.docx
### Hadoop集群部署及测试实验知识点 #### 一、实验目标与要求 本实验旨在深入学习和实践Hadoop分布式文件系统(HDFS)的操作方法和技术细节。通过本实验,参与者将能够掌握以下技能: 1. **熟悉CentOS环境下的...