hadoop可以在单个节点上,用伪分布的模式来运行hadoop的各个组件。
当前机器环境
操作系统:64 位 CentOS
Jdk版本:1.7.0_79,64位jvm。
准备工作
1、 修改hosts
为了不需要记住冗长的ip地址,便于识别那个节点,我们修改下hosts,把当前内网ip地址对应成data-1,
用root用户修改 /etc/hosts文件,把内网ip地址和域名对应关系放进去,操作如下:
vim /etc/hosts 10.116.111.110 data-1
2、创建用户
到目前为止都用的root用户,root用户具有最高权限,不安全,因此需要单独创建一个用户来运行hadoop,这里就使用hadoop用户名吧,名字随便起,
操作如下:
useradd hadoop passwd hadoop需要输入两次密码。
3、创建目录
个人喜欢把软件安装到/usr/local目录下,系统目录是需要root操作权限的,如果把hadoop软件放到/usr/local目录下会出现一个问题,
就是在多个节点上部署hadoop集群的时候需要复制文件,hadoop用户使用scp命令时,会出现权限问题,所以单独创建一个目录给hadoop用户来使用,
这个步骤不是必须的操作,因个人习惯来使用,操作如下:
chown -R hadoop:hadoop /data mkdir software cp /home/hadoop/hadoop-2.6.0-cdh5.5.1/hadoop-dist/target/hadoop-2.6.0-cdh5.5.1.tar.gz /data/software/ cd /data/software/ chown -R hadoop:hadoop hadoop-2.6.0-cdh5.5.1.tar.gz su hadoop tar zxvf hadoop:hadoop hadoop-2.6.0-cdh5.5.1.tar.gz接下来,再创建两个目录分别用来存放nameNode,dataNode的数据,操作如下:
mkdir -p /data/datastore/hadoop/namenode mkdir -p /data/datastore/hadoop/datanode注意的是,后面如果没有特殊说明,将会一直使用hadoop用户来操作
4、ssh免密码登录
虽然是在一个节点上部署伪集群方式,启动hadoop的时候还是会使用ssh调用其他节点(这里是自己)命令,所以需要配置免登录,操作如下:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys cd ~ chmod 700 .ssh cd .ssh chmod 644 authorized_keys执行 ssh localhost,不需要输入密码了。
到此,前期的准备工作都已经完成,下面来配置hadoop相关的文件
配置文件
操作如下:
1、vim etc/hadoop/hadoop-env.sh
# The java implementation to use. export JAVA_HOME=/usr/local/jdk1.7.0_7
2、vim etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>3、vim etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>4、vim vim etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>file:////data/datastore/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:////data/datastore/hadoop/datanode</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>5、 vim etc/hadoop/yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
执行启动命令
接下来,我们来启动hadoop的各个组件
1、格式化文件系统
bin/hdfs namenode -format
格式化文件系统,只是第一次运行,类似硬盘格式化
2、启动NameNode 和 DataNode
sbin/start-dfs.sh
3、启动ResourceManager 和 NodeManager
sbin/start-yarn.sh
4、启动JobHistoryServer
sbin/mr-jobhistory-daemon.sh start historyserver
在控制台输入jps查看进程都是否启动,
[hadoop@data-1 data]$ jps 24242 ResourceManager 23940 DataNode 23819 NameNode 24333 NodeManager 24097 SecondaryNameNode 24686 JobHistoryServer可以在浏览器里输入地址,查看hadoop各个组件的运行情况,
http://localhost:8088,查看ResourceManager信息
http://localhost:50070,查看NameNode信息
http://localhost:19888,查看JobHistoryServer信息
测试使用
到目前为止,hadoop已成功运行,下面来测试下。在测试之前,在/etc/profile中加入变量HADOOP_HOME,方便使用hadoop命令,
export HADOOP_HOME=/data/software/hadoop-2.6.0-cdh5.5.1 export PATH=${PATH}:${HADOOP_HOME}/bin sudo source /etc/profile echo "This is a test." >> test.txt hadoop fs -ls / hadoop fs -copyFromLocal test.txt / hadoop fs -cat /test.txt
启动顺序
sbin/start-dfs.sh sbin/start-yarn.sh sbin/mr-jobhistory-daemon.sh start historyserver
关闭顺序
sbin/mr-jobhistory-daemon.sh stop historyserver sbin/stop-yarn.sh sbin/stop-dfs.sh
相关推荐
搭建伪集群模式的Hadoop可以用于开发与测试,在这个模式下,所有节点实际上都运行在同一个物理机上,模拟集群的运行环境。同时,通过在开发IDE如Eclipse中配置Hadoop插件,可以更便捷地进行开发和调试Hadoop程序。...
Hadoop伪分布模式是一种特殊的Hadoop集群模式,在这种模式下,所有Hadoop服务都运行在同一个节点上,模拟一个完整的Hadoop集群环境。这种模式非常适合开发、测试和学习Hadoop。 格式化HDFS 在启动Hadoop伪分布模式...
伪分布模式是在单台机器上模拟一个完整的Hadoop集群。它允许每个Hadoop服务(如NameNode、DataNode、ResourceManager等)在单独的进程中运行,这为测试提供了真实的集群环境。配置伪分布模式需要修改`core-site.xml`...
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...
Hadoop伪分布模式环境搭建是指在单个节点上搭建Hadoop集群环境,主要用于开发调试MapReduce应用逻辑。以下是搭建伪分布模式环境的步骤: 一、SSH协议介绍 SSH(Secure Shell)是一种安全协议,用于远程登录服务器...
### Hadoop伪分布式集群搭建详解 #### 一、概述 Hadoop是一款开源的大数据处理框架,主要用于处理海量数据。在实际应用中,Hadoop通常运行在由多台服务器组成的集群环境中,但为了方便学习和测试,可以搭建一个伪...
4. 分布式模式安装:使用多个节点构成集群环境来运行 Hadoop。 5. 安装 SSH 服务器:Ubuntu 默认已安装了 SSH 客户端,此外还需要安装 SSH 服务器,以便在单节点模式和分布式模式下使用 SSH 登录。 6. 配置 SSH 无...
Hadoop伪分布式运行模式是指使用一台主机或虚拟机模拟一个小规模的集群,所有的进程都在同一台机器上运行,类似于完全分布式模式。该模式常用于开发人员测试程序的执行。 二、伪分布式安装步骤 1. SSH免密码设置 ...
### Hadoop伪分布式模式配置与安装详解 #### 一、前言 在深入探讨Hadoop伪分布式模式的配置与安装之前,我们先简单回顾一下Hadoop的基本概念以及它为何重要。Hadoop是一个开源框架,用于分布式存储和处理大规模...
### Hadoop 2.6.0 伪分布模式安装详细指南 #### 一、环境准备与常见问题 在开始安装之前,确保您的机器满足以下条件: 1. **JDK 版本确认**:Hadoop 2.6.0 对 JDK 的版本有一定要求,通常推荐使用 Oracle JDK 1.7...
这份手册可能涵盖单机模式、伪分布式模式和完全分布式模式的安装,以及如何进行故障排查。 总的来说,Linux上的Hadoop集群安装涉及到多步骤的配置和调试,需要对Linux系统和Java有一定了解。通过这些文档,用户可以...
【大数据之Hadoop伪分布模式启动】 在大数据处理领域,Hadoop是一个开源的分布式计算框架,它能够处理和存储海量数据。在学习和测试Hadoop时,为了方便,通常会采用伪分布模式(Pseudo-Distributed Mode),这种...
伪分布式模式是在单个节点上模拟分布式环境,这对于学习和测试Hadoop功能非常有用,无需复杂的多节点集群设置。 1. **Hadoop-2.8.1**: 这是Hadoop的特定版本,2.8.1是Hadoop 2.x系列的一个稳定版本。这个版本提供了...
Hadoop伪分布式安装及配置参考步骤 Hadoop是一种分布式系统基础架构,由Apache基金会开发,能够对大量数据进行分布式处理和存储。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop具有高可靠...
**Hadoop伪分布模式安装步骤**: 1. **创建新用户**:为了安全起见,可以创建一个新的Linux用户,例如`zhangyu`,并为其分配sudo权限,以便执行需要管理员权限的命令。 2. **配置SSH免密码登录**:通过`ssh-keygen...
Hadoop伪分布模式是一种在单台机器上模拟分布式环境的方式,通常用于开发测试阶段。这种方式既能够体验到Hadoop的分布式特性,又不需要复杂的多节点集群配置。本文将详细介绍如何在Ubuntu系统上搭建Hadoop伪分布环境...