在个人虚拟机上搭建hadoop的运行环境的笔记。
背景信息:部署版本采用了hadoop 2.6.3;操作系统为centos ,内核2.6.32-504.3.3.el6.x86_64;系统已经正确安装了jdk,本次选定版本为jdk7u79.
一、解压部署
1. 下载hadoop 2.6.3 安装包 hadoop-2.6.3.tar.gz,下载页面:http://hadoop.apache.org/releases.html
解压到目录:/home/hanzhiwei/app/hadoop下
2. 设定HADOOP_HOME环境变量
在~/.bash_profile文件中添加hadoop的环境变量
export JAVA_HOME=/home/hanzhiwei/app/java/jdk1.7.0_79 PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$MAVEN_HOME/bin:$HADOOP_HOME/bin export HADOOP_HOME=/home/han/app/hadoop/hadoop-2.6.3 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
为了让设置及时生效,执行source ~/.bash_profile
二、修改配置文件
1. 进入${HADOOP_HOME}/etc/hadoop/目录,重命名mapred-site.xml.templat 为 mapred-site.xml,并在其中添加如下配置项
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
2. 修改core-site.xml ,添加如下内容
<property> <name>fs.default.name</name> <value>hdfs://{YARNSERVER}:8020</value> </property>
{YARNSERVER}为部署机器的host或者ip,按照实际情况替换即可。
因为采用了个人虚拟机部署,为了避免每次重启虚拟机后启动hadoop出现各种问题,将hadoop的tmp目录指向了非系统/tmp目录.加入如下配置项
<property> <name>hadoop.tmp.dir</name> <value>/home/han/data/hadoop/tmp</value> </property>
3. 修改yarn-site.xml 文件,添加如下内容
<property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>mapreduce_shuffle</value> <description>shuffle service that needs to be set for Map Reduce to run </description> </property>
为了能够运行mapreduce程序,需要让各个nodemanager在启动时加载shuffle server,shuffle server实际上市jetty/netty server,reduce task通过该server从各个nodemanager上远程复制map task产生的中间结果。
4. 修改hdfs-site.xml,添加如下内容
<property> <name>dfs.replication</name> <value>1</value> </property>
因为是部署环境就一台机器,设置副本数是1.
三、设置免密登录
1. 用户目录下执行 ssh-keygen -t rsa, 将会在~/.ssh/下生成公钥文件id_rsa.pub和私钥文件id_rsa
2. 将公钥文件中的内容复制到相同目录下的authorized_keys文件中:
cat id_rsa.pub >> authorized_keys
四、启动hadoop
1. 格式化 hdfs
${HADOOP_HOME}/bin/hadoop namenode -format
2. 启动hdfs
${HADOOP_HOME}/sbin/hadoop-daemon.sh start namenode ${HADOOP_HOME}/sbin/hadoop-daemon.sh start datanode
3. 启动yarn
sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager
4. 验证是否启动正常。
* jps验证进程
$ jps 22581 ResourceManager 23455 Jps 22332 NameNode 22452 DataNode 23319 NodeManager
* 通过URL查看yarn的web页面
* 验证hdfs命令 :hdfs fs -ls /
我在这步操作时遇到如下警告:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
这个是因为$HADOOP_HOME/lib/native/libhadoop.so.1.0.0是在32位环境编译的,当前centos系统是64位的。这个警告并不影响hadoop的功能,可以忽略。如果要想去掉的话,需要重新从源码编译,具体操作可以参考:
http://www.ercoppa.org/Linux-Compile-Hadoop-220-fix-Unable-to-load-native-hadoop-library.htm
相关推荐
比如,在伪分布式模式下,原2.x版本通常使用的9000端口,在Hadoop 3.0中更改为了9820端口。这一改变是重要的,因为它会影响客户端和集群中各个服务的通信。文档中提到了端口变化的详细说明链接,指引用户访问以获取...
### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...
Hadoop是一种能够存储和处理大量数据的分布式计算框架,而HBase则是在Hadoop之上构建的一个分布式列式存储系统。本文将详细介绍如何在三台虚拟机上安装配置Hadoop-0.20.205.0和HBase-0.90.5,包括单机模式和集群模式...
在部署Hadoop伪分布式环境时,我们首先要安装JDK,然后解压并配置Hadoop。接下来,启动NameNode、DataNode、ResourceManager和NodeManager等Hadoop服务。这些服务的启动可以通过执行Hadoop的bin目录下的脚本来完成。...
本文将详细阐述如何搭建Hadoop 2.x的环境,这包括单节点模式、伪分布式模式以及完全分布式模式的安装与配置,同时也涵盖了Hadoop生态系统中其他重要组件的安装。 一、Hadoop简介 Hadoop是基于Java开发的,它由...
在单机伪分布式配置中,所有服务都在同一台机器上运行,这对于学习和测试Hadoop的基本功能非常方便。在实际生产环境中,Hadoop通常会部署在多台机器上,形成集群,以实现更高的可用性和扩展性。 总之,安装Hadoop...
- 使用`spark-submit`命令提交你的应用程序到本地模式、伪分布式模式或完全分布式模式的Spark集群。 总之,Spark 2.3.1是一个强大且易用的大数据处理工具,它简化了在Windows上的部署过程,使得开发者和数据科学家...
- **伪分布式模式**:适用于开发调试环境,每个进程都运行在一个独立的Java进程中。 - **完全分布式模式**:适用于生产环境,各个进程分布在不同的物理节点上。 - **配置文件**: - **core-site.xml**:包含...
伪分布式部署是Hadoop学习和开发中常用的一种部署方式,它使得开发者能够在单机环境下模拟分布式计算场景。配置JDK、创建hadoop用户、安装SSH服务、配置无密码SSH登录以及正确选择Hadoop版本是整个部署过程中的关键...
3. Hadoop 介绍及 1.X 伪分布式安装 4. Hadoop2.X 64 位编译 5. Hadoop2.X 64 位环境搭建 实验步骤包括: 1. hadoop 三种安装模式介绍 2. hadoop 配置文件介绍及修改 3. hdfs 格式化 4. 启动 hadoop 进程 5. 验证...
5. **Hadoop运行模式**:Hadoop支持本地模式、伪分布式模式和完全分布式模式。本地模式主要用于单机调试,不涉及网络通信;伪分布式模式在一个节点上模拟分布式环境,所有Hadoop组件都运行在同一台机器上;完全...
在搭建Hadoop伪分布式集群的过程中,首先需要在Linux环境下配置VMware的NAT网络,确保虚拟机能够稳定地运行和通信。NAT网络允许虚拟机通过宿主机与外部网络进行通信,同时保持IP地址的固定性。具体操作包括取消DHCP...
Hadoop 离线计算是分布式集群技术的基础,Hadoop2.x 集群搭建、NameNode 的高可用性(HA)、HDFS Federation、ResourceManager 的高可用性(HA)、Hadoop 集群常见问题和解决方法、Hadoop 集群管理等内容将为读者...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 第二天 hdfs的原理和使用操作、编程 第三天 mapreduce的原理和编程 第四天 常见mr算法实现和shuffle的机制 第五天 hadoop2.x中HA机制的...
在Spark运行时,它用于配置Hadoop的相关路径,比如HADOOP_HOME和HADOOP_OPTS,这对于本地模式或伪分布式模式运行Spark至关重要。 为了在IntelliJ IDEA(简称IDEA)中顺利运行Spark程序,我们需要确保正确地配置了...