Linux搭建Hadoop开发环境
Hadoop环境搭建安装配置:
[1].官网下载Hadoop-2.7.5安装包: hadoop-2.7.5/hadoop-2.7.5.tar.gz
[2].把Hadoop-2.7.5安装包利用Xftp5工具上传到:/usr/local/hadoop
[3].登录Liunx服务器,利用Xhell5进入:cd /usr/local/hadoop:
[root@marklin hadoop]# cd /usr/local/hadoop
[root@marklin hadoop]#
并使用tar -xvf 解压:tar -xvf hadoop-2.7.5.tar.gz,
[root@marklin hadoop]# tar -xvf hadoop-2.7.5.tar.gz
[4].配置Hadoop环境变量,输入:vim /etc/profile
#Setting HADOOP_HOME PATH
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.5
export PATH=${PATH}:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin::${HADOOP_HOME}/lib
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export HADOOP_MAPARED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop
保存配置,输入:source /etc/profile
[root@marklin ~]# source /etc/profile
[root@marklin ~]#
PS:最总要的2个点:
【1】修改主机名称:vim /etc/hostname
【2】修改配置主机与Ip地址的映射:vim /etc/hosts
[5].Hadoop修改配置文件:
core-site.xml:Hadoop的核心配置,包含tmp临时配置文件和访问地址,默认端口9000
mapred-site.xml:Hadoop中相关数据处理模型的配置处理
yarn-site.xml:Hadoop中相关Job的配置处理
hdfs-site.xml:Hadoop配置的文件备份个数以及数据文件夹的配置
(1). 配置core-site.xml,在Hadoop安装目录[/usr/local/hadoop/hadoop-2.7.5/etc/hadoop]下 输入: vim core-site.xml
[root@marklin ~]# cd /usr/local/hadoop/hadoop-2.7.5/etc/hadoop
[root@marklin hadoop]#
输入:vim core-site.xml
并配置:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://marklin.com:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/repository/hdfs/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>
同时在文件路径:/usr/local/hadoop/repository/hdfs,创建tmp目录: mkdir tmp
(2) 修改 hdfs-site.xml,并配置:vim hdfs-site.xml
[root@marklin hadoop]# vim hdfs-site.xml
[root@marklin hadoop]#
<configuration>
<property>
<name>dfs.namenode.name.dir</name> --dfs.namenode.name.dir定义名称节点路径
<value>/usr/local/hadoop/repository/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name> --dfs.datanode.data.dir定义数据节点路径
<value>/usr/local/hadoop/repository/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.permissions</name> --dfs.permissions定义权限认证
<value>false</value>
</property>
<property>
<name>dfs.replication</name>--dfs.replication定义文件副本数
<value>1</value>
</property>
<property>
<name>dfs.namenode.http-address</name>--dfs.namenode.http-address定义服务http的访问
<value>marklin.com:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>--dfs.namenode.secondary.http-address定义服务http的访问
<value>marklin.com:50090</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/repository/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/repository/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>marklin.com:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>marklin.com:50090</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
同时在文件路径:/usr/local/hadoop/repository/hdfs,创建name和data目录: mkdir name 和mkdir data
(3) 创建mapred-site.xml文件,输入:cp mapred-site.xml.template mapred-site.xml
[root@marklin hadoop]# cp mapred-site.xml.template mapred-site.xml
编辑mapred-site.xml文件,并配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://marklin.com:8021/</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>marklin.com:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>marklin.com:19888</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xms2000m -Xmx4600m</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>5120</value>
</property>
<property>
<name>mapreduce.reduce.input.buffer.percent</name>
<value>0.5</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>2048</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>2</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>/usr/local/hadoop/repository/mapreduce/system</value>
<final>true</final>
</property>
<property>
<name>mapred.local.dir</name>
<value>/usr/local/hadoop/repository/mapreduce/local</value>
<final>true</final>
</property>
</configuration>
(4) 修改 yarn-site.xml,并输入::vim yarn-site.xml
[root@marklin hadoop]# vim yarn-site.xml
[root@marklin hadoop]#
并配置:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>marklin.com</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.app.mapreduce.am.staging-dir</name>
<value>/usr/local/hadoop/repository/mapreduce/staging</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate</value>
</property>
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>${yarn.app.mapreduce.am.staging-dir}/history/done</value>
</property>
</configuration>
【6】在Hadoop文件目录[/usr/local/hadoop/hadoop-2.7.5/etc/hadoop]下,
对应的 hadoop-env.sh,mapred-env.sh以及yarn-env.sh文件配置JAVA_HOME:export JAVA_HOME=/usr/local/java/jdk1.8.0_162
输入:vim hadoop-env.sh :
[root@marklin hadoop]# vim hadoop-env.sh
[root@marklin hadoop]#
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
输入:vim mapred-env.sh:
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
[root@marklin hadoop]# vim mapred-env.sh
[root@marklin hadoop]#
输入:vim yarn-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_162
[root@marklin hadoop]# vim yarn-env.sh
[root@marklin hadoop]#
【6】开放端口:50070
(1)启动防火墙:systemctl start firewalld.service
[root@marklin ~]# systemctl start firewalld.service
[root@marklin ~]#
(2)启动防火墙:firewall-cmd --zone=public --add-port=50070/tcp --permanent
[root@marklin ~]# firewall-cmd --zone=public --add-port=50070/tcp --permanent
[root@marklin ~]#
(3)启动:firewall-cmd --reload
[root@marklin ~]# firewall-cmd --reload
[root@marklin ~]#
(4)格式化:hdfs namenode -format
[root@marklin ~]# hdfs namenode -format
[root@marklin ~]#
(5)启动脚本:start-all.sh
[root@marklin ~]# start-all.sh
[root@marklin ~]#
[root@marklin ~]# start-dfs.sh
Starting namenodes on [marklin.com]
marklin.com: starting namenode, logging to /usr/local/hadoop/hadoop-2.7.5/logs/hadoop-root-namenode-marklin.com.out
marklin.com: starting datanode, logging to /usr/local/hadoop/hadoop-2.7.5/logs/hadoop-root-datanode-marklin.com.out
Starting secondary namenodes [marklin.com]
marklin.com: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-2.7.5/logs/hadoop-root-secondarynamenode-marklin.com.out
[root@marklin ~]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /usr/local/hadoop/hadoop-2.7.5/logs/yarn-root-resourcemanager-marklin.com.out
marklin.com: starting nodemanager, logging to /usr/local/hadoop/hadoop-2.7.5/logs/yarn-root-nodemanager-marklin.com.out
[root@marklin ~]# jps
1122 QuorumPeerMain
6034 Jps
1043 QuorumPeerMain
5413 SecondaryNameNode
5580 ResourceManager
5085 NameNode
5709 NodeManager
5230 DataNode
1119 QuorumPeerMain
【7】输入测试地址:
【1】浏览器输入:http://192.168.3.4:50070/dfshealth.html#tab-overview
【2】浏览器输入:http://192.168.3.4:8088/cluster
相关推荐
### Hadoop开发环境搭建知识点详解 ...综上所述,通过搭建Hadoop开发环境并使用HadoopEclipse插件,开发者可以更加高效地开发和管理Hadoop程序。这不仅简化了开发流程,还提高了程序的可维护性和扩展性。
内容概要:本文详细介绍了如何在 Linux 系统上搭建 Hadoop 开发环境,从环境准备到配置完成,包括 Java 安装、Hadoop 下载与安装、配置文件修改、SSH 无密码登录设置、Namenode 格式化、服务启动与验证等步骤。...
本文详细介绍了如何在Linux环境下搭建Hadoop环境,包括安装JDK、SSH以及配置Hadoop的核心文件等关键步骤。此外,还提供了一个简单的WordCount示例程序的操作流程。通过这些步骤,你可以成功地在Linux上搭建起一个...
在Windows环境下搭建Hadoop开发环境是一项复杂但必要的任务,尤其对于初学者和开发者来说,能够直接在本地系统上运行和调试Hadoop程序是极其有用的。本文将详细介绍如何在Windows上配置Hadoop,以便使用Eclipse进行...
搭建Hadoop开发环境是进行Hadoop编程和应用开发的第一步,这对于理解和实践大数据处理至关重要。 标题“Hadoop开发环境搭建”指的是配置一个适合进行Hadoop应用开发的本地或集群环境。这个过程通常涉及安装Java运行...
Hadoop 开发环境搭建第一篇: 1、是用Virtual Box 系统使用的是Redhat ,linux不熟的朋友们可以顺便学习一下linux, 2、环境配置包括防火墙关闭,IP分配,更改域名等 3、服务软件:远程服务SSH等安装
### 在本机搭建Hadoop 3.1.2开发环境详解 #### 一、环境准备与虚拟机搭建 ##### **1.1 虚拟机软件安装** 在本教程中,我们将使用VMware Workstation来搭建Linux CentOS 7虚拟机环境。首先确保你已经在物理机器上...
搭建Hadoop集群在LinuxRedHat、CentOS上的实现 Hadoop是一种流行的开源大数据处理平台,由Google开发,现被Apache基金会维护。Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce,分别负责数据存储...
搭建Hadoop开发环境,无论是单机模式还是伪分布式模式,都需要准备一些基础软件和环境。单机模式仅用于开发和测试,它在本地运行所有Hadoop守护进程;伪分布式模式将守护进程部署在单个机器上,但是每个守护进程都...
在本篇文章中,我们将详细介绍如何在单机上搭建 Hadoop 环境,包括安装 Linux 操作系统、创建 Hadoop 用户组和用户、安装 JDK、修改机器名、安装 SSH 服务、建立 SSH 无密码登录等步骤。 安装 Linux 操作系统 在...
"hadoop集群环境的搭建" Hadoop 是一个开源的大数据处理框架,由Apache基金会开发和维护。它可以实现大规模数据的存储和处理,具有高可扩展性、可靠性和高性能等特点。搭建 Hadoop 集群环境是实现大数据处理的重要...
在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,这将有助于你理解Hadoop的基础知识以及如何在Windows操作系统上进行开发和测试。Cygwin是一个在Windows上模拟Linux环境的工具,它允许...
在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...
Java开发环境(JDK)是运行和开发Java程序的软件包。文档中指出,Hadoop是用Java编写的,因此需要在Ubuntu虚拟机上安装JDK。具体步骤包括创建安装目录、复制JDK安装包到该目录、修改文件权限、执行安装文件以及配置...
在搭建Hadoop环境的过程中,有几个关键步骤需要详细解释。首先,我们需要配置IP地址,这是所有网络服务的基础。在CentOS7系统中,我们通常使用`ifconfig`命令查看网络接口,例如`ens33`。然后,使用`vim`编辑器打开`...
在本文中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境。Cygwin是一个为Windows操作系统提供Linux-like环境的开源工具,而Eclipse是一款流行的集成开发环境(IDE),广泛用于Java应用程序的开发...
本文将详细阐述如何搭建Hadoop 2.x的环境,这包括单节点模式、伪分布式模式以及完全分布式模式的安装与配置,同时也涵盖了Hadoop生态系统中其他重要组件的安装。 一、Hadoop简介 Hadoop是基于Java开发的,它由...