`
qq466862016
  • 浏览: 128476 次
  • 来自: 杭州
社区版块
存档分类
最新评论

hadoop2.9全分布式安装

    博客分类:
  • java
阅读更多

 

一.环境说明

安装介质 :virtualbox centos6.8
网络模式 NAT +host-only(双网卡模式公司内网无法使用简单的桥连接—因为ip自动获取会被占用)
三台虚拟机

 

host ip 节点
h1 192.168.56.11 namenode resourcemanager secondarynamenode
h2 192.168.56.12 datanode nodemanager
h3 192.168.56.13 datanode nodemanager

 

hadoop使用2.9.1版
jdk1.7

二.关闭防火墙&网络配置

--关闭防火墙
service iptables stop

--关闭防火墙开机启动服务
chkconfig iptables off
安装 sz rz 工具
yum install lrzsz.x86_64
修改hostname
vim /etc/sysconfig/network文件中的hostname
重启 centos
reboot -h now

 

 

三.安装openssh

yum search openssh
yum install openssh-server
设置ssh免密登录
ssh-keygen
cp id_rsa.pub authorized_keys
添加免密
ssh-copy-id -i id_rsa.pub root@h1
ssh-copy-id -i id_rsa.pub root@h2
ssh-copy-id -i id_rsa.pub root@h3

 

 

四.下载&安装 jdk 下载hadoop 安装包

 

rz 命令上传jdk安装包
在线下载hadoop安装包
wget -c http://mirrors.shu.edu.cn/apache/hadoop/common/hadoop-2.9.1/hadoop-2.9.1.tar.gz


 tar -xzvf jdk-7u45-linux-x64.tar.gz
 tar -xzvf hadoop-2.9.1.tar.gz

 

五.添加相关配置

       

1.指定JDK安装目录

 etc/hadoop/hadoop-env.sh
 export JAVA_HOME=${JAVA_HOME} 设置jdk安装主目录


 

2.修改hadoop默认配置(etc/hadoop/core-site.xml)

 

 <configuration>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://h1:9000</value>
 </property>
 <property>
 <name>io.file.buffer.size</name>
 <value>131072</value>
 </property>
 </configuration>

 

  
3.hdfs系统中的namenode和datanode配置(etc/hadoop/hdfs-site.xml)

 

1.namenode配置
  <configuration>
 <property>
 <name>dfs.namenode.name.dir</name>
 <value>/usr/local/cloud/hadoop-2.9.1/namenode</value>
 </property>
 <property>
 <name>dfs.blocksize</name>
 <value>268435456</value>
 <property>
 </configuration>

 2.datanode配置
 在etc/hadoop/hdfs-site.xml配置文件中添加配置项
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>/usr/local/cloud/hadoop-2.9.1/datanode</value>
 </property>


   

4.yarn中资源管理和节点管理配置-etc/hadoop/yarn-site.xml
<configuration>
 <!-- Site specific YARN configuration properties -->
 <property>
 <name>yarn.resourcemanager.address</name>
 <value>h1:8032</value>
 </property>
 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>
 </configuration>

 
  
5.mapreduce 配置-/etc/hadoop/mapred-site.xml
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
<property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>h1:19888</value>
   </property>
  </configuration>
 
   
6.添加集群信息-/etc/hadoop/slaves
 h1
 h2
 h3

   
7.复制h1中对应文件到h2、h3

 

scp -r /usr/local/cloud root@h2:/usr/local/
scp -r /usr/local/cloud root@h3:/usr/local/
scp -r /etc/profile root@h2:/etc/profile
scp -r /etc/profile root@h3:/etc/profile
 
生效环境变量配置
source /etc/profile

 

六、启动hadoop集群

 

1.格式化 hdfs
  ./hdfs namenode -format
2.启动namenode
  ./hadoop-daemon.sh start namenode
3.启动secondary namenode
  ./hadoop-daemon.sh start secondarynamenode
4.启动 datanode
 ./hadoop-daemon.sh start datanode
 5.启动yarn
   1.启动 资源管理(在master节点)
      ./yarn-daemon.sh start resourcemanager
   2.启动nodemanager (datanode所在的节点)
     ./yarn-daemon.sh start nodemanager
 6.启动jobhistory 服务
   ./mr-jobhistory-daemon.sh  start historyserver

 

   
8.如果配置完ssh免密登录可以直接使用(并且在/etc/hadoop/slaves配置集群成员信息)

 

./start-dfs.sh
./start-yarn.sh

 

七、验证hadoop集群是正常

--hdfs集群健康状态
http://192.168.56.11:50070/ 
--yarn集群资源管理
http://192.168.56.11:8088/
-- mapreduce 执行任务状态
http://192.168.56.11:19888/
 

八、其他补充说明

  hadoop有很多相关的配置如需要需改请查看一下链接进行修改即可。

   http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml   hadoop默认配置文件 

   http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml   hadoop的hdfs 分布式文件系统相关配置

   http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml   hadoop mapreduce 相关配置

   http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-common/yarn-default.xml    hadoop yarn集群相关配置

   http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/DeprecatedProperties.html   过期或不推荐使用的配置项说明。

  

 

0
0
分享到:
评论

相关推荐

    spark-2.3.1-bin-hadoop2.9-without-hive.tgz

    在描述中提到的"spark-2.3.1-bin-hadoop2.9-without-hive.tgz"是一个特别构建的Spark发行版,不包含Hive的支持,意味着这个版本的Spark没有内置与Hive交互的能力。 在大数据处理领域,Spark以其内存计算特性而闻名...

    hadoop2.9.x源码编译工具包

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据。在本工具包中,我们关注的是Hadoop的2.9.x版本,这是一个相对稳定的版本,包含了众多改进和修复。为了从源码编译Hadoop ...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    hadoop-2.9.2

    Hadoop是大数据处理领域的一个核心框架,其2.9.2版本是该系统的一个稳定发行版,提供了高效、可靠的分布式计算能力。Hadoop的核心设计理念在于将大规模数据处理的任务分解成小块,然后在多台机器(节点)上并行处理...

    hadoop2.6,window7 64bit,hadoop.dll、winutils.exe文件下载

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.6是Hadoop的一个重要版本,它包含了多项改进和优化,以提高性能和稳定性。在Windows 7 64位操作系统上配置和运行Hadoop可能...

    Hadoop api 2.7 2.9 3.1 chm 大数据 官方文档 手册

    Hadoop,作为大数据处理领域的核心框架,其API是开发者进行分布式计算和存储的关键工具。本文档集合涵盖了Hadoop API的2.7、2.9和3.1三个主要版本,旨在为开发者提供详尽的官方参考,帮助理解和应用这一强大的开源...

    java项目Hadoop依赖包

    在Hadoop2.9.x版本中,此依赖包可能包括了Hadoop Common、Hadoop MapReduce Client、Hadoop HDFS等模块。Hadoop Common是所有Hadoop模块共享的通用库,包含了各种实用工具和功能。Hadoop MapReduce Client则提供了与...

    伪分布式基于hadoop3.1.3生态环境大数据集群

    1.本机虚拟机镜像为ova格式,大小为2.9G,仅限VirtualBox使用,本机无图形界面!请注意! 2.本机为ubuntu16.04服务器版本,无图形化界面,剔除无用冗杂的三方软件,速度更快。 hadoop=3.1.3 jdk=1.8.0_162 hbase=...

    hadoop2x-eclipse-plugin-original

    这里的“2x”通常代表Hadoop的2.0到2.9版本,这是一系列重要的Hadoop版本,引入了许多功能改进和性能优化。 【描述解析】 描述提到“hadoop2x-eclipse-plugin-original未配置的源码包”,意味着这个压缩包包含了...

    Hadoop云计算平台搭建方案2..doc

    2.6 安装和配置Hadoop 在master节点上解压Hadoop-2.2.0,并进行基本配置,包括设置HADOOP_HOME、JAVA_HOME等环境变量,修改`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`等配置文件,指定...

    PyPI 官网下载 | riptide-2.9.9.3.tar.gz

    Zookeeper 是Apache Hadoop项目的一部分,它是一个分布式协调服务,用于管理分布式应用的配置信息、命名服务、集群状态和同步。在Riptide中,Zookeeper可能被用作服务注册与发现的机制,确保分布式环境中的各个组件...

    Discount:在Apache Spark上进行分布式k-mer计数和最小化器分析

    在Google Cloud中,我们已经在Dataproc映像版本1.4(Debian 9,Hadoop 2.9,Spark 2.4)上进行了测试。 但是,Discount应该在可以运行Spark和Hadoop任何平台上运行。 要在本地运行,请首先安装并配置Spark( )。 ...

    分布式数据仓库Hive大全

    1.2 Hive 和 Hadoop 关系 7 1.3 Hive 和普通关系数据库的异同 8 1.4 HIVE元数据库 9 1.4.1 DERBY 9 1.4.2 Mysql 10 1.5 HIVE的数据存储 11 1.6 其它HIVE操作 11 2. HIVE 基本操作 12 2.1 create table 12 2.1.1 总述...

    Kafka 2.9 版本 jdk1.7+

    在本讨论中,我们将深入探讨与“Kafka 2.9 版本 jdk1.7+”相关的知识,包括其特点、功能、安装和使用方法。 首先,Kafka 2.9.1-0.8.2.1版本是Kafka的一个较早版本,支持Java 1.7及以上版本。这意味着它可以在运行...

    hadoop命令指南

    `distcp`命令用于分布式复制数据。它可以在不同HDFS之间进行高效的数据迁移。 **命令格式**: ``` hadoop distcp &lt;src&gt; &lt;dst&gt; [OPTIONS] ``` **参数说明**: - `&lt;src&gt;`:源路径。 - `&lt;dst&gt;`:目标路径。 - `...

    impala-2.9.pdf

    * Distributed Architecture:Impala 使用分布式架构,支持水平扩展 * Columnar Storage:Impala 使用列式存储,提高查询性能 * Parallel Processing:Impala 使用并行处理,提高查询效率 开发 Impala 应用程序 ...

    winutils.zip

    在大数据领域,Apache Hadoop是一个不可或缺的名字,它是开源项目,提供了一个分布式文件系统(HDFS)和一个用于并行处理大规模数据集的计算框架(MapReduce)。在Windows环境中,由于与Linux环境的差异,使用Hadoop...

    Cloudera CDH 安装和配置文档

    为了便于系统管理员和Hadoop用户安装和管理Cloudera CDH,文档详细介绍了从机器规划到各组件的安装与配置过程。接下来,我将详细阐述这些知识点。 ### 第1章 系统概述 #### 1.1 机器规划 机器规划是实施Hadoop集群...

    Hadoop学习总结之一:HDFS简介.doc

    总结来说,HDFS是Hadoop分布式计算框架的核心组件,提供高容错、高吞吐量的数据存储服务。通过数据块、NameNode、DataNode以及Secondary NameNode等机制,实现了文件的分布式存储和高效访问。数据流的过程涉及读文件...

    二进制高可用k8s集群一键部署脚本

    这些主节点包含控制平面组件,如etcd(分布式键值存储)、apiserver(k8s的HTTP API服务器)、scheduler(负责调度Pod到合适的节点上)、controller-manager(处理自动化的控制器)。通过在多个节点上部署这些组件并...

Global site tag (gtag.js) - Google Analytics