`

Hadoop 配置文件解析

 
阅读更多
在这里我们选用4台机器进行示范,各台机器的职责如下表格所示



搭建Hadoop

1.1.复制编译后的hadoop项目到/usr/local目录下
1.2.修改位于etc/hadoop目录下的配置文件
1.2.1.hadoop-env.sh

export JAVA_HOME=/usr/local/jdk

1.2.2.core-site.xml

<configuration>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://cluster1</value>
</property>
【这里的值指的是默认的HDFS路径。当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个哪?在这里指定!该值来自于hdfs-site.xml中的配置。在节点hadoop0和hadoop1中使用cluster1,在节点hadoop2和hadoop3中使用cluster2】

<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/local/hadoop/tmp</value>
</property>
【这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。】
<property>
  <name>ha.zookeeper.quorum</name>
  <value>hadoop0:2181,hadoop1:2181,hadoop2:2181</value>
</property>
【这里是ZooKeeper集群的地址和端口。注意,数量一定是奇数,且不少于三个节点】
</configuration>


1.2.3.hdfs-site.xml  
该文件只配置在hadoop0和hadoop1上。
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
【指定DataNode存储block的副本数量。默认值是3个,我们现在有4个DataNode,该值不大于4即可。】
    <property>
        <name>dfs.nameservices</name>
        <value>cluster1,cluster2</value>
    </property>
【使用federation时,使用了2个HDFS集群。这里抽象出两个NameService实际上就是给这2个HDFS集群起了个别名。名字可以随便起,相互不重复即可】
    <property>
        <name>dfs.ha.namenodes.cluster1</name>
        <value>hadoop0,hadoop1</value>
    </property>
【指定NameService是cluster1时的namenode有哪些,这里的值也是逻辑名称,名字随便起,相互不重复即可】
    <property>
        <name>dfs.namenode.rpc-address.cluster1.hadoop0</name>
        <value>hadoop0:9000</value>
    </property>
【指定hadoop0的RPC地址】
    <property>
        <name>dfs.namenode.http-address.cluster1.hadoop0</name>
        <value>hadoop0:50070</value>
    </property>
【指定hadoop0的http地址】
    <property>
        <name>dfs.namenode.rpc-address.cluster1.hadoop1</name>
        <value>hadoop1:9000</value>
    </property>
【指定hadoop1的RPC地址】
<property>
        <name>dfs.namenode.http-address.cluster1.hadoop1</name>
        <value>hadoop1:50070</value>
    </property>
【指定hadoop1的http地址】
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster1</value>
    </property>
【指定cluster1的两个NameNode共享edits文件目录时,使用的JournalNode集群信息】
<property>
        <name>dfs.ha.automatic-failover.enabled.cluster1</name>
        <value>true</value>
    </property>
【指定cluster1是否启动自动故障恢复,即当NameNode出故障时,是否自动切换到另一台NameNode】
<property>
        <name>dfs.client.failover.proxy.provider.cluster1</name>
     <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
【指定cluster1出故障时,哪个实现类负责执行故障切换】
    <property>
        <name>dfs.ha.namenodes.cluster2</name>
        <value>hadoop2,hadoop3</value>
    </property>
【指定NameService是cluster2时,两个NameNode是谁,这里是逻辑名称,不重复即可。以下配置与cluster1几乎全部相似,不再添加注释】
    <property>
        <name>dfs.namenode.rpc-address.cluster2.hadoop2</name>
        <value>hadoop2:9000</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.cluster2.hadoop2</name>
        <value>hadoop2:50070</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.cluster2.hadoop3</name>
        <value>hadoop3:9000</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.cluster2.hadoop3</name>
        <value>hadoop3:50070</value>
    </property>
    <!--
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster2</value>
    </property>
【这段代码是注释掉的,不要打开】
    -->
<property>
        <name>dfs.ha.automatic-failover.enabled.cluster2</name>
        <value>true</value>
    </property>
<property>
        <name>dfs.client.failover.proxy.provider.cluster2</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/usr/local/hadoop/tmp/journal</value>
</property>
【指定JournalNode集群在对NameNode的目录进行共享时,自己存储数据的磁盘路径】
<property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>
【一旦需要NameNode切换,使用ssh方式进行操作】
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
【如果使用ssh进行故障切换,使用ssh通信时用的密钥存储的位置】
</configuration>


1.2.4.slaves
hadoop1
hadoop2
hadoop2
1.3.把以上配置的内容复制到hadoop1、hadoop2、hadoop3节点上

1.4.修改hadoop1、hadoop2、hadoop3上的配置文件内容
1.4.1.修改hadoop2上的core-site.xml内容
fs.defaultFS的值改为hdfs://cluster2
1.4.2.修改hadoop2上的hdfs-site.xml内容
把cluster1中关于journalnode的配置项删除,增加如下内容
<property>
    <name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster2</value>
</property>
1.4.3.开始启动
1.4.3.1.启动journalnode
在hadoop0、hadoop1、hadoop2上执行sbin/hadoop-daemon.sh start journalnode
1.4.3.2.格式化ZooKeeper
在hadoop0、hadoop2上执行bin/hdfs  zkfc  -formatZK
1.4.3.3.对hadoop0节点进行格式化和启动
bin/hdfs  namenode  -format
sbin/hadoop-daemon.sh  start  namenode
1.4.3.4.对hadoop1节点进行格式化和启动 
bin/hdfs  namenode  -bootstrapStandby
sbin/hadoop-daemon.sh  start  namenode
1.4.3.5.在hadoop0、hadoop1上启动zkfc
sbin/hadoop-daemon.sh   start   zkfc
我们的hadoop0、hadoop1有一个节点就会变为active状态。
1.4.3.6.对于cluster2执行类似操作
1.4.4.启动datanode
在hadoop0上执行命令sbin/hadoop-daemons.sh   start   datanode

1.5.配置Yarn
1.5.1.修改文件mapred-site.xml
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property> 


1.5.2. 修改文件yarn-site.xml
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop0</value>
</property>  
【自定ResourceManager的地址,还是单点,这是隐患】
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>


1.5.3.启动yarn
在hadoop0上执行sbin/start-yarn.sh

    
  • 大小: 15 KB
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    hadoop配置文件默认配置

    在Hadoop生态系统中,配置文件是管理和优化集群性能的关键元素。本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们...

    Hadoop 2.2.0 配置文件

    在这个配置文件中,我们将会探讨Hadoop 2.2.0 在4台CentOS 6.4系统上运行所需的配置细节。 首先,Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们都需要通过一系列的配置文件来定制...

    hadoop-windows下配置文件

    本资源提供了适用于Windows的Hadoop配置文件,特别是针对Hadoop 2.7.3版本,它允许用户避免手动编译的复杂步骤。下面我们将深入探讨在Windows上配置Hadoop的关键知识点。 1. **Hadoop的Windows兼容性**:虽然Hadoop...

    hadoop的默认配置文件

    本篇文章将详细解析Hadoop的四个主要默认配置文件:`hdfs-default.xml`、`core-default.xml`、`mapred-default.xml`和`yarn-default.xml`。 首先,`hdfs-default.xml`是Hadoop Distributed File System (HDFS) 的...

    Hadoop2.6.4/2.7.3环境配置文件

    根据提供的文件信息,本文将详细解析Hadoop 2.6.4/2.7.3环境配置的关键步骤,包括Linux开发环境的搭建、JDK安装、以及如何创建一个Hadoop虚拟集群。 ### 一、Linux开发环境搭建 #### 1. 准备工具 - **VMware ...

    Hadoop默认配置文件

    本文将深入解析标题提及的四个核心配置文件:`core-default.xml`、`hdfs-default.xml`、`mapred-default.xml`以及`yarn-default.xml`。 首先,`core-default.xml`是Hadoop的核心组件配置文件,它包含了Hadoop的基本...

    TSQL解析hadoop配置

    使用SQLSERVER访问hadoop2.0http地址,通过powershell下载其配置文件(xml格式);在TSQL然后通过xml查询,解析出hadoop2.0配置详细信息,这样可以通过熟悉的TSQL检索查询hadoop配置,并归类之

    基于虚拟机集群hadoop2.7.1配置文件

    首先,我们来看标题——"基于虚拟机集群hadoop2.7.1配置文件"。这意味着我们要在多台虚拟机上建立一个Hadoop集群,使用的是Hadoop 2.7.1版本。这个版本是Hadoop的稳定版本,包含了YARN(Yet Another Resource ...

    hadoop配置

    2. **配置同步**:在所有节点上保持Hadoop配置文件的一致性。 3. **启动服务**:按照启动顺序依次启动NameNode、Secondary NameNode、DataNode、ResourceManager和NodeManager。 4. **格式化NameNode**:首次部署...

    hadoop 大数据集群配置文件

    本文将详细解析提供的几个关键配置文件,这些配置文件对于理解和优化Hadoop大数据集群的性能至关重要。 首先,`profile`文件通常包含了用户的环境变量设置,这对于Hadoop的安装和运行是必要的。用户可能会在这里...

    HadoopHA配置文件.rar

    以下将详细解析这些配置文件中的关键知识点。 1. **core-site.xml**: 这个文件定义了Hadoop的基本行为和存储信息。其中,`fs.defaultFS`属性是最重要的,它指定了Hadoop的默认文件系统,通常是一个高可用的HDFS名称...

    hadoop2.6conf下的正确配置文件

    以下是对这些配置文件及其重要参数的详细解析: 1. **core-site.xml**:这是Hadoop的核心配置文件,包含了与Hadoop文件系统操作相关的设置。其中最重要的是`fs.defaultFS`,它指定了默认的文件系统,通常是HDFS...

    hadoop-2.10.1 standalone配置文件参考

    以下是对Hadoop 2.10.1 standalone配置文件的详细解析: 1. **core-site.xml**: 这个文件是Hadoop的核心配置,定义了文件系统的默认属性。例如,`fs.defaultFS`配置项指定了默认文件系统,通常设置为`file://...

    hadoop安装配置文档.pdf

    2. 在所有服务器及虚拟机上绑定hosts文件,以确保主机名可以被解析。 3. 准备相关软件包,如hadoop-0.20.2-cdh3u5.tar.gz、hbase-0.90.6-cdh3u5.tar.gz、hive-0.7.1-cdh3u5.tar.gz、zookeeper-3.3.5-cdh3u5.tar.gz和...

    适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

    在本场景中,我们有两个针对不同Hadoop版本的配置文件:`hadoop2.9配置文件.rar` 和 `hadoop2.7配置文件.rar`,分别适用于Hadoop 2.9.x和2.7.x版本。 **Hadoop和winutils.exe:** `winutils.exe` 是Hadoop在Windows...

    hadoop NameNode 源码解析

    Hadoop NameNode 源码解析 ...本文对 Hadoop NameNode 的源码进行了深入分析,了解了其启动过程、配置加载、RPC 服务端创建、 Namenode 对象初始化等关键步骤,为读者提供了一个详细的 Hadoop NameNode 源码解析。

    hadoop配置手册

    ### Hadoop配置手册知识点解析 #### 一、Hadoop配置环境概述 在开始解析之前,我们先了解一下Hadoop的基本配置环境。Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它主要包括HDFS(Hadoop ...

    Hadoop分布式文件系统的文件读写

    在Hadoop的分布式文件系统(HDFS)...通过以上对Hadoop文件读写、文件属性和目录操作的解析,我们可以理解HDFS如何高效、安全地处理大规模数据。在实际应用中,理解并优化这些操作,对于提升Hadoop集群的性能至关重要。

Global site tag (gtag.js) - Google Analytics