`

hadoop2.0配置文件详解

 
阅读更多

 

转至:http://www.cnblogs.com/yinghun/p/6230436.html

Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4。

etc/hadoop/core-site.xml

参数 属性值 解释
fs.defaultFS NameNode URI hdfs://host:port/
io.file.buffer.size 131072 SequenceFiles文件中.读写缓存size设定

 

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.100:900</value>
        <description>192.168.1.100为服务器IP地址,其实也可以使用主机名</description>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
        <description>该属性值单位为KB,131072KB即为默认的64M</description>
    </property>
</configuration>

 

 

etc/hadoop/hdfs-site.xml

  • 配置NameNode
参数 属性值 解释
dfs.namenode.name.dir 在本地文件系统所在的NameNode的存储空间和持续化处理日志 如果这是一个以逗号分隔的目录列表,然 后将名称表被复制的所有目录,以备不时 需。
dfs.namenode.hosts/
dfs.namenode.hosts.exclude
Datanodes permitted/excluded列表 如有必要,可以使用这些文件来控制允许 数据节点的列表
dfs.blocksize 268435456 大型的文件系统HDFS块大小为256MB
dfs.namenode.handler.count 100 设置更多的namenode线程,处理从 datanode发出的大量RPC请求

 

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
        <description>分片数量,伪分布式将其配置成1即可</description>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/namenode</value>
        <description>命名空间和事务在本地文件系统永久存储的路径</description>
    </property>
    <property>
        <name>dfs.namenode.hosts</name>
        <value>datanode1, datanode2</value>
        <description>datanode1, datanode2分别对应DataNode所在服务器主机名</description>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>268435456</value>
        <description>大文件系统HDFS块大小为256M,默认值为64M</description>
    </property>
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>100</value>
        <description>更多的NameNode服务器线程处理来自DataNodes的RPCS</description>
    </property>
</configuration>

 

 

  • 配置DataNode
参数 属性值 解释
dfs.datanode.data.dir 逗号分隔的一个DataNode上,它应该保存它的块的本地文件系统的路径列表 如果这是一个以逗号分隔的目录列表,那么数据将被存储在所有命名的目录,通常在不同的设备。

 

<configuration>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/datanode</value>
        <description>DataNode在本地文件系统中存放块的路径</description>
    </property>
</configuration>

 

 

etc/hadoop/yarn-site.xml

  • 配置ResourceManager 和 NodeManager:
参数 属性值 解释
yarn.resourcemanager.address 客户端对ResourceManager主机通过 host:port 提交作业 host:port
yarn.resourcemanager.scheduler.address ApplicationMasters 通过ResourceManager主机访问host:port跟踪调度程序获资源 host:port
yarn.resourcemanager.resource-tracker.address NodeManagers通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.admin.address 管理命令通过ResourceManager主机访问host:port host:port
yarn.resourcemanager.webapp.address ResourceManager web页面host:port. host:port
yarn.resourcemanager.scheduler.class ResourceManager 调度类(Scheduler class) CapacityScheduler(推荐),FairScheduler(也推荐),orFifoScheduler
yarn.scheduler.minimum-allocation-mb 每个容器内存最低限额分配到的资源管理器要求 以MB为单位
yarn.scheduler.maximum-allocation-mb 资源管理器分配给每个容器的内存最大限制 以MB为单位
yarn.resourcemanager.nodes.include-path/
yarn.resourcemanager.nodes.exclude-path
NodeManagers的permitted/excluded列表 如有必要,可使用这些文件来控制允许NodeManagers列表

<configuration>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>192.168.1.100:8081</value>

        <description>IP地址192.168.1.100也可替换为主机名</description>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>192.168.1.100:8082</value>

        <description>IP地址192.168.1.100也可替换为主机名</description>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>192.168.1.100:8083</value>

        <description>IP地址192.168.1.100也可替换为主机名</description>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>192.168.1.100:8084</value>

        <description>IP地址192.168.1.100也可替换为主机名</description>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>192.168.1.100:8085</value>

        <description>IP地址192.168.1.100也可替换为主机名</description>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.class</name>

        <value>FairScheduler</value>

        <description>常用类:CapacityScheduler、FairScheduler、orFifoScheduler</description>

    </property>

    <property>

        <name>yarn.scheduler.minimum</name>

        <value>100</value>

        <description>单位:MB</description>

    </property>

    <property>

 

<configuration>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>256</value>
        <description>单位为MB</description>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>90</value>
        <description>百分比</description>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/usr/local/hadoop/tmp/nodemanager/logs</value>
        <description>列表用逗号分隔</description>
    </property>
    <property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>10800</value>
        <description>单位为S</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce-shuffle</value>
        <description>Shuffle service 需要加以设置的MapReduce的应用程序服务</description>
    </property>
</configuration>

         <name>yarn.scheduler.maximum</name>

 

        <value>256</value>

        <description>单位:MB</description>

    </property>

    <property>

        <name>yarn.resourcemanager.nodes.include-path</name>

        <value>nodeManager1, nodeManager2</value>

        <description>nodeManager1, nodeManager2分别对应服务器主机名</description>

    </property>

</configuration>

  • 配置NodeManager
<configuration>
    <property>
        <name> mapreduce.framework.name</name>
        <value>yarn</value>
        <description>执行框架设置为Hadoop YARN</description>
    </property>
    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>1536</value>
        <description>对maps更大的资源限制的</description>
    </property>
    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx2014M</value>
        <description>maps中对jvm child设置更大的堆大小</description>
    </property>
    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>3072</value>
        <description>设置 reduces对于较大的资源限制</description>
    </property>
    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx2560M</value>
        <description>reduces对 jvm child设置更大的堆大小</description>
    </property>
    <property>
        <name>mapreduce.task.io.sort</name>
        <value>512</value>
        <description>更高的内存限制,而对数据进行排序的效率</description>
    </property>
    <property>
        <name>mapreduce.task.io.sort.factor</name>
        <value>100</value>
        <description>在文件排序中更多的流合并为一次</description>
    </property>
    <property>
        <name>mapreduce.reduce.shuffle.parallelcopies</name>
        <value>50</value>
        <description>通过reduces从很多的map中读取较多的平行副本</description>
    </property>
</configuration>
 
参数 属性值 解释
yarn.nodemanager.resource.memory-mb givenNodeManager即资源的可用物理内存,以MB为单位 定义在节点管理器总的可用资源,以提供给运行容器
yarn.nodemanager.vmem-pmem-ratio 最大比率为一些任务的虚拟内存使用量可能会超过物理内存率 每个任务的虚拟内存的使用可以通过这个比例超过了物理内存的限制。虚拟内存的使用上的节点管理器任务的总量可以通过这个比率超过其物理内存的使用
yarn.nodemanager.local-dirs 数据写入本地文件系统路径的列表用逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log-dirs 本地文件系统日志路径的列表逗号分隔 多条存储路径可以提高磁盘的读写速度
yarn.nodemanager.log.retain-seconds 10800 如果日志聚合被禁用。默认的时间(以秒为单位)保留在节点管理器只适用日志文件
yarn.nodemanager.remote-app-log-dir logs HDFS目录下的应用程序日志移动应用上完成。需要设置相应的权限。仅适用日志聚合功能
yarn.nodemanager.remote-app-log-dir-suffix logs 后缀追加到远程日志目录。日志将被汇总到${yarn.nodemanager.remote­app­logdir}/${user}/${thisParam} 仅适用日志聚合功能。
yarn.nodemanager.aux-services mapreduce-shuffle Shuffle service 需要加以设置的Map Reduce的应用程序服务

etc/hadoop/mapred-site.xml

  • 配置mapreduce
参数 属性值 解释
mapreduce.framework.name yarn 执行框架设置为 Hadoop YARN.
mapreduce.map.memory.mb 1536 对maps更大的资源限制的.
mapreduce.map.java.opts -Xmx2014M maps中对jvm child设置更大的堆大小
mapreduce.reduce.memory.mb 3072 设置 reduces对于较大的资源限制
mapreduce.reduce.java.opts -Xmx2560M reduces对 jvm child设置更大的堆大小
mapreduce.task.io.sort.mb 512 更高的内存限制,而对数据进行排序的效率
mapreduce.task.io.sort.factor 100 在文件排序中更多的流合并为一次
mapreduce.reduce.shuffle.parallelcopies 50 通过reduces从很多的map中读取较多的平行 副本
  • 配置mapreduce的JobHistory服务器
参数 属性值 解释
maprecude.jobhistory.address MapReduce JobHistory Server host:port 默认端口号 10020
mapreduce.jobhistory.webapp.address MapReduce JobHistory Server Web UIhost:port 默认端口号 19888
mapreduce.jobhistory.intermediate-done-dir /mr­history/tmp 在历史文件被写入由MapReduce作业
mapreduce.jobhistory.done-dir /mr­history/done 目录中的历史文件是由MR JobHistory Server管理
<configuration>
    <property>
        <name> mapreduce.jobhistory.address</name>
        <value>192.168.1.100:10200</value>
        <description>IP地址192.168.1.100可替换为主机名</description>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>192.168.1.100:19888</value>
        <description>IP地址192.168.1.100可替换为主机名</description>
    </property>
    <property>
        <name>mapreduce.jobhistory.intermediate-done-dir</name>
        <value>/usr/local/hadoop/mr­history/tmp</value>
        <description>在历史文件被写入由MapReduce作业</description>
    </property>
    <property>
        <name>mapreduce.jobhistory.done-dir</name>
        <value>/usr/local/hadoop/mr­history/done</value>
        <description>目录中的历史文件是由MR JobHistoryServer管理</description>
    </property>
</configuration>

 

Web Interface

Daemon Web Interface Notes
NameNode http://nn_host:port/ 默认端口号50070
ResourceManager http://rm_host:port/ 默认端口号8088
MapReduce JobHistory Server http://jhs_host:port/ 默认端口号19888
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    Hadoop 2.0部署配置文件示例.zip

    二、关键配置文件详解 1. **core-site.xml**:这是Hadoop的核心配置文件,主要用于设置HDFS和YARN的基本参数,如HDFS的默认FS地址、I/O缓冲区大小等。 2. **hdfs-site.xml**:该文件用于配置HDFS的具体参数,如...

    Hadoop2.0部署文档

    【Hadoop 2.0 部署详解】 在大数据处理领域,Apache Hadoop 是一个不可或缺的开源框架,尤其在大规模数据存储和处理方面表现出强大的能力。Hadoop 2.0 引入了高可用性(HA)特性,极大地提高了系统的稳定性。本文将...

    Hadoop 2.0 详细配置教程 (2).docx

    【Hadoop 2.0 知识点详解】 Hadoop 2.0 是 Apache 开源项目的一个重要版本,它的设计目标是打造一个可扩展、可靠的分布式系统,支持大数据处理。Hadoop 包含多个子项目,如 Hadoop Common、HDFS(Hadoop ...

    云计算第三版精品课程配套PPT课件含习题(33页)第5章 Hadoop 2.0 主流开源云架构(五).pptx

    本课程内容包括大数据与云计算的基础理论、Google云计算原理、Amazon AWS详解、微软Windows Azure的介绍,以及Hadoop 2.0的深入探讨。此外,还涉及虚拟化技术如OpenStack,云计算数据中心的运作,以及中国云计算技术...

    hadoop2.0伪分布式搭建

    ### Hadoop 2.0 伪分布式环境搭建详解 #### 一、环境准备与配置 在搭建 Hadoop 2.0 的伪分布式环境之前,首先需要进行一系列的基础环境准备及配置工作。 ##### 1. Linux 环境配置 为了确保 Hadoop 能够顺利运行...

    Hadoop 2 配置.docx

    Hadoop 2.0 中的配置文件至关重要,下面列出了几个重要的配置文件: **1. dfs.hosts 和 mapred.hosts** - **dfs.hosts**:记录将作为 datanode 加入集群的机器列表。 - **mapred.hosts**:记录将作为 ...

    Hadoop应用开发技术详解

    《Hadoop应用开发技术详解》这本书是一部针对Hadoop技术的深入解析作品,从案例分析、实战演练到技术细节的全面阐述,旨在帮助读者掌握Hadoop的实际应用开发技巧。Hadoop是一个由Apache基金会开发的分布式存储和计算...

    Hadoop资源管理器YARN详解

    1. **应用程序提交**:用户向YARN提交应用程序,包括应用程序的JAR文件、配置文件等。 2. **资源申请**:ApplicationMaster向ResourceManager申请资源,ResourceManager根据集群的资源情况和应用程序的需求,分配...

    hadoop2.X新特性介绍

    综上所述,Hadoop2.0在HDFS、MapReduce和YARN等方面都进行了重大的改进和优化,不仅解决了Hadoop1.0中的许多局限性,还极大地提升了系统的可扩展性、可靠性和资源利用率,为大数据处理领域带来了新的突破。

    HDFS详解和配置文件

    #### 五、HDFS配置文件详解 HDFS的主要配置文件包括: 1. **core-site.xml**:包含了HDFS的基本配置,比如NameNode的地址。 2. **hdfs-site.xml**:包含更详细的HDFS配置参数,如Block大小、副本数量等。 **示例...

    hadoop2.6.4-ha集群搭建

    - 配置`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`等核心配置文件。 - 设置NameNode和ResourceManager的HA配置,包括JournalNodes的地址以及Zookeeper集群的信息。 3. **启动Hadoop集群**: - 格式化...

    hadoop培训资料

    - Hadoop集群管理包括集群的安装、配置、监控、维护等方面。 - 有效的集群管理对于确保Hadoop系统的稳定性和性能至关重要。 - 常用的Hadoop集群管理工具包括Apache Ambari等,它们可以帮助管理员更加便捷地进行...

    hadoop经典实战教程

    - **YARN (Yet Another Resource Negotiator)**:Hadoop 2.0引入的新资源管理框架,使得Hadoop可以支持多种计算框架而不仅仅是MapReduce。 - **Hadoop性能优化**: - **压缩技术**:通过对数据进行压缩,减少网络...

    Pro Apache Hadoop 2nd Edition 2014

    3. **HDFS详解** - 对Hadoop分布式文件系统(HDFS)进行了深入剖析,包括其存储机制、数据块管理、副本策略等内容。 4. **性能优化** - 提供了一系列关于如何优化Hadoop性能的实用建议,包括硬件选择、软件配置调整...

    Hadoop2.x HA环境搭建

    - 修改Hadoop的配置文件,主要包括`hdfs-site.xml`和`core-site.xml`,以适应HA环境的需求。 - 将修改后的配置文件分发至各个节点(node002、node003、node004)。 7. **启动JournalNode:** - 分别在node001、...

    hadoop-2.7.7.zip

    这里的“hadoop-2.7.7.zip”是一个包含了Hadoop 2.7.7版本的所有源代码、编译后的库文件、配置文件以及文档的压缩包。这个版本的Hadoop在大数据处理领域被广泛应用,因为它提供了高效、可扩展的数据存储和处理能力。...

    Hadoop1.XX安装部署

    ### Hadoop 1.XX 安装部署及组件架构详解 #### 一、Hadoop介绍 ##### 1.1 Hadoop简介 Apache Hadoop 是一个开源的软件框架,旨在通过简单编程模型对大规模数据集进行分布式处理。它具有高度可扩展性,能够从单一...

    【jmeter】logkit-2.0.jar下载

    在实际应用中,JMeter的用户可以通过自定义配置文件来控制Logkit的行为。这包括设置日志输出目录、过滤特定级别的日志、指定日期格式等。例如,你可能希望在测试过程中只记录错误和警告,或者在测试结束后生成一份...

    hadoop2.2.0集群搭建

    #### 四、Hadoop 配置详解 1. **安装 ZooKeeper 集群** - **解压安装包** ```shell tar -zxvf zookeeper-3.4.5.tar.gz -C /itcast/ ``` - **配置 zoo.cfg 文件** - 将 `zoo_sample.cfg` 复制为 `zoo.cfg`。...

Global site tag (gtag.js) - Google Analytics