`
zhangxiong0301
  • 浏览: 357220 次
社区版块
存档分类
最新评论

HADOOP2 mapreduce配置(转)

阅读更多

MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。

以下这些参数全部在mapred-site.xml中设置。

1.    MapReduce JobHistory相关配置参数

在JobHistory所在节点的mapred-site.xml中配置。

(1) mapreduce.jobhistory.address

参数解释:MapReduce JobHistory Server地址。

默认值: 0.0.0.0:10020

(2) mapreduce.jobhistory.webapp.address

参数解释:MapReduce JobHistory Server Web UI地址。

默认值: 0.0.0.0:19888

(3) mapreduce.jobhistory.intermediate-done-dir

参数解释:MapReduce作业产生的日志存放位置。

默认值: /mr-history/tmp

(4) mapreduce.jobhistory.done-dir

参数解释:MR JobHistory Server管理的日志的存放位置。

默认值: /mr-history/done

2.    MapReduce作业配置参数

可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。

参数名称 缺省值 说明
mapreduce.job.name   作业名称
mapreduce.job.priority NORMAL 作业优先级
yarn.app.mapreduce.am.resource.mb 1536 MR ApplicationMaster占用的内存量
yarn.app.mapreduce.am.resource.cpu-vcores 1 MR ApplicationMaster占用的虚拟CPU个数
mapreduce.am.max-attempts 2 MR ApplicationMaster最大失败尝试次数
mapreduce.map.memory.mb 1024 每个Map Task需要的内存量
mapreduce.map.cpu.vcores 1 每个Map Task需要的虚拟CPU个数
mapreduce.map.maxattempts 4 Map Task最大失败尝试次数
mapreduce.reduce.memory.mb 1024 每个Reduce Task需要的内存量
mapreduce.reduce.cpu.vcores 1 每个Reduce Task需要的虚拟CPU个数
mapreduce.reduce.maxattempts 4 Reduce Task最大失败尝试次数
mapreduce.map.speculative false 是否对Map Task启用推测执行机制
mapreduce.reduce.speculative false 是否对Reduce Task启用推测执行机制
mapreduce.job.queuename default 作业提交到的队列
mapreduce.task.io.sort.mb 100 任务内部排序缓冲区大小
mapreduce.map.sort.spill.percent 0.8 Map阶段溢写文件的阈值(排序缓冲区大小的百分比)
mapreduce.reduce.shuffle.parallelcopies 5 Reduce Task启动的并发拷贝数据的线程数目

注意,MRv2重新命名了MRv1中的所有配置参数,但兼容MRv1中的旧参数,只不过会打印一条警告日志提示用户参数过期。MapReduce新旧参数对照表可参考Java类org.apache.hadoop.mapreduce.util.ConfigUtil,举例如下:

过期参数名 新参数名
mapred.job.name mapreduce.job.name
mapred.job.priority mapreduce.job.priority
mapred.job.queue.name mapreduce.job.queuename
mapred.map.tasks.speculative.execution mapreduce.map.speculative
mapred.reduce.tasks.speculative.execution mapreduce.reduce.speculative
io.sort.factor mapreduce.task.io.sort.factor
io.sort.mb mapreduce.task.io.sort.mb
分享到:
评论

相关推荐

    Hadoop mapreduce实现wordcount

    【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一,它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例,它统计文本文件中每个单词出现的...

    大数据-hadoop-mapreduce代码

    为了运行这些MapReduce程序,开发者需要设置Hadoop环境,包括安装Hadoop,配置集群参数,以及正确设置Hadoop的环境变量。此外,代码中可能还会涉及到Hadoop的相关API,如`InputFormat`、`OutputFormat`和`...

    java操作hadoop之mapreduce计算整数的最大值和最小值实战源码

    1. **设置环境**:确保已经安装了Hadoop,并配置了相应的环境变量。同时,需要在项目中引入Hadoop的相关jar包,包括hadoop-core.jar和其他依赖库,这些jar包在提供的压缩包中应该已经包含。 2. **编写Mapper类**:...

    hadoop eclipse mapreduce 下开发所有需要用到的 JAR 包

    2. **hadoop-client.jar**:这个JAR包包含了Hadoop客户端所需的全部依赖,包括HDFS、MapReduce和YARN的客户端API。 3. **hadoop-hdfs.jar**:Hadoop分布式文件系统(HDFS)的相关类库,用于与HDFS交互。 4. **...

    Hadoop.MapReduce.v2.Cookbook pdf

    这本书籍详细介绍了如何在Hadoop 2.x环境中有效地设计、开发和优化MapReduce作业。 Hadoop是Apache软件基金会开发的一个开源框架,专门用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File ...

    03-Hadoop-MapReduce.docx

    MapReduce工作流程包括JobTracker(在Hadoop 2.x中被ResourceManager替代)、TaskTracker(被NodeManager替代)以及MapTask和ReduceTask。JobTracker负责任务调度,TaskTracker执行实际的任务。 **1.5 WordCount...

    Hadoop_MapReduce教程.doc

    【Hadoop MapReduce教程】 Hadoop MapReduce是一种分布式计算框架,设计用于处理和存储大量数据。这个框架使得开发者能够编写应用程序来处理PB级别的数据,即使是在由数千台廉价硬件组成的集群上。MapReduce的核心...

    Hadoop之MapReduce编程实例完整源码

    一个自己写的Hadoop MapReduce实例源码,网上看到不少网友在学习MapReduce编程,但是除了wordcount范例外实例比较少,故上传自己的一个。包含完整实例源码,编译配置文件,测试数据,可执行jar文件,执行脚本及操作...

    Hadoop集群配置及MapReduce开发手册

    《Hadoop集群配置及MapReduce开发手册》是针对大数据处理领域的重要参考资料,主要涵盖了Hadoop分布式计算框架的安装、配置以及MapReduce编程模型的详细解析。Hadoop作为Apache基金会的一个开源项目,因其分布式存储...

    Hadoop MapReduce实现tfidf源码

    此外,还需要配置Job参数,如输入路径、输出路径、Mapper和Reducer类等,并提交Job到Hadoop集群执行。 压缩包中的"tfidf"文件可能是包含源代码、测试数据或者运行结果的文件。源代码可能包含了Mapper和Reducer的...

    005_hadoop中MapReduce详解_2

    在Hadoop生态系统中,...理解和掌握MapReduce的工作原理、编程模型以及相关配置,是成为Hadoop开发者的必备技能。通过阅读和分析像`TestMR.java`这样的源代码,我们可以深入学习并熟练运用MapReduce解决实际问题。

    windows下配置hadoop和mapreduce.pdf

    ### Windows 下配置 Hadoop 和 MapReduce 的详细指南 #### 一、Cygwin 的安装与配置 为了在 Windows 操作系统上配置 Hadoop 和 MapReduce,通常的做法是通过 Cygwin 来模拟 Linux 环境。Cygwin 是一个在 Windows ...

    hadoop安装与配置及mapreduce测试网站

    "hadoop安装与配置及mapreduce测试网站" Hadoop 是一个易于安装易于使用的系统,他既适用于云计算的新人学习,也适用于对云计算已经有一定研究的人深入学习(包括网格计算,并行计算等等)。Hadoop 源于 Nutch,...

    大数据 hadoop mapreduce 词频统计

    4. **运行Job**:配置好MapReduce作业后,提交到Hadoop集群进行执行。集群会自动调度任务,将工作分配给各个节点。 5. **结果收集**:MapReduce完成后,最终的词频统计结果会被写入HDFS,可以进一步进行可视化或...

    Hadoop MapReduce Cookbook 源码

    1. **Hadoop环境搭建**:讲解如何安装配置Hadoop分布式文件系统(HDFS)和MapReduce框架,包括集群部署和单机模拟。 2. **MapReduce编程模型**:介绍Map和Reduce函数的编写,以及Combiner和Partitioner的使用,它们...

    hadoop eclipse mapreduce下开发所有需要用到的JAR包

    2. **hadoop-common**: 包含了Hadoop共用的类和功能,如配置管理、网络通信、文件系统操作等。 3. **hadoop-hdfs**: 提供了对HDFS的操作接口,包括读写文件、创建目录、检查文件属性等。 4. **hadoop-mapreduce-...

    Java操作Hadoop Mapreduce基本实践源码

    总之,Java操作Hadoop MapReduce的基本实践涉及了Map和Reduce阶段的自定义逻辑、数据的分区和排序、以及Job的配置和提交。通过深入学习和实践,开发者可以利用Hadoop MapReduce解决大数据处理中的各种问题。

    Hadoop MapReduce v2 Cookbook, 2nd Edition-Packt Publishing(2015) 高清完整版PDF下载

    - **集群配置与优化**:根据业务需求合理配置Hadoop集群参数,以达到最佳性能。 - **故障恢复机制**:设计有效的故障恢复策略,确保在出现硬件故障时能够快速恢复服务。 - **安全性增强**:通过加密通信、访问控制等...

Global site tag (gtag.js) - Google Analytics