`
tangjunliang
  • 浏览: 109078 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop参数配置优化

阅读更多

hadoop.tmp.dir
默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。

fs.trash.interval
默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。

fs.inmemory.size.mb
默认值:
说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身硬件设备进行更改测试。

io.sort.factor
默认值:10
说明:排序文件的时候一次同时最多可并流的个数,这里设置100。新版本为mapreduce.task.io.sort.factor。

io.sort.mb
默认值:100
说明: 排序内存使用限制,这里设置200m。新版本看说明貌似改成了这个mapreduce.task.io.sort.mb。

io.file.buffer.size
默认值:4096
说明:SequenceFiles在读写中可以使用的缓存大小,这里设置为131072。貌似这个参数在新版本里变为了:file.stream-buffer-size,单位bytes 。

dfs.blocksize
默认值:67108864
说明: 这个就是hdfs里一个文件块的大小了,默认64M,这里设置134217728,即128M,太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。根据需要进行设置。

dfs.namenode.handler.count
默认值:10
说明:hadoop系统里启动的任务线程数,这里改为40,同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。

mapred.child.java.opts
默认值:-Xmx200m
说明:jvms启动的子线程可以使用的最大内存。改为-Xmx1024m,内存再大也可以继续增加。但是如果一般任务文件小,逻辑不复杂用不了那么多的话太大也浪费。

mapreduce.jobtracker.handler.count
默认值:10
说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。

mapreduce.reduce.shuffle.parallelcopies
默认值:5
说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。

mapreduce.tasktracker.http.threads
默认值:40
说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。

mapreduce.map.output.compress
默认值:false
说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽。配合mapreduce.map.output.compress.codec使用,默认是org.apache.hadoop.io.compress.DefaultCodec,可以根据需要设定数据压缩方式。

mapreduce.reduce.shuffle.merge.percent
默认值: 0.66
说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。

mapreduce.reduce.shuffle.memory.limit.percent
默认值: 0.25
说明:一个单一的shuffle的最大内存使用限制。


转自:http://blog.pureisle.net/archives/1956.html
分享到:
评论

相关推荐

    Hadoop 参数配置优化.docx

    在Hadoop生态系统中,参数配置优化对于提升系统性能和稳定性至关重要。以下是一些关键的Hadoop配置参数及其详细解释: 1. **hadoop.tmp.dir**: 默认值为`/tmp`,应手动配置为一个专门的目录,尤其是当服务器有多...

    大数据运维技术第4章 Hadoop文件参数配置课件.pptx

    【大数据运维技术第4章 Hadoop文件参数配置】 在大数据领域,Hadoop是一个核心的开源框架,主要用于处理和存储大规模数据。本章主要探讨的是Hadoop的文件参数配置,这对于确保Hadoop集群的稳定运行至关重要。以下是...

    hadoop高可用集群搭建及参数优化

    hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化

    Hadoop3.1.3 配置文件

    首先,Hadoop的配置文件是整个系统运行的基础,它们定义了Hadoop集群的运行参数、节点间的通信方式以及数据存储策略等关键设置。主要的配置文件包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-...

    hadoop的默认配置文件

    在Hadoop的运行中,配置文件扮演着至关重要的角色,它们定义了系统的行为和性能参数。接下来,我们将详细探讨这四个默认配置文件——hdfs-default.xml、yarn-default.xml、core-default.xml和mapred-default.xml,...

    hadoop config 配置文件

    配置优化是提升Hadoop性能的关键。例如,合理设置`io.sort.mb`和`io.sort.record.percent`可以提高Map阶段的性能;`mapreduce.reduce.shuffle.parallelcopies`则关乎Reduce阶段的数据拉取效率。 8. **配置的最佳...

    Hadoop集群配置文件备份

    在Hadoop集群中,配置文件扮演着至关重要的角色,它们定义了集群的行为、性能优化参数以及故障转移策略等。本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop...

    hadoop配置参数

    理解并正确配置这些参数是搭建和管理Hadoop集群的基础,也是优化性能和解决故障的关键。通过不断实践和调整,你可以更深入地掌握Hadoop的工作原理和最佳实践。在实际生产环境中,还需要考虑高可用性、安全性以及与...

    Hadoop默认配置文件

    对这些参数的深入理解并根据实际情况进行调整,是优化Hadoop性能的关键。在实际使用中,通常需要根据集群规模、硬件配置和业务需求,通过`site.xml`文件覆盖这些默认配置,以实现最佳性能。同时,注意定期监控和调整...

    hadoop 默认配置大全

    这些配置文件是Hadoop运行的基础,理解并适当调整它们可以优化Hadoop集群的性能。 首先,我们来看`core-default.xml`。这个文件包含了Hadoop核心组件的基本设置,如I/O选项、网络参数和通用配置。例如,`fs.default...

    hadoop的优化.docx

    Hadoop 优化需要从多方面入手,包括 Hardware 配置优化、Linux 层面优化、Namenode JVM 参数优化、Mr/Hive 优化和 Core-site.xml 配置优化。通过这些优化技术的使用,可以提高 Hadoop 集群的性能,提高数据处理的...

    hadoop3.1.4参数默认配置项

    在Hadoop生态系统中,配置参数是管理和优化集群性能的关键元素。Hadoop 3.1.4版本提供了四个主要组件的默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml和yarn-default.xml。这些文件定义了...

    hadoop配置文件默认配置

    在Hadoop生态系统中,配置文件是管理和优化集群性能的关键元素。本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们...

    Hadoop集群配置及MapReduce开发手册

    此外,还会涉及Hadoop集群的扩展性、容错性和性能优化,例如通过调整参数来改善数据块复制策略,或优化NameNode和DataNode的内存设置,以提升整体集群的运行效率。 MapReduce是Hadoop的核心计算框架,手册将深入...

    hadoop配置

    7. "hadoop配置.txt" - 可能是作者整理的一份Hadoop配置详解,包含了各种配置参数的含义和设置建议。 综上,这个压缩包提供的资料可以帮助读者深入了解Hadoop的配置、管理和维护,尤其是对于初次接触Hadoop或需要...

    hadoop集群配置及mapreduce开发手册

    ##### 4.1 配置优化 - **内存优化**:根据实际硬件资源调整Hadoop配置文件中的内存参数。 - **Master优化**:减少Master节点的负担,如增加TaskTracker的数量。 - **文件存储设置**:优化数据块的存储位置和复制...

    伪分布式hadoop的配置信息

    ### 伪分布式Hadoop的配置信息 在深入探讨伪分布式Hadoop配置之前,我们先来了解下何为伪分布式模式。...通过上述步骤,我们可以构建一个基本的伪分布式Hadoop环境,并在此基础上进一步扩展和优化配置。

Global site tag (gtag.js) - Google Analytics