- 浏览: 109510 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
zenoh:
是啊,我也纳闷,apache hadoop2.2.0的已经修复 ...
安装CDH5 hadoop2.2.0遇到的配置问题 -
Molisa:
你好,我有两个问题请教一下:1.为了密码安全,你有没有试过使用 ...
使用oozie调度sqoop从oracle导入hbase
hadoop.tmp.dir
默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
fs.trash.interval
默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间。一般开启这个会比较好,以防错误删除重要文件。单位是分钟。
fs.inmemory.size.mb
默认值:
说明: reduce阶段用户合并map输出的内存限制。这里设置200,可根据自身硬件设备进行更改测试。
io.sort.factor
默认值:10
说明:排序文件的时候一次同时最多可并流的个数,这里设置100。新版本为mapreduce.task.io.sort.factor。
io.sort.mb
默认值:100
说明: 排序内存使用限制,这里设置200m。新版本看说明貌似改成了这个mapreduce.task.io.sort.mb。
io.file.buffer.size
默认值:4096
说明:SequenceFiles在读写中可以使用的缓存大小,这里设置为131072。貌似这个参数在新版本里变为了:file.stream-buffer-size,单位bytes 。
dfs.blocksize
默认值:67108864
说明: 这个就是hdfs里一个文件块的大小了,默认64M,这里设置134217728,即128M,太大的话会有较少map同时计算,太小的话也浪费可用map个数资源,而且文件太小namenode就浪费内存多。根据需要进行设置。
dfs.namenode.handler.count
默认值:10
说明:hadoop系统里启动的任务线程数,这里改为40,同样可以尝试该值大小对效率的影响变化进行最合适的值的设定。
mapred.child.java.opts
默认值:-Xmx200m
说明:jvms启动的子线程可以使用的最大内存。改为-Xmx1024m,内存再大也可以继续增加。但是如果一般任务文件小,逻辑不复杂用不了那么多的话太大也浪费。
mapreduce.jobtracker.handler.count
默认值:10
说明:JobTracker可以启动的线程数,一般为tasktracker节点的4%。
mapreduce.reduce.shuffle.parallelcopies
默认值:5
说明:reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。
mapreduce.tasktracker.http.threads
默认值:40
说明:map和reduce是通过http进行数据传输的,这个是设置传输的并行线程数。
mapreduce.map.output.compress
默认值:false
说明: map输出是否进行压缩,如果压缩就会多耗cpu,但是减少传输时间,如果不压缩,就需要较多的传输带宽。配合mapreduce.map.output.compress.codec使用,默认是org.apache.hadoop.io.compress.DefaultCodec,可以根据需要设定数据压缩方式。
mapreduce.reduce.shuffle.merge.percent
默认值: 0.66
说明:reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percen属性。
mapreduce.reduce.shuffle.memory.limit.percent
默认值: 0.25
说明:一个单一的shuffle的最大内存使用限制。
转自:http://blog.pureisle.net/archives/1956.html
发表评论
-
-snn.saturn.local:8485 failed on connection exception: java.net.ConnectException
2014-05-07 15:12 02014-01-26 00:46:35,631 INFO ... -
Hadoop 归档 和HIVE 如何使用har 归档 文件
2014-05-01 23:47 1058Hadoop archive 唯一的优势可能就是将众多的小 ... -
Hadoop的JVM重用
2014-05-01 20:21 1099Hadoop中有个参数是mapred.job.reuse. ... -
Hadoop 优化总结(一)
2014-04-27 12:09 16011. 使用自定义Writable 自带的Text很好用,但 ... -
hadoop调优
2014-04-26 12:01 0硬件级别提高磁盘IO的 ... -
启动hadoop 报错:A fatal error has been detected by the Java Runtime
2014-04-25 10:10 0今天在重启hadoop集群的时候,一个节点报了下面的一个错,由 ... -
java.io.IOException: Cannot obtain block length for LocatedBlock{BP-
2014-04-25 10:07 0今天的job在执行的时候,出现了下述的异常: java. ... -
hadoop报的一个job提交的错
2014-04-24 10:56 0Diagnostics: Application a ... -
hadoop hdfs HA 启动不了ZKFC
2014-04-23 11:47 0测试环境master1 系统重做了,原来的所有数据都丢失,后来 ... -
Hadoop平台优化综述(一)
2014-04-19 18:48 01. 概述 随着企业 ... -
大数据处理分析的六大最好工具
2014-04-19 11:59 0Hadoop Hadoop 是一个能够对大量数据进行分布式处 ... -
Shuffle$ShuffleError
2014-04-06 10:10 0Error: org.apache.hadoop.mapr ... -
hadoop2.2.0 CDH 源码编译
2014-03-27 13:29 01 下载 源码 wget chd5 2 安装软件 yum ... -
Map/Reduce Task JVM 堆大小设置优化
2014-03-13 15:15 1893前一阵子发现用户提交的hive query和hadoop jo ... -
Hadoop为什么处理小数据量时效果不好?
2014-03-11 16:50 1173Every file, directory and bloc ... -
Hadoop : MapReduce中的Shuffle和Sort分析
2014-03-03 14:06 892MapReduce 是现今一个非常流行的分布式计算框架,它被 ... -
关于Hadoop的shuffle
2014-03-03 11:16 892我们知道每个reduce task输入的key都是按照k ... -
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError:
2014-03-01 23:17 4283hadoop执行JOB在reduce阶段 ... -
hadoop Caused by: java.io.IOException: Filesystem closed
2014-02-25 13:46 6543今天在执行hive的时候报了下面的错: 2014-02 ... -
Error in storing RMDelegationToken with sequence number:
2014-02-20 11:05 1164今天用oozie调度hadoop任务时,发现在每次在执行时,R ...
相关推荐
在Hadoop生态系统中,参数配置优化对于提升系统性能和稳定性至关重要。以下是一些关键的Hadoop配置参数及其详细解释: 1. **hadoop.tmp.dir**: 默认值为`/tmp`,应手动配置为一个专门的目录,尤其是当服务器有多...
【大数据运维技术第4章 Hadoop文件参数配置】 在大数据领域,Hadoop是一个核心的开源框架,主要用于处理和存储大规模数据。本章主要探讨的是Hadoop的文件参数配置,这对于确保Hadoop集群的稳定运行至关重要。以下是...
配置优化是提升Hadoop性能的关键。例如,合理设置`io.sort.mb`和`io.sort.record.percent`可以提高Map阶段的性能;`mapreduce.reduce.shuffle.parallelcopies`则关乎Reduce阶段的数据拉取效率。 8. **配置的最佳...
hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化hadoop高可用集群搭建及参数优化
首先,Hadoop的配置文件是整个系统运行的基础,它们定义了Hadoop集群的运行参数、节点间的通信方式以及数据存储策略等关键设置。主要的配置文件包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-...
在Hadoop的运行中,配置文件扮演着至关重要的角色,它们定义了系统的行为和性能参数。接下来,我们将详细探讨这四个默认配置文件——hdfs-default.xml、yarn-default.xml、core-default.xml和mapred-default.xml,...
在Hadoop集群中,配置文件扮演着至关重要的角色,它们定义了集群的行为、性能优化参数以及故障转移策略等。本文将深入探讨“Hadoop集群配置文件备份”的重要性、步骤和最佳实践。 **1. Hadoop配置文件概述** Hadoop...
理解并正确配置这些参数是搭建和管理Hadoop集群的基础,也是优化性能和解决故障的关键。通过不断实践和调整,你可以更深入地掌握Hadoop的工作原理和最佳实践。在实际生产环境中,还需要考虑高可用性、安全性以及与...
对这些参数的深入理解并根据实际情况进行调整,是优化Hadoop性能的关键。在实际使用中,通常需要根据集群规模、硬件配置和业务需求,通过`site.xml`文件覆盖这些默认配置,以实现最佳性能。同时,注意定期监控和调整...
这些配置文件是Hadoop运行的基础,理解并适当调整它们可以优化Hadoop集群的性能。 首先,我们来看`core-default.xml`。这个文件包含了Hadoop核心组件的基本设置,如I/O选项、网络参数和通用配置。例如,`fs.default...
Hadoop 优化需要从多方面入手,包括 Hardware 配置优化、Linux 层面优化、Namenode JVM 参数优化、Mr/Hive 优化和 Core-site.xml 配置优化。通过这些优化技术的使用,可以提高 Hadoop 集群的性能,提高数据处理的...
在Hadoop生态系统中,配置参数是管理和优化集群性能的关键元素。Hadoop 3.1.4版本提供了四个主要组件的默认配置文件:core-default.xml、hdfs-default.xml、mapred-default.xml和yarn-default.xml。这些文件定义了...
在Hadoop生态系统中,配置文件是管理和优化集群性能的关键元素。本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们...
此外,还会涉及Hadoop集群的扩展性、容错性和性能优化,例如通过调整参数来改善数据块复制策略,或优化NameNode和DataNode的内存设置,以提升整体集群的运行效率。 MapReduce是Hadoop的核心计算框架,手册将深入...
7. "hadoop配置.txt" - 可能是作者整理的一份Hadoop配置详解,包含了各种配置参数的含义和设置建议。 综上,这个压缩包提供的资料可以帮助读者深入了解Hadoop的配置、管理和维护,尤其是对于初次接触Hadoop或需要...
##### 4.1 配置优化 - **内存优化**:根据实际硬件资源调整Hadoop配置文件中的内存参数。 - **Master优化**:减少Master节点的负担,如增加TaskTracker的数量。 - **文件存储设置**:优化数据块的存储位置和复制...
### 伪分布式Hadoop的配置信息 在深入探讨伪分布式Hadoop配置之前,我们先来了解下何为伪分布式模式。...通过上述步骤,我们可以构建一个基本的伪分布式Hadoop环境,并在此基础上进一步扩展和优化配置。