`

Hadoop实战-中高级部分 之 Hadoop HA

 
阅读更多

 

 


Hadoop实战-中高级部分 之 Hadoop作业调优参数调整及原理

第一部分:core-site.xml
•core-site.xml为Hadoop的核心属性文件,参数为Hadoop的核心功能,独立于HDFS与MapReduce。
参数列表
•fs.default.name
•默认值 file:///
•说明:设置Hadoop  namenode的hostname及port,预设是Standalone mode,如果是伪分布式文件系统要设置成
     hdfs://localhost:9000,如果使用集群模式则配置为 hdfs://hostname:9000
•hadoop.tmp.dir
•默认值/tmp/hadoop-${user.name}
•会在tmp下根据username生成不同的目录
 
•fs.checkpoint.dir
•默认值${hadoop.tmp.dir}/dfs/namesecondary
•Sencondary NameNode 镜像存储目录
•fs.checkpoint.period
•默认值: 3600(秒)
• 控 制 secondary namenode 的 checkpoint 时间间隔。如果距离上次 checkpoint 的时间大于这个参数的设定,就会触发 checkpoint。secondary namenode 會把 namenode 的 fsimage 和 editlog 做 snapshot。如果存取 Hadoop 的次数频繁或为了減少重起 namenode 的 downtime,可以把這个值设小一点。
 
•fs.checkpoint.size
•默认值67108864(byte)
• 如果 Hadoop 非常的忙碌,editlog 可能会在短时间內变的很大,fs.checkpoint.period 的设定不见得可以完全预测这个状况,所以保险的做法会多设定这个值,以保证当数据大到超过 fs.checkpoint.size 的值也会触发 checkpoint。
•io.file.buffer.size
•默认值 4096
•這是读写 sequence file 的 buffer size, 可减少 I/O 次数。在大型的 Hadoop cluster,建议可设定为 65536 到 131072。
 
•ipc.client.connection.maxidletime
•默认值 10000(毫秒)
•设定 Hadoop client 连接時最大的闲置,默认是是 10 秒。如果 Hadoop cluster 的网络联系不稳,可以把这个值设到 60000(60秒)
•ipc.server.tcpnodelay
•默认值 false
•在 Hadoop server 是否启动 Nagle’s 算法。设 true 会 disable 这个演算法,关掉会减少延迟,但是会增加小数据包的传输。server site 不太需要这定这个值。
 
•hadoop.security.authorization
•默认值 false
• 是不是要开启 账号验证机制,开启之后 Hadoop 在执行任何动作之前都会先确认是否有权限。详細的权限设定会放在 hadoop-policy.xml 裡。例如要让 fenriswolf 这个 account 及 mapreduce group 可以 submit M/R jobs,要设定security.job.submission.protocol.acl
•hadoop.security.authentication
•默认值 simple
• simple 表示沒有 authentication,Hadoop 會用 system account 及 group 來控管q权限。另外可以指定為   kerberos  , 这部分相对比較复杂,要有一個 kerberos server 并产生 account keytab,在执行任何操作前 client 要先用 kinit 指令對 kerberos server 認證,之後的任何操作都是以 kerberos account 來執行。
 
•fs.trash.interval
•默认值 0(分)
•清掉垃圾筒的时间。预设是不清, 所以在刪除文件时要自己执行
•hadoop.native.lib
•默认值 true
• 默认 Hadoop 会去找所有可用的 native libraries 并自动 load 进來使用,例如压缩类的 libraries 像 GZIP, LZO 等等。
 
 
第二部分:hdfs-site.xml
参数列表
•dfs.block.size
•默认值67108864(字节)
•默认每個 block 是 64MB。如果確定存取的文件块都很大可以改為 134217728(128MB)。Client 也可自行决定要使用的 block size 而不需要更改整個 cluster 的设定。
•dfs.safemode.threshold.pct
•默认值  0.999f
•  Hadoop 启动时会进入 safe mode,也就是安全模式,這时是不能写入数据的。只有当99.9% 的 blocks 达到最小的 dfs.replication.min 数量(默认是3)才会离开safe mode。在 dfs.replication.min 设的比较大或 data nodes 数量比较多时会等比较久。
 
•dfs.namenode.handler.count
•默认值 10
• 设定 namenode server threads 的数量,这些 threads 會用 RPC 跟其他的 datanodes 沟通。当 datanodes 数量太多时会发現很容易出現 RPC timeout,解決方法是提升网络速度或提高这个值,但要注意的是 thread 数量多也表示 namenode 消耗的内存也随着增加
•dfs.datanode.handler.count
•默认值  3
•  指定 data node 上用的 thread 数量。
 
•dfs.datanode.max.xcievers
•默认值 256
•这个值是指定 datanode 可同時处理的最大文件数量、
•dfs.datanode.du.reserved
•默认值 0
•默认值表示 data nodes 会使用整个 磁盘,写满之后会导致无法再写入 M/R jobs。如果还有其他程式共用这些目录也会受到影响。建议保留至少 1073741824(1G) 的空间。
 
 
第三部分:mapred-site.xml
参数列表
 
•io.sort.mb
•默认值100
•缓存map中间结果的buffer大小(in MB)
•io.sort.record.percent
•默认值 0.05
•io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据
•io.sort.spill.percent
•默认值0.80
•map开始做spill操作的阈值
•io.sort.factor
•默认值 10
•做merge操作时同时操作的stream数上限。
 
•min.num.spill.for.combine
•默认值3
•combiner函数运行的最小spill数
•mapred.compress.map.output
•默认值 false
•map中间结果是否采用压缩
•mapred.map.output.compression.codec
•org.apache.hadoop.io.compress.DefaultCodec
•min.num.spill.for.combine
•默认值3
•combiner函数运行的最小spill数
•mapred.compress.map.output
•默认值 false
•map中间结果是否采用压缩
•mapred.map.output.compression.codec
•org.apache.hadoop.io.compress.DefaultCodec
•mapred.reduce.parallel.copies
•默认值5
•每个reduce并行下载map结果的最大线程数
•mapred.reduce.copy.backoff
•默认值 300
•reduce下载线程最大等待时间(in sec)
•io.sort.factor
•默认值10
•org.apache.hadoop.io.compress.DefaultCodec
•mapred.job.shuffle.input.buffer.percent
•默认值0.7
•用来缓存shuffle数据的reduce task heap百分比
•mapred.job.shuffle.merge.percent
•默认值 0.66
•缓存的内存中多少百分比后开始做merge操作
•mapred.job.reduce.input.buffer.percent
•默认值0.0
•sort完成后reduce计算阶段用来缓存数据的百分比
 转载请注明出处【   http://sishuok.com/forum/blogPost/list/0/5938.html  】

 

10
0
分享到:
评论
1 楼 usezhou 2012-09-26  
fs.trash.interval
这个参数 默认是0 并非是不清理
而是不开启 回收站,直接删除,那自然也不清理了
而如果设定具体的时间了,那删除的文件会自动进入 回收站,待到一定的时间便会自动删除
希望我理解的没错

相关推荐

    hadoop实战-part1.pdf

    Hadoop实战文档的这一部分主要聚焦于大数据技术体系的核心组成部分,特别强调了Hadoop技术的重要地位,并对其核心组件HDFS(Hadoop分布式文件系统)和MapReduce进行了深入解析。同时,也讨论了与传统大数据解决方案...

    hadoop 2.6.0 安装包

    - **YARN(Yet Another Resource Negotiator)**:资源管理器,取代了旧版Hadoop中的JobTracker,负责集群资源的管理和调度,提高了系统的可扩展性和资源利用率。 - **HDFS HA(High Availability)**:通过...

    hadoop2.2.0-linux-64bit安装包和源码包

    - **功能增强**:Hadoop 2.2.0 版本中的HDFS进行了多项改进,例如支持更多的元数据操作、增强了HA(High Availability)功能,使得集群在出现故障时能够更快地恢复。 - **性能提升**:通过对HDFS内部机制的优化,...

    hadoop-2.7.1.tar.gz

    5. **Hadoop生态**:Hadoop生态还包括其他组件,如Pig(高级数据分析语言),Hive(SQL-like查询工具),Spark(快速数据处理框架),HBase(NoSQL数据库)等,它们共同构建了大数据处理的完整解决方案。 6. **使用...

    hadoop-2.0.5-alpha

    Hadoop生态系统的其他组件,如HBase(分布式列式数据库)、Hive(基于Hadoop的数据仓库工具)、Pig(高级数据流语言)和Oozie(工作流调度系统)等,都在这个版本中得到了支持和优化,为用户提供了一套完整的数据...

    hadoop-2.6.0-cdh5.14.2-src.tar.gz

    Hadoop,作为大数据处理领域的重要开源框架,是Apache软件基金会的重要项目之一。Hadoop 2.6.0-cdh5.14.2版本是Cloudera公司基于Hadoop的商业发行版CDH(Cloudera Distribution Including Apache Hadoop)的一个具体...

    hadoop-2.7.4编译版本

    在Hadoop中启用Snappy压缩,可以减少网络传输和磁盘I/O,从而提高整体性能。 **4. Linux部署** Linux是Hadoop的常见运行平台,因为其稳定性和对大规模并发的支持。预编译的Hadoop 2.7.4版本可以直接在Linux上安装,...

    hadoop-2.5.0-cdh5.3.1-src.tar.gz

    在Hadoop 2.5.0中,HDFS的HA(High Availability)和Federation特性进一步完善,增强了系统的可用性和可扩展性。 3. **MapReduce**:Hadoop的并行计算模型,包括Map阶段和Reduce阶段。在2.5.0版本中,MapReduce 2.0...

    Hadoop实战+教程.pdf

    总之,《Hadoop实战+教程》不仅涵盖了Hadoop的基础理论知识,还深入探讨了其实战技巧和高级用法,是学习和掌握Hadoop不可多得的宝贵资源。无论是对于初学者还是有经验的开发者,都能够从中获得有益的信息和灵感,...

    hadoop3-quick-start:这是一个存储有关hadoop3-quick入门指南的所有示例的存储库

    在学习Hadoop 3的过程中,你需要了解Hadoop生态系统中的其他组件,如Hive(基于Hadoop的数据仓库工具),Pig(用于大数据分析的高级脚本语言),Spark(高速内存计算框架),以及HBase(分布式列式数据库),它们都...

    HA模式部署hadoop1

    【HA模式部署Hadoop】是高可用(High Availability)部署方式,它确保了Hadoop集群在主NameNode故障时能够无缝切换到备用NameNode,从而避免服务中断。在这个场景下,我们将讨论如何处理Hadoop日志管理和HDFS的高级...

    Hadoop大数据实战培训

    基础部分可能包含Hadoop的起源、设计理念、架构解析等内容,而高级部分可能涉及Hadoop与其他大数据工具(如Hive、Pig、Spark等)的集成,以及实际案例分析,帮助学习者将理论知识转化为实际操作能力。 通过这次实战...

    Hadoop书籍.rar

    这部分内容可能深入探讨了Hadoop的内部工作机制,包括HDFS(Hadoop Distributed File System)的存储机制、MapReduce的计算模型、YARN(Yet Another Resource Negotiator)资源调度系统以及Hadoop生态中的其他组件如...

    Hadoop集群HDP-2.6.4的部署

    为了提高Hadoop集群的可用性和容错能力,需要启用NameNodeHA和YARNHA特性。这通常涉及以下步骤: - 配置多个NameNode实例,并通过ZooKeeper进行协调,实现高可用。 - 对于YARN HA,同样需要配置多个ResourceManager...

    hadoop-2.7.1

    Hadoop生态系统包含了众多与之配合的工具,如Hive(基于SQL的数据仓库工具)、Pig(高级数据分析语言)、HBase(NoSQL数据库)、Spark(快速通用的大数据处理引擎)等。这些工具丰富了Hadoop的功能,使其在数据处理...

    大数据系列-Hadoop 2.0

    0103 高级Hadoop 2.x、0102 深入Hadoop 2.x这两部分可能涉及更深层次的Hadoop技术,如Hadoop生态系统的其他组件(如Hive、Pig、Spark),Hadoop的安全管理,以及高级优化技巧。 总之,Hadoop 2.0作为一个全面的...

    Hadoop-CCAH攻略,大数据平台必备文件

    - 了解网络在Hadoop中的作用,尤其是对于HDFS和MapReduce任务调度的影响。 - 根据具体场景设计合理的网络架构,如采用万兆网卡等高性能网络设备。 #### 五、Hadoop集群安装与管理 (25%) **Hadoop集群安装与管理*...

    windows hadoop-2.7.7免费下载

    在学习和使用Hadoop时,了解Hadoop的生态系统也是至关重要的,这包括Hive(用于数据仓库和SQL查询)、Pig(高级数据分析工具)、Spark(快速、通用的大数据处理框架)、HBase(NoSQL数据库)和Oozie(工作流调度系统...

    Hadoop 官方文档(中文版)

    Hadoop 是一个开源的分布式计算框架,由Apache软件基金会维护,它允许在大规模集群中对大量数据进行并行处理。这个“Hadoop 官方文档(中文版)”提供了全面的指导,涵盖了从初学者到高级用户的各个层面。下面将详细...

    Hadoop权威指南(中文第3版)

    书中还会讨论Hadoop的扩展性,包括Hadoop 2.x版本引入的改进,如YARN的引入解决了MapReduce与资源管理的耦合问题,以及HDFS的HA(High Availability)和 Federation特性,提高了系统的可用性和可扩展性。 此外,...

Global site tag (gtag.js) - Google Analytics