`

hadoop tunning

阅读更多

 

选项 类型 默认值 描述
dfs.block.size int 64M 有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块
dfs.replication int 3 存放数据文件的份数
       
       
       
       
       
       
       
       
选项 类型 默认值 描述
io.sort.mb int 100 缓存map中间结果的buffer大小(MB)
io.sort.record.percent float 0.05 io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据
io.sort.spill.percent float 0.8 map开始做spill操作的阀值
io.sort.factor int 10 做merge操作时同时操作的stream数上线
min.num.spill.for.combine int 3 combine函数运行的最小spill数
mapred.compress.map.output boolean FALSE map中间结果是否采用压缩
mapred.map.output.compression.codec class name org.apache.hadoop.io.compress.DefaultCodec map中间结果的压缩方式
mapred.tasktracker.map.tasks.maximum int 2 一个tasktracker最多可以同时运行的map任务数量
mapred.map.tasks int 2 一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum
       
       
       
       
       
       
       
选项 类型 默认值 描述
mapred.reduce.parallel.copies int 5 每个reduce并行下载map结果的最大线程数
mapred.reduce.copy.backoff int 300 reduce下载线程最大等待时间(insec)
io.sort.factor int 10 做merge操作时同时操作的stream数上线
mapred.job.shuffle.input.buffer.percent float 0.7 用来缓存shuffle数据的reduce task heap百分比
mapred.job.shuffle.merge.percent float 0.66 缓存的内存中多少百分比后开始做merge操作
mapred.job.reduce.input.buffer.percent float 0 sort完成后reduce计算阶段用来缓存数据的百分比
mapred.tasktracker.reduce.tasks.maximum int 2 一个task tracker最多可以同时运行的reduce任务数量
mapred.reduce.tasks int 1 一个Job会使用task tracker的reduce任务槽数量
       
mapred.child.java.opts int 200M 配置每个map或reduce使用的内存数量
       
       
       
修改项 修改值 路径 作用
HADOOP_OPTS HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true" bin/hadoop disable ipv6
Job的调度模式 FIFO    
Fair    
分享到:
评论

相关推荐

    Hadoop_Performance_Tuning_Guide.pdf

    Hadoop性能调优指南介绍了一种有效的方法来提升Hadoop集群的运行效率,它不仅涵盖了硬件优化,还包括了系统和Hadoop架构层面的优化。Hadoop是一个开源的分布式存储和计算框架,广泛应用于大数据的存储与处理。对于...

    tuning-hadoop-on-dell-poweredge-servers

    Hadoop is a Java-based distributed framework designed to work with applications implemented using MapReduce modeling. This distributed framework makes it possible to pass the load on to thousands of ...

    Expert Hadoop Administration Managing,Tuning,and Securing Spark,YARN,and HDFS

    Expert Hadoop Administration Managing,Tuning,and Securing Spark,YARN,and HDFS

    hadoop-3.1.1编译

    - **JVM Tuning**:针对Java虚拟机进行了优化,降低了垃圾回收的影响,提高了整体性能。 - **Data Node内存管理**:改进了Data Node的内存管理,减少了内存碎片,提升了系统稳定性。 在进行Hadoop-3.1.1的编译时...

    Hadoop面试100题

    - **MapReduce Tuning**:调整如Task数量、内存分配等参数,平衡性能和资源利用率。 6. **Hadoop生态系统** - **Hive**:基于SQL的查询工具,简化了Hadoop上的数据分析。 - **Pig**:高级数据流语言,用于创建...

    hadoop经典系列(十一)性能分析实验初步

    - **DFS Tuning**:如调整缓存策略,提高读写速度。 6. **YARN调度器优化**: YARN负责资源调度,Fair Scheduler和Capacity Scheduler是常用的调度策略。了解它们的工作原理,并根据业务需求调整配置,可以提升...

    hadoop network

    Hadoop还包含了一些用于网络优化的工具,如Tuning Guide,它提供了关于网络参数调整的指导,以提升集群的性能。例如,可以通过调整TCP的缓冲区大小、设置合适的RPC超时时间以及优化网络带宽使用等来改善Hadoop集群的...

    Manning.Hadoop.in.Practice.2012

    - 在诊断和调优性能问题(Diagnosing and tuning performance problems)方面,作者可能会向读者介绍如何识别和解决在使用Hadoop时可能遇到的性能瓶颈。 - 数据科学部分包含“Utilizing data structures and ...

    2.资料-史上最全面的hadoop.rar

    此外,这些资料可能还会介绍Hadoop的数据安全和性能优化策略,比如Hadoop的权限控制模型HDFS ACLs,以及通过数据本地化、Block Replication和Bandwidth Tuning来提升系统性能的方法。总的来说,这个压缩包提供的是...

    hadoop_the_definitive_guide_3nd_edition

    Hadoop definitive 第三版, 目录如下 1. Meet Hadoop . . . 1 Data! 1 Data Storage and Analysis 3 Comparison with Other Systems 4 RDBMS 4 Grid Computing 6 Volunteer Computing 8 A Brief History of Hadoop 9...

    Big Data Made Easy - A Working Guide To The Complete Hadoop Toolset

    - **Performance Tuning**: Techniques for optimizing MapReduce jobs to improve performance. #### Chapter 5: Scheduling and Workflow Effective scheduling and workflow management are essential for ...

    Practical.Hive.A.Guide.to.Hadoops.Data.Warehouse.System.1484202724

    Dive into the world of SQL on Hadoop and get the most out of your Hive data warehouses. This book is your go-to resource for using Hive: authors Scott Shaw, Ankur Gupta, David Kjerrumgaard, and ...

    IntelDistributionTuningGuide

    and tuning Intel® Distribution for Apache Hadoop* (Intel® Distribution) software, a big data system optimized to run on Intel processor-based architecture. This guidance is based on benchmark ...

    PyPI 官网下载 | gpt_2_finetuning-1.0.14.tar.gz

    gpt_2_finetuning库可以与分布式计算框架(如Apache Spark或Hadoop)集成,实现大规模数据集上的模型训练。 云原生(Cloud Native)是一种基于容器、服务网格、微服务和声明式API的设计原则,它强调应用应以可移植...

    藏经阁-Dr.Elephant for Monitoring and Tuning Apache Spark Jobs on H

    藏经阁-Dr.Elephant for Monitoring and Tuning Apache Spark Jobs on Hadoop

Global site tag (gtag.js) - Google Analytics