选项 | 类型 | 默认值 | 描述 |
dfs.block.size | int | 64M | 有一个1T的文件,如果我的块size设置是默认的64M,那么在HDFS上产生的块将有1024000/64=16000块 |
dfs.replication | int | 3 | 存放数据文件的份数 |
选项 | 类型 | 默认值 | 描述 |
io.sort.mb | int | 100 | 缓存map中间结果的buffer大小(MB) |
io.sort.record.percent | float | 0.05 | io.sort.mb中用来保存map output记录边界的百分比,其他缓存用来保存数据 |
io.sort.spill.percent | float | 0.8 | map开始做spill操作的阀值 |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
min.num.spill.for.combine | int | 3 | combine函数运行的最小spill数 |
mapred.compress.map.output | boolean | FALSE | map中间结果是否采用压缩 |
mapred.map.output.compression.codec | class name | org.apache.hadoop.io.compress.DefaultCodec | map中间结果的压缩方式 |
mapred.tasktracker.map.tasks.maximum | int | 2 | 一个tasktracker最多可以同时运行的map任务数量 |
mapred.map.tasks | int | 2 | 一个Job会使用task tracker的map任务槽数量,这个值 ≤ mapred.tasktracker.map.tasks.maximum |
选项 | 类型 | 默认值 | 描述 |
mapred.reduce.parallel.copies | int | 5 | 每个reduce并行下载map结果的最大线程数 |
mapred.reduce.copy.backoff | int | 300 | reduce下载线程最大等待时间(insec) |
io.sort.factor | int | 10 | 做merge操作时同时操作的stream数上线 |
mapred.job.shuffle.input.buffer.percent | float | 0.7 | 用来缓存shuffle数据的reduce task heap百分比 |
mapred.job.shuffle.merge.percent | float | 0.66 | 缓存的内存中多少百分比后开始做merge操作 |
mapred.job.reduce.input.buffer.percent | float | 0 | sort完成后reduce计算阶段用来缓存数据的百分比 |
mapred.tasktracker.reduce.tasks.maximum | int | 2 | 一个task tracker最多可以同时运行的reduce任务数量 |
mapred.reduce.tasks | int | 1 | 一个Job会使用task tracker的reduce任务槽数量 |
mapred.child.java.opts | int | 200M | 配置每个map或reduce使用的内存数量 |
修改项 | 修改值 | 路径 | 作用 |
HADOOP_OPTS | HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true" | bin/hadoop | disable ipv6 |
Job的调度模式 | FIFO | ||
Fair |
相关推荐
Hadoop性能调优指南介绍了一种有效的方法来提升Hadoop集群的运行效率,它不仅涵盖了硬件优化,还包括了系统和Hadoop架构层面的优化。Hadoop是一个开源的分布式存储和计算框架,广泛应用于大数据的存储与处理。对于...
Hadoop is a Java-based distributed framework designed to work with applications implemented using MapReduce modeling. This distributed framework makes it possible to pass the load on to thousands of ...
Expert Hadoop Administration Managing,Tuning,and Securing Spark,YARN,and HDFS
- **JVM Tuning**:针对Java虚拟机进行了优化,降低了垃圾回收的影响,提高了整体性能。 - **Data Node内存管理**:改进了Data Node的内存管理,减少了内存碎片,提升了系统稳定性。 在进行Hadoop-3.1.1的编译时...
- **MapReduce Tuning**:调整如Task数量、内存分配等参数,平衡性能和资源利用率。 6. **Hadoop生态系统** - **Hive**:基于SQL的查询工具,简化了Hadoop上的数据分析。 - **Pig**:高级数据流语言,用于创建...
- **DFS Tuning**:如调整缓存策略,提高读写速度。 6. **YARN调度器优化**: YARN负责资源调度,Fair Scheduler和Capacity Scheduler是常用的调度策略。了解它们的工作原理,并根据业务需求调整配置,可以提升...
Hadoop还包含了一些用于网络优化的工具,如Tuning Guide,它提供了关于网络参数调整的指导,以提升集群的性能。例如,可以通过调整TCP的缓冲区大小、设置合适的RPC超时时间以及优化网络带宽使用等来改善Hadoop集群的...
- 在诊断和调优性能问题(Diagnosing and tuning performance problems)方面,作者可能会向读者介绍如何识别和解决在使用Hadoop时可能遇到的性能瓶颈。 - 数据科学部分包含“Utilizing data structures and ...
此外,这些资料可能还会介绍Hadoop的数据安全和性能优化策略,比如Hadoop的权限控制模型HDFS ACLs,以及通过数据本地化、Block Replication和Bandwidth Tuning来提升系统性能的方法。总的来说,这个压缩包提供的是...
Hadoop definitive 第三版, 目录如下 1. Meet Hadoop . . . 1 Data! 1 Data Storage and Analysis 3 Comparison with Other Systems 4 RDBMS 4 Grid Computing 6 Volunteer Computing 8 A Brief History of Hadoop 9...
- **Performance Tuning**: Techniques for optimizing MapReduce jobs to improve performance. #### Chapter 5: Scheduling and Workflow Effective scheduling and workflow management are essential for ...
Dive into the world of SQL on Hadoop and get the most out of your Hive data warehouses. This book is your go-to resource for using Hive: authors Scott Shaw, Ankur Gupta, David Kjerrumgaard, and ...
and tuning Intel® Distribution for Apache Hadoop* (Intel® Distribution) software, a big data system optimized to run on Intel processor-based architecture. This guidance is based on benchmark ...
gpt_2_finetuning库可以与分布式计算框架(如Apache Spark或Hadoop)集成,实现大规模数据集上的模型训练。 云原生(Cloud Native)是一种基于容器、服务网格、微服务和声明式API的设计原则,它强调应用应以可移植...
藏经阁-Dr.Elephant for Monitoring and Tuning Apache Spark Jobs on Hadoop