mapred-site.xml
name | value | Description |
mapred.tasktracker.tasks.maximum | 2 | tasktraceker给每个job同时运行的槽数,经常与mapred.tasktracker.map.tasks.maximum搞混。用于balance。x=0.95*node*y |
hadoop.job.history.location | job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。 | |
hadoop.job.history.user.location | 用户历史文件存放位置 | |
io.sort.factor | 30 | 这里处理流合并时的文件排序数,我理解为排序时打开的文件数 |
io.sort.mb | 600 | 排序所使用的内存数量,单位兆,默认1,我记得是不能超过mapred.child.java.opt设置,否则会OOM |
mapred.job.tracker | hadoopmaster:9001 | 连接jobtrack服务器的配置项,默认不写是local,map数1,reduce数1 |
mapred.job.tracker.http.address | 0.0.0.0:50030 | jobtracker的tracker页面服务监听地址 |
mapred.job.tracker.handler.count | 15 | jobtracker服务的线程数 |
mapred.task.tracker.report.address | 127.0.0.1:0 | tasktracker监听的服务器,无需配置,且官方不建议自行修改 |
mapred.local.dir | /data1/hdfs/mapred/local, /data2/hdfs/mapred/local, ... |
mapred做本地计算所使用的文件夹,可以配置多块硬盘,逗号分隔 |
mapred.system.dir | /data1/hdfs/mapred/system, /data2/hdfs/mapred/system, ... |
mapred存放控制文件所使用的文件夹,可配置多块硬盘,逗号分隔。 |
mapred.temp.dir | /data1/hdfs/mapred/temp, /data2/hdfs/mapred/temp, ... |
mapred共享的临时文件夹路径,解释同上。 |
mapred.local.dir.minspacestart | 1073741824 | 本地运算文件夹剩余空间低于该值则不在本地做计算。字节配置,默认0 |
mapred.local.dir.minspacekill | 1073741824 | 本地计算文件夹剩余空间低于该值则不再申请新的任务,字节数,默认0 |
mapred.tasktracker.expiry.interval | 60000 | TT在这个时间内没有发送心跳,则认为TT已经挂了。单位毫秒 |
mapred.map.tasks | 2 | 默认每个job所使用的map数,意思是假设设置dfs块大小为64M,需要排序一个60M的文件,也会开启2个map线程,当jobtracker设置为本地是不起作用。 |
mapred.reduce.tasks | 1 | 解释同上 |
mapred.jobtracker.restart.recover | true | false | 重启时开启任务恢复,默认false |
mapred.jobtracker.taskScheduler | org.apache.hadoop.mapred. CapacityTaskScheduler org.apache.hadoop.mapred. JobQueueTaskScheduler org.apache.hadoop.mapred. FairScheduler |
重要的东西,开启任务管理器,不设置的话,hadoop默认是FIFO调度器,其他可以使用公平和计算能力调度器 |
mapred.reduce.parallel.copies | 10 | reduce在shuffle阶段使用的并行复制数,默认5 |
mapred.child.java.opts | 每个TT子进程所使用的虚拟机内存大小 | |
tasktracker.http.threads | 50 | TT用来跟踪task任务的http server的线程数 |
mapred.task.tracker.http.address | 0.0.0.0:50060 | TT默认监听的httpIP和端口,默认可以不写。端口写0则随机使用。 |
mapred.output.compress | true | false | 任务结果采用压缩输出,默认false,建议false |
mapred.output.compression.codec | org.apache.hadoop.io. compress.DefaultCodec |
输出结果所使用的编解码器,也可以用gz或者bzip2或者lzo或者snappy等 |
mapred.compress.map.output | true | false | map输出结果在进行网络交换前是否以压缩格式输出,默认false,建议true,可以减小带宽占用,代价是会慢一些。 |
mapred.map.output.compression.codec | com.hadoop.compression. lzo.LzoCodec |
map阶段压缩输出所使用的编解码器 |
map.sort.class | org.apache.hadoop.util. QuickSort |
map输出排序所使用的算法,默认快排。 |
mapred.hosts | conf/mhost.allow | 允许连接JT的TT服务器列表,空值全部允许 |
mapred.hosts.exclude | conf/mhost.deny | 禁止连接JT的TT列表,节点摘除是很有作用。 |
mapred.queue.names | ETL,rush,default | 配合调度器使用的队列名列表,逗号分隔 |
mapred.tasktracker.map. tasks.maximum |
12 | 每服务器允许启动的最大map槽位数。 |
mapred.tasktracker.reduce. tasks.maximum |
6 | 每服务器允许启动的最大reduce槽位数 |
相关推荐
本笔记将深入探讨如何搭建Hadoop HA环境,并分享配置文件及其详细解读。 首先,我们要理解Hadoop HA的基本概念。HA主要涉及到两个关键组件:NameNode和ResourceManager。NameNode是HDFS的元数据管理节点,而...
Hadoop 3.x 笔记 Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 ...
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...
* etc目录:存放Hadoop的配置文件,如hdfs-site.xml、core-site.xml等。 * lib目录:存放Hadoop的依赖库。 * sbin目录:存放Hadoop集群启动停止相关脚本。 * share目录:存放Hadoop的一些jar、官方案例jar、文档等。...
2. **配置文件修改**:主要修改`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`这四个核心配置文件。例如,在`core-site.xml`中配置HDFS默认名称节点地址,在`hdfs-site.xml`中设置副本数、...
本笔记将从环境搭建、HDFS配置、YARN配置、分布式配置到MapReduce编程,全方位介绍Hadoop的学习过程,并结合JavaWeb项目实践,帮助读者深入理解Hadoop的工作原理和应用。 ### 一、环境搭建 在开始Hadoop的学习之前...
1. a4.conf, a2.conf, a1.conf, a3.conf:这些可能是Hadoop配置文件,可能包含了Hadoop集群的设置信息,如HDFS的配置、MapReduce的参数调整等,用于优化Hadoop环境的性能。 2. daily:可能是课程的每日总结或作业,...
六、Hadoop配置文件 Hadoop的配置文件包括core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等,所有的配置文件目录在/xxx/hadoop-3.x.x/etc/hadoop中。 七、HDFS分布式文件系统 HDFS(Hadoop ...
在实际应用中,Hadoop可以通过修改配置文件来调整其行为。例如,可以配置hadoop.log.dir来指定日志的存储位置,这有助于开发者在遇到问题时迅速定位和排查问题。 最后,Hadoop是一个不断演进的技术栈,随着版本的...
配置Hadoop涉及到多个配置文件的修改: 1. 修改`hadoop-env.sh`,设置`JAVA_HOME`和`JRE_HOME`: ``` export JAVA_HOME=/home/hadoop/hadoop/jdk1.6.0_33 export JRE_HOME=/home/hadoop/hadoop/jdk1.6.0_33/jre ...
编辑Master节点上的配置文件,如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`等。 **4.4 Slave配置** 在每个Slave节点上配置Hadoop,确保其能够与Master节点通信。 **4.5 初始化和启动Hadoop集群** - *...
2. 安装Hadoop:下载最新版本的Hadoop,配置环境变量,设置Hadoop的配置文件(如core-site.xml、hdfs-site.xml、yarn-site.xml等)。 3. 配置HDFS:设置NameNode和DataNode的目录,配置NameNode的地址。 4. 初始化...
6. **配置Hadoop**:编辑Hadoop配置文件,包括`hadoop-env.sh`、`yarn-env.sh`、`slaves`等。 #### 六、启动Hadoop集群 完成上述步骤后,即可启动Hadoop集群。具体操作包括格式化NameNode、启动NameNode和DataNodes...
3. **配置Hadoop配置文件**: 修改`etc/hadoop/core-site.xml`,设置HDFS的默认名称节点和临时目录;修改`etc/hadoop/hdfs-site.xml`,设置副本数和数据节点路径。 **三、初始化NameNode** 在主节点上执行格式化...
Hadoop安装通常包括下载、配置和启动集群的NameNode和DataNode。NameNode是HDFS的主节点,负责管理文件系统的命名空间和客户端对文件的访问。DataNode是从节点,负责存储实际的数据块。Hadoop集群启动时,NameNode...
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...
8. "hadoop2.4.1伪分布式搭建.txt" 和 "hadoop1.2.1伪分布式搭建.txt" - 这两个文件分别对应不同版本的Hadoop伪分布式环境的搭建步骤,显示了Hadoop的版本演进和配置差异。 9. "hdfs笔记.txt" - 这可能是一位学生或...
根据提供的文件信息,我们可以了解到有关大数据和Hadoop的详细知识点。以下是基于文件内容的知识点梳理: **大数据的基本概念** 大数据指的是无法在一段合理的时间范围内用常规软件工具捕捉、管理和处理的数据集合...