获取默认配置
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:
1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。
2.浏览apache官网,三个配置文件链接如下:
http://hadoop.apache.org/common/docs/r0.20.2/core-default.html
http://hadoop.apache.org/common/docs/r0.20.2/hdfs-default.html
http://hadoop.apache.org/common/docs/r0.20.0/mapred-default.html
这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。
其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。
另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。
常用的端口配置
HDFS端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
fs.default.name | namenode RPC交互端口 | 8020 | core-site.xml | hdfs://master:8020/ |
dfs.http.address | NameNode web管理端口 | 50070 | hdfs-site.xml | 0.0.0.0:50070 |
dfs.datanode.address | datanode 控制端口 | 50010 | hdfs-site.xml | 0.0.0.0:50010 |
dfs.datanode.ipc.address | datanode的RPC服务器地址和端口 | 50020 | hdfs-site.xml | 0.0.0.0:50020 |
dfs.datanode.http.address | datanode的HTTP服务器和端口 | 50075 | hdfs-site.xml | 0.0.0.0:50075 |
MR端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
mapred.job.tracker | job tracker交互端口 | 8021 | mapred-site.xml | hdfs://master:8021/ |
mapred.job.tracker.http.address | job tracker的web管理端口 | 50030 | mapred-site.xml | 0.0.0.0:50030 |
mapred.task.tracker.http.address | task tracker的HTTP端口 | 50060 | mapred-site.xml | 0.0.0.0:50060 |
其他端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
dfs.secondary.http.address | secondary NameNode web管理端口 | 50090 | hdfs-site.xml | 0.0.0.0:28680 |
集群目录配置
参数 | 描述 | 默认 | 配置文件 | 例子值 |
dfs.name.dir | name node的元数据,以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉 |
{hadoop.tmp.dir} /dfs/name |
hdfs-site.xm | /hadoop/hdfs/name |
dfs.name.edits.dir | node node的事务文件存储的目录,以,号隔开,hdfs会把事务文件冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉 | ${dfs.name.dir} | hdfs-site.xm | ${dfs.name.dir} |
fs.checkpoint.dir | secondary NameNode的元数据以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉 |
${hadoop.tmp.dir} /dfs/namesecondary |
core-site.xml | /hadoop/hdfs/namesecondary |
fs.checkpoint.edits.dir | secondary NameNode的事务文件存储的目录,以,号隔开,hdfs会把事务文件冗余复制到这些目录 | ${fs.checkpoint.dir} | core-site.xml | ${fs.checkpoint.dir} |
hadoop.tmp.dir | 临时目录,其他临时目录的父目录 | /tmp/hadoop-${user.name} | core-site.xml | /hadoop/tmp/hadoop-${user.name} |
dfs.data.dir | data node的数据目录,以,号隔开,hdfs会把数据存在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉 |
${hadoop.tmp.dir} /dfs/data |
hdfs-site.xm |
/hadoop/hdfs/data1/data, /hadoop/hdfs/data2/data |
mapred.local.dir | MapReduce产生的中间数据存放目录,以,号隔开,hdfs会把数据存在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉 |
${hadoop.tmp.dir} /mapred/local |
mapred-site.xml |
/hadoop/hdfs/data1/mapred/local, /hadoop/hdfs/data2/mapred/local |
mapred.system.dir | MapReduce的控制文件 |
${hadoop.tmp.dir} /mapred/system |
mapred-site.xml | /hadoop/hdfs/data1/system |
其他配置
参数 | 描述 | 默认 | 配置文件 | 例子值 |
dfs.support.append | 支持文件append,主要是支持hbase | false | hdfs-site.xml | true |
dfs.replication | 文件复制的副本数,如果创建时不指定这个参数,就使用这个默认值作为复制的副本数 | 3 | hdfs-site.xml | 2 |
相关推荐
在分布式计算领域,Hadoop是一个不可或缺的...总结起来,Hadoop的默认配置文件是管理和优化Hadoop集群的基石,它们详细定义了HDFS、Hadoop核心、MapReduce和YARN的各项默认参数,对深入理解和使用Hadoop具有深远影响。
#### 一、Hadoop集群硬件配置的重要性 在构建Hadoop集群时,合理的硬件配置对于确保集群稳定运行、提高数据处理效率至关重要。由于Hadoop主要用于处理大规模数据集,其硬件需求与传统应用有所不同,因此需要根据...
本文将深入探讨Hadoop HA(高可用性)集群的配置文件,包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`、`yarn-site.xml`以及`slaves`文件,这些都是确保Hadoop集群稳定运行的基础。 1. `core-site.xml`:...
这个压缩包文件包含了Hadoop集群配置的核心组件,这些配置文件对于理解和优化Hadoop集群的运行至关重要。以下是对这些配置文件及其参数的详细解读。 1. **core-site.xml**:这是Hadoop的基本配置文件,主要定义了...
### Hadoop 2.6 集群配置详解 #### 一、环境配置 ##### 1.1 服务器环境 1. **IP地址配置**:根据实际情况为每台服务器分配唯一的IP地址,例如: ...通过以上步骤,可以构建出一个稳定且功能齐全的Hadoop集群。
总结起来,配置Hadoop集群涉及的主要步骤包括:系统环境准备(如IP和主机名配置)、SSH无密码登录设置、JDK安装及环境变量配置、Hadoop安装和各节点特定配置。每个环节都至关重要,确保了Hadoop集群的稳定运行和高效...
了解这些默认配置文件对于优化Hadoop集群性能、确保稳定运行以及解决可能出现的问题至关重要。开发者和管理员可以根据实际需求调整这些配置,以满足特定的工作负载和资源需求。同时,理解这些配置的含义也有助于深入...
在本文中,我们将深入探讨如何配置一个基于Hadoop v1.0的集群,这是一个关键的分布式计算...记住,配置Hadoop集群是一个复杂的过程,需要细心和耐心,但一旦成功,你将拥有一个强大的工具来处理大规模的数据处理任务。
在本文中,我们使用的是Hadoop的默认配置文件。 5. 设置HOSTS文件:HOSTS文件是用于将主机名映射到IP地址的文件。需要将主机名和IP地址添加到HOSTS文件中,以便集群中的节点能够相互通信。 6. 格式化并启动Hadoop...
环境准备是指在搭建 Hadoop 集群环境之前需要进行的准备工作,包括设置 IP、设置 hostname、配置 SSH、安装 JDK、安装 Hadoop 等步骤。 设置 IP 需要修改 /etc/sysconfig/network-scripts/ifcfg-eth0 文件,设置...
【Hadoop集群安装配置教程_Hadoop2.6.0】是针对在Ubuntu和CentOS操作系统上搭建Hadoop集群的详细指南。本教程适用于Hadoop 2.x系列版本,特别是Hadoop 2.6.0及类似版本如Hadoop 2.7.1、Hadoop 2.4.1。它假设读者已经...
本文将详细讲解如何搭建一个Hadoop集群,包括虚拟机安装、环境配置、Hadoop和Zookeeper的安装及集群验证。以下是对每个步骤的详细说明: 一、虚拟机安装与配置 在搭建Hadoop集群之前,首先需要准备多台虚拟机。可以...
### Hadoop集群配置及MapReduce开发手册知识点梳理 #### 一、Hadoop集群配置 **1.1 环境说明** - **操作系统**: CentOS 5 - **JDK版本**: Sun Java 6 - **SSH**: 已安装 - **Eclipse版本**: 3.4.2 (Linux版) - **...
Hadoop的默认配置文件对于理解和优化Hadoop集群的运行至关重要。本文将深入解析标题提及的四个核心配置文件:`core-default.xml`、`hdfs-default.xml`、`mapred-default.xml`以及`yarn-default.xml`。 首先,`core-...
本文将从零开始,逐步介绍如何在Linux环境下搭建Hadoop集群,包括所需的基础环境配置、Hadoop的安装与配置过程等。 #### 二、准备工作 在正式搭建Hadoop集群之前,我们需要准备一些基础环境,主要包括: 1. **JDK...
在构建和管理Hadoop集群时,配置文件是至关重要的,它们定义了集群的行为、性能参数以及节点间的通信方式。以下是对这些配置文件的详细解析: 首先,`core-site.xml`是Hadoop的核心配置文件,它定义了基础的系统...
在Hadoop生态系统中,配置文件是管理和优化集群性能的关键元素。本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和...在Hadoop集群的日常管理和维护中,理解和掌握这些配置是非常必要的。
Hadoop集群的搭建是一项技术性很强的任务,涉及到多个组件的配置和优化。以下是对"hadop集群搭建文档资料"的详细解析: 1. **Hadoop概述**:Hadoop由Apache基金会开发,基于Java语言,设计为分布式计算系统,它支持...
这些配置文件是Hadoop运行的基础,理解并适当调整它们可以优化Hadoop集群的性能。 首先,我们来看`core-default.xml`。这个文件包含了Hadoop核心组件的基本设置,如I/O选项、网络参数和通用配置。例如,`fs.default...
配置是搭建Hadoop集群的关键步骤。在core-site.xml中设置HDFS的默认FS,以及临时目录等参数;在hdfs-site.xml中配置NameNode和DataNode,如副本数量、数据块大小等;在mapred-site.xml中指定MapReduce的运行模式,...