`

hadoop集群默认配置和常用配置

阅读更多

原文From: http://www.cnblogs.com/ggjucheng/archive/2012/04/17/2454590.html

获取默认配置

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:
1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。
2.浏览apache官网,三个配置文件链接如下:
   http://hadoop.apache.org/docs/r0.23.8/hadoop-project-dist/hadoop-common/core-default.xml
   http://hadoop.apache.org/docs/r0.23.8/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
   http://hadoop.apache.org/docs/r0.23.8/hadoop-project-dist/hadoop-common/mapred-default.html
   这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。
其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。
另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。

常用的端口配置

HDFS端口

参数 描述 默认 配置文件 例子值
fs.default.name namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/
dfs.http.address  NameNode web管理端口 50070  hdfs-site.xml  0.0.0.0:50070
dfs.datanode.address datanode 控制端口 50010  hdfs-site.xml  0.0.0.0:50010
dfs.datanode.ipc.address datanode的RPC服务器地址和端口  50020 hdfs-site.xml 0.0.0.0:50020
dfs.datanode.http.address datanode的HTTP服务器和端口  50075 hdfs-site.xml  0.0.0.0:50075


                      

MR端口

参数 描述 默认  配置文件 例子值
mapred.job.tracker job tracker交互端口  8021 mapred-site.xml hdfs://master:8021/
mapred.job.tracker.http.address job tracker的web管理端口 50030 mapred-site.xml  0.0.0.0:50030
mapred.task.tracker.http.address task tracker的HTTP端口 50060 mapred-site.xml 0.0.0.0:50060


               

其他端口

参数 描述  默认  配置文件 例子值
dfs.secondary.http.address  secondary NameNode web管理端口  50090 hdfs-site.xml 0.0.0.0:28680


                                        

集群目录配置

参数 描述  默认  配置文件 例子值
dfs.name.dir name node的元数据,以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉

{hadoop.tmp.dir}

/dfs/name

hdfs-site.xm /hadoop/hdfs/name
dfs.name.edits.dir  node node的事务文件存储的目录,以,号隔开,hdfs会把事务文件冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉  ${dfs.name.dir} hdfs-site.xm ${dfs.name.dir}
 fs.checkpoint.dir secondary NameNode的元数据以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉

${hadoop.tmp.dir}

/dfs/namesecondary

core-site.xml /hadoop/hdfs/namesecondary
 fs.checkpoint.edits.dir secondary NameNode的事务文件存储的目录,以,号隔开,hdfs会把事务文件冗余复制到这些目录 ${fs.checkpoint.dir} core-site.xml ${fs.checkpoint.dir}
hadoop.tmp.dir 临时目录,其他临时目录的父目录 /tmp/hadoop-${user.name} core-site.xml /hadoop/tmp/hadoop-${user.name}
dfs.data.dir data node的数据目录,以,号隔开,hdfs会把数据存在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉

${hadoop.tmp.dir}

/dfs/data

hdfs-site.xm

/hadoop/hdfs/data1/data,

/hadoop/hdfs/data2/data

mapred.local.dir MapReduce产生的中间数据存放目录,以,号隔开,hdfs会把数据存在这些目录下,一般这些目录是不同的块设备,不存在的目录会被忽略掉

${hadoop.tmp.dir}

/mapred/local

mapred-site.xml

/hadoop/hdfs/data1/mapred/local,

/hadoop/hdfs/data2/mapred/local

mapred.system.dir MapReduce的控制文件

${hadoop.tmp.dir}

/mapred/system

mapred-site.xml /hadoop/hdfs/data1/system

 

其他配置

参数 描述  默认  配置文件 例子值
dfs.support.append  支持文件append,主要是支持hbase  false hdfs-site.xml true
dfs.replication  文件复制的副本数,如果创建时不指定这个参数,就使用这个默认值作为复制的副本数  3 hdfs-site.xml 2
 
分享到:
评论

相关推荐

    HadoopHA集群配置文件

    在分布式计算领域,Hadoop是不可或缺的关键技术,它提供了一个高效、可靠且可扩展的数据存储和处理框架。本文将深入探讨Hadoop HA(高可用性)集群...正确配置和管理这些文件是构建和维护高可用Hadoop集群的关键步骤。

    hadoop配置文件默认配置

    本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们关注HDFS的端口配置: 1. **fs.default.name**: 这个参数定义了...

    细细品味Hadoop_Hadoop集群VSFTP安装配置.rar_hadoop

    VSFTP的安装和配置是Hadoop集群管理的重要一环,因为Hadoop在处理大数据时,可能需要从外部源获取或向外部源发送大量文件。VSFTP允许安全地上传和下载文件,这对于数据的导入导出、备份和恢复操作至关重要。以下是...

    Hadoop集群作业的调度算法

    #### 四、Hadoop集群默认的调度算法 Hadoop提供了一种默认的调度算法,即**FIFO(First-In-First-Out)调度器**。这种调度器按照作业提交的时间顺序来执行作业,简单易用,但在处理不同类型和优先级的作业时可能会...

    hadoop集群虚拟机安装详解

    这个版本支持创建和管理虚拟机,对于初学者来说,它提供了一个理想的环境来实践Hadoop集群的安装和配置。在VMware上安装Linux操作系统,例如CentOS Release 5.5,是构建Hadoop集群的基础。CentOS是一款稳定且广泛...

    hadoop配置文件参数详解1

    第一种方法是选择相应版本的 Hadoop,下载解压后,搜索 \*.xml,找到 core-default.xml、hdfs-default.xml 和 mapred-default.xml,这些文件就是默认配置,可以参考这些配置的说明和 key 设置 Hadoop 集群。...

    hadoop配置属性

    - 方法一:下载与Hadoop版本相对应的Hadoop压缩包,解压后通过搜索*.xml文件,可以找到core-default.xml、hdfs-default.xml和mapred-default.xml,这些文件中包含了默认的配置属性及说明,可以作为设置Hadoop集群时...

    Hadoop集群管理

    综上所述,通过对Hadoop集群节点磁盘数据结构的理解以及集群管理工具的有效使用,可以大大提高集群的稳定性和效率。同时,利用MapReduce中的计数器特性,可以更好地监控和优化MapReduce作业的执行过程。

    hadoop安装配置教程

    常用目录包括:/home用于存放用户主目录,/etc存储系统配置文件,/usr包含应用程序,/bin和/sbin存放常用命令,/var用于日志和临时文件等。 **0.4 vi编辑器** vi是一个强大的文本编辑器,也是Linux环境中的默认编辑...

    Linix下Hadoop的伪分布式配置

    在Linux环境下配置Hadoop的伪分布式模式是学习和测试Hadoop功能的重要步骤。这个模式允许你在单个节点上运行Hadoop,模拟多节点集群的行为,无需物理扩展硬件资源。以下是对配置过程的详细解释: 首先,你需要确保...

    hadoop常用端口

    在Hadoop生态系统中,端口配置对于集群的正常运行至关重要,因为它们决定了各个组件之间的通信方式。本文将详细解析Hadoop中常用的端口...每个端口和参数都有其特定的作用,合理调整可以提升Hadoop集群的稳定性和效率。

    hadoop—集群维护手册.doc

    首先,启动和停止Hadoop集群的常用命令是`start-all.sh`和`stop-all.sh`,分别用于启动和停止所有的服务,包括Namenode、Datanode、JobTracker和TaskTracker等。 当需要扩展集群的存储能力时,通常是通过添加新的...

    熟悉常用的Linux操作和Hadoop操作.docx

    本实验旨在帮助学生熟练掌握Linux操作系统中的常用命令,并初步了解如何在Linux环境下安装和配置Hadoop集群,为后续进行云计算与大数据处理打下坚实的基础。 ##### 实验环境 本次实验使用的操作系统为CentOS 6.5。...

    集群常用脚本及相关组件配置文件

    Hadoop是分布式存储和计算的基础,理解其配置和管理是使用Hadoop集群的必备技能。 8. **kafka.sh**:Kafka是一个高吞吐量的分布式消息系统,这个脚本可能是Kafka的配置或管理脚本。掌握Kafka的运维对于大数据实时...

    Linux 系统下 Hadoop 安装配置教程.md

    - **启动HDFS和YARN**:启动Hadoop集群涉及启动HDFS和YARN两个组件。命令如下: ```bash start-dfs.sh start-yarn.sh ``` #### 验证安装 - **检查Java进程**:使用`jps`命令来检查Hadoop的Java进程,确认...

    Hadoop3.x系统文档

    网络配置是Hadoop集群性能中的一个关键因素。文档中提供了对Hadoop 3.0 YARN支持的网络配置的详细介绍,涵盖了网络设计和配置的各个方面,使管理员能够根据具体环境对网络进行精细调整。 ### Hadoop 3.x常用配置与...

    JDK的安装和Hadoop伪分布的配置

    Java Development Kit(简称JDK)是Sun Microsystems针对Java语言开发的一个软件开发工具包,同时也是运行Hadoop集群的基础环境之一。Hadoop是用Java编写的,因此在搭建Hadoop集群时,必须先安装好JDK。 ##### 1.1 ...

    实验1 安装Hadoop.doc

    根据给定文件的信息,我们可以总结出以下几个重要的知识点: ...综上所述,通过本次实验,学生不仅能够学会如何在Linux虚拟机中搭建Hadoop集群,还能掌握Hadoop的基本使用技巧,为进一步学习大数据分析打下坚实基础。

    Hadoop-2.8.5全面资料

    - **插件**:Hadoop插件不仅可以提高开发效率,还可以帮助开发者更好地管理和监控Hadoop集群。例如,Eclipse插件不仅支持MapReduce开发,还可以与Hadoop的其他组件如Spark、Hive等集成。 综上所述,Hadoop-2.8.5是...

Global site tag (gtag.js) - Google Analytics