hadoop杂记（一）

hmilyzhangl

浏览: 46841 次
性别:
来自: 重庆

最近访客更多访客>>

hackWang

zr531196248

haha3000

langke93

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

云计算--hadoop

hadoop hdfs

namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟 datanode一样(目录最好分布在不同的磁盘上，一个目录对应一个磁盘)，namenode存储目录需要格式化，datanode存储目录不需要格式化，启动时自动创建

同一个datanode上的每个磁盘上的块不会重复，不同datanode之间的块才可能重复

一些文件的说明：

1、dfs.hosts 记录即将作为datanode加入集群的机器列表

2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表

3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表

4、master 记录运行辅助namenode的机器列表

5、slave 记录运行datanode和tasktracker的机器列表

6、hadoop-env.sh 记录脚本要用的环境变量，以运行hadoop

7、core-site.xml hadoop core的配置项，例如hdfs和mapreduce常用的i/o设置等

8、hdfs-site.xml hadoop守护进程的配置项，包括namenode、辅助namenode和datanode等

9、mapred-site.xml mapreduce守护进程的配置项，包括jobtracker和tasktracker

10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性

11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性

一、hdfs守护进程的关键属性

1、fs.default.name 类型：uri 默认值：file:/// 说明：默认文件系统，uri定义主机名称和namenode的rpc服务器工作的端口号，默认是8020，在core-site.xml中配置

2、dfs.name.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/name 说明：namenode存储永久性的元数据的目录列表，namenode在列表上的各个目录中均存放相同的元数据文件

3、dfs.data.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/data 说明：datanode存放数据块的目录列表，各个数据块分别存于某个目录中

4、fs.checkpoint.dir 类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/namesecondary 说明：辅助namenode存放检查点的目录列表，在所列的各个目录中分别存放一份检查点文件副本

二、mapreduce守护进程关键属性

1、 mapred.job.tracker 类型：主机名和端口默认值：local 说明：jobtracker的rpc服务器所在的主机名称和端口号，如果设为默认值local，则运行一个mapreduce作业时，jobtracker即时以处理时模式运行（换言之，用户无需启动jobtracker；实际上试图在该模式下启动jobtracker会引发错误）

2、mapred.local.dir 类型：逗号分割的目录名称默认值：${hadoop.tmp.dir}/mapred/local 说明：存储作业中间数据的一个目录列表，作业终止时，数据被清除

3、mapred.system.dir 类型：uri 默认值：${hadoop.tmp.dir}/mapred/system 说明：在作业运行期间存储共享文件的目录，相对于fs.default.name

4、mapred.tasktracker.map.tasks.maximum 类型：int 默认值：2 说明：在任一时刻，运行在tasktracker之上的map任务的最大数

5、mapred.tasktracker.reduce.tasks.maximum 类型：int 默认值：2 说明：在任一时刻，运行在tasktracker之上的reduce任务的最大数

6、mapred.child.java.opts 类型：string 默认值：-xmx200m 说明：jvm选项，用于启动运行map和reduce任务的tasktracker子进程，该属性可以针对每个作业进行设置，例如，可以设置jvm的属性，以支持调试

7、mapred.child.ulimit 限制由tasktracker发起的子进程的最大虚拟内存（单位千字节），该值设置一定要大于6设置项的值

三、rpc服务器属性

1、dfs.datanode.ipc.address 默认值：0.0.0.0:50020 说明：datanode的rpc服务器的地址和端口

2、mapred.job.tracker 默认值：local 说明：被设为主机名称和端口号时，该属性指定jobtracker的rpc服务器地址和端口，常用的端口号时8021

3、 mapred.task.tracker.report.address 默认值：127.0.0.1:0 说明：tasktracker的rpc服务器地址和端口号，tasktracker的子jvm利用它和tasktracker通信，在本例中，可以使用任一空闲端口，因为服务器仅对会送地址隐藏，如果本机器没有会送地址，则需变更默认设置

datanode也运行tcp/ip服务器以支持块传输，默认由dfs.datanode.address设定，默认值是0.0.0.0:50010

三、http服务器属性

1、mapred.job.tracker.http.address 默认值：0.0.0.0:50030 说明：jobtracker的http服务器地址和端口

2、mapred.task.tracker.http.address 默认值：0.0.0.0:50060 说明：tasktracker的http服务器地址和端口

3、dfs.http.address 默认值：0.0.0.0:50070 说明：namenode的http服务器地址和端口

4、dfs.datanode.http.address 默认值：0.0.0.0:50075 说明：datanode的http服务器地址和端口

5、dfs.secondary.http.address默认值：0.0.0.0:50090 说明：辅助namenode的http服务器地址和端口

可以选择某一个网络接口作为各个datanode和tasktracker的ip地址（针对http和rpc服务器）。相关属性项包括 dfs.datanode.dns.interface和mapred.tasktracker.dns.interface，默认值都是default

分享到：

Apache+Tomcat集群 | hadoop杂记（二）

2012-05-03 15:52
浏览 1436
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论