一、系统环境:
Hadoop 0.20.2、JDK 1.6、Linux操作系统
二、使用背景
网上关于hadoop的集群配置,很多情况下,都是把namenode和secondnamenode部署在同一服务器上。为了降低风险,一个大的集群环境,最好是把这两个配置到不同的服务器上。
三、操作
要达到这要求,需要对conf/master、conf/hdfs-site.xml和conf/core-site.xml这三个配置文件进行设置。
1、conf/master文件:
hadoop的官网和大多网上的安装手册,都要求此文件配置namenode机器的IP或是名称。其实,master文件不决定哪个是namenode,而决定的是secondarynamenode(决定谁是namenode的关键配置是core-site.xml中的fs.default.name这个参数)。所以,这里直接写上作为secondnamenode的IP或机器名称(可以是集群中任一个datanode节点)就可以了。一行一个(可以配置多个secondnamenode)。
2、hdfs-site.xml:这个配置文件要改1个参数:
<property>
<name>dfs.http.address</name>
<value>hostIP:50070</value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
3、core-site.xml:这里有2个参数可配置,但一般来说我们不做修改。
fs.checkpoint.period表示多长时间记录一次hdfs的镜像。默认是1小时。fs.checkpoint.size表示一次记录多大的size,默认64M。
<property>
<name>fs.checkpoint.period</name>
<value>3600</value>
<description>The number of seconds between two periodic checkpoints.
</description>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
<description>The size of the current edit log (in bytes) that triggers
a periodic checkpoint even if the fs.checkpoint.period hasn't expired.
</description>
</property>
四、检查结果
配置完成之后,我们需要检查一下是否成功。
1、在运行secondarynamenode的机器上,运行命令jps查看是否存在secondarynamenode进程。如不存在则表示secondarynamenode的启动有异常。
2、如果存在,在查看对应的目录下是否有备份记录。有以下目录结构表示设置成功。
进入hdfs-site.xml文件中配置的fs.checkpoint.dir目录,运行以下命令:
-bash-3.2$ ll namesecondary/
drwxr-xr-x 2 analyzer analyzer 4096 11-03 17:28 current
drwxr-xr-x 2 analyzer analyzer 4096 09-10 01:20 image
-rw-r--r-- 1 analyzer analyzer 0 11-03 16:22 in_use.lock
drwxr-xr-x 2 analyzer analyzer 4096 11-03 16:28 previous.checkpoint
-bash-3.2$ ll namesecondary/current/
-rw-r--r-- 1 analyzer analyzer 4 11-03 17:28 edits
-rw-r--r-- 1 analyzer analyzer 602092 11-03 17:28 fsimage
-rw-r--r-- 1 analyzer analyzer 8 11-03 17:28 fstime
-rw-r--r-- 1 analyzer analyzer 101 11-03 17:28 VERSION
分享到:
相关推荐
2. "hadoop的namenode和secondnamenode分开部署在不同服务器.htm" - 这篇文档可能讲解了如何将Hadoop的NameNode(主节点)和Secondary NameNode(辅助节点)部署在不同的物理服务器上,以提高系统的可用性和稳定性。...
NameNode和SecondNameNode是Hadoop文件系统(HDFS)的关键组件,负责元数据管理和备份。JobTracker则负责任务调度和监控,DataNode存储数据并执行MapReduce任务。集群的硬件配置较高,如NameNode和SecondNameNode的...
首先,我们需要进行**服务器部署规划**。在这个例子中,我们有以下角色分配: - rhel052作为NameNode和JobTracker,负责Hadoop集群的元数据管理和任务调度。 - rhel061作为SecondNameNode,备份NameNode的数据。 - ...
数据中心集群由1台NameNode、1台SecondNameNode、1台JobTracker和100多台DataNode组成,总计超过100台高配置服务器,而实验室集群则包含10几台普通微型机。在硬件配置上,NameNode和SecondNameNode的内存不低于90GB...
机架感知策略,三者的作用(DateNode,NameNode,SecondNameNode)
Hadoop 主要由 NameNode(核心)、SecondNameNode、DataNode 组成。 Hadoop 在 Windows 上安装步骤: 1. 下载 JDK 1.8,并配置环境变量 JAVA_HOME=jdk 安装后的文件路径。 2. 在 PATH 中追加内容:JAVA_HOME/bin。...
SecondNameNode并非备用的NameNode,而是帮助NameNode定期合并fsimage和edits,生成新的检查点,减轻NameNode的压力。 DataNode是HDFS的工作节点,它们实际存储文件块,处理数据读写请求,并与NameNode保持通信,...
- 使用SecondNameNode定期备份NameNode的状态信息,以便在故障发生时快速恢复。 4. **数据倾斜问题解决**: - 通过调整MapReduce作业的分区策略来分散数据负载。 - 使用Combiner减少网络传输的数据量。 5. **...
在大数据领域,Hadoop是一个核心的分布式计算框架,它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是Hadoop中的分布式文件系统,它使用Java语言编写,设计目标是处理和存储海量数据,...
- 描述:定义文件系统的名称,通常包含 NameNode 的主机名和端口号。 - 示例:`fs.default.name=hdfs://namenode.example.com:9000` 2. **checkpoint 目录** (`fs.checkpoint.dir`): - 描述:定义 ...
Hadoop默认开放多个端口以提供Web用户界面(WebUI),如HDFS的NameNode(50070)、SecondNameNode(50090)、DataNode(50075)以及Backup/Checkpoint node(50105)。MapReduce的JobTracker(50030)和TaskTracker...
在Hadoop 3.x中,还提到了SecondNameNode的设计,它的作用是帮助NameNode维护文件系统的元数据,防止数据丢失。 此外,文章还展示了分布式存储访问系统的框架图,以及Map/Reduce处理流程图。这些图表有助于理解...
文档中还详细描述了HDFS的数据写入流程,说明了数据是如何在NameNode、SecondNameNode以及DataNode节点间流转的,以及数据在HDFS中的存储结构和副本策略。 此外,文档提到的数据安全和备份问题也是云计算平台设计中...
2. NameNode通常与JobTracker(在较早版本的Hadoop中)在一个节点启动,以协调任务调度和资源管理。在Hadoop 2.x版本中,JobTracker被YARN的ResourceManager替代。 3. HDFS的默认Block Size是128MB,这有助于提高...
在Hadoop生态系统中,Secondnamenode并非NameNode的备份,而是协助NameNode进行元数据管理的角色,它定期合并NameNode的编辑日志,以防日志过大导致性能下降。此外,Hadoop还涉及其他组件,如MapReduce用于分布式...
Secondnamenode虽然并不作为NameNode的直接备份,但其周期性的检查点操作对于维护系统的稳定性和数据一致性至关重要。 在搭建大数据平台时,其设计说明书将遵循一定的逻辑顺序和架构模式,从宏观的角度规划整个平台...