Namenode的工作特点
Namenode始终在内存中保存metedata,用于处理“读请求”
到有“写请求”到来时,namenode会首先写editlog到磁盘,成功返回后,才会修改内存,并且向客户端返回
Hadoop会维护一个fsimage文件,也就是namenode中metedata的镜像,但是fsimage不会随时与namenode内存中的metedata保持一致,而是每隔一段时间通过合并editlog来更新内容。Secondary namenode就是用来更新fsimage的。
secondarynamenode的工作特点
1、secondarynamenode不是namenode的备份。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。
2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到secondarynamenode中所照快照的状态,这就意味着集群的数据会或多或少的丢失和一些宕机时间,并且将secondarynamenode作为重要的namenode来处理,这就要求,尽量不要将secondarynamede和namenode放在同一台机器上。
secondary namenode的工作流程
Secondary namenode的主要工作流程有:1) 通过http定时从namenode 下载元数据(edits 和 fsimage) 2) 合并数据包括 edits 和 fsimages 产生新的元数据 fsimage 。这个fisimage 就是下载元数据的checkpiont 3)在本地保存
4)Secondary将新的fsimage发回给primary,清空 namenode 上的edits . 5) 定时重复 1),周而复始
什么时候checkpiont
fs.checkpoint.period 指定两次checkpoint的最大时间间隔,默认3600秒。
fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M
这个工作过程与Oracle 数据库的工作过程基本一样。
相关推荐
4. **备份与恢复**: - SecondaryNameNode保存的fsimage是NameNode的重要备份。如果NameNode出现故障,可以使用SecondaryNameNode上的最新fsimage和edits来恢复NameNode的状态,确保服务的连续性。 5. **优化...
如果从节点上还部署了SecondaryNamenode,还需要启动Hadoop-HDFS-SecondaryNamenode服务。 2. 故障判断与处理: 当怀疑节点出现问题时,应首先在主节点上通过命令`./%esensoft-petabase/sbin/petabase-service-...
4. 检查点触发条件: - **定时触发**:SecondaryNameNode会按照预设的时间间隔自动请求执行检查点。 - **文件大小触发**:当Edits文件达到一定大小(例如,配置参数fs.checkpoint.size的值)时,NameNode会触发...
- SecondaryNameNode:周期性地从NameNode接收文件系统的快照,为文件系统状态提供检查点,并清理任务。 以上知识点覆盖了大数据技术面试中可能遇到的关于Hadoop的诸多问题,包括基础知识、生态系统组件、安装配置...
- **查看日志**:通过查看 SecondaryNameNode 的日志文件 `/var/log/hadoop-hdfs/hadoop-cmf-hdfs-SECONDARYNAMENODE-test1.log.out`,发现有错误日志记录。 - `2017-03-09 15:20:45,893 ERROR org.apache.hadoop....
- SecondaryNameNode: 用于辅助NameNode,主要作用是合并编辑日志,减轻NameNode重启时的压力,但并不能在NameNode故障时接管其工作。 2. HDFS (Hadoop Distributed File System) - 默认情况下,HDFS的Block Size...
例如,在示例中,我们看到了多个以`hadoop-hadoop-namenode-Master`和`hadoop-hadoop-secondarynamenode-Master`命名的日志文件,这些文件分别对应NameNode和SecondaryNameNode服务的日志。 在日志分析时,特别是...
4. HDFS配置文件: - fs.default.name的值在core-site.xml中定义,指定了HDFS的默认名称节点地址。 - hdfs-site.xml用于配置HDFS的具体参数。 5. HDFS特性: - HDFS相对于其他分布式系统特有的特点是高吞吐量和...
- SecondaryNameNode:协助NameNode定期合并编辑日志,优化启动过程。 - DataNode:存储数据,执行数据块读写操作。 - ResourceManager (JobTracker):负责任务调度和资源管理。 - NodeManager (TaskTracker):...
4. **NameNode的高可用(HA)**: - 为了解决单点故障问题,Hadoop 2引入了NameNode的高可用性配置。这是通过配置两个NameNode,一个处于活跃状态,另一个处于待命状态来实现的。当活跃的NameNode宕机时,可以快速...
4. SecondaryNameNode载入FSImage文件,并回放编辑日志,将所有的变更合并到FSImage中。 5. 将新的FSImage文件压缩后写入磁盘,并将该文件拷贝到namenode。 6. namenode将拷贝过来的FSImage文件重新命名,等待下一次...
4. "Hadoop"是指核心的分布式计算框架,包括HDFS和MapReduce,而"Hadoop生态系统"则包含了Hadoop及其周边的众多工具和服务,如Zookeeper、Flume、Hbase、Hive、Sqoop等,它们共同构建了一个完整的数据处理解决方案。...
4. **HDFS默认Block Size**: - HDFS的默认Block Size大小为128MB或64MB,这取决于不同的Hadoop版本。 5. **集群瓶颈**: - 在Hadoop集群中,最常见的瓶颈通常是磁盘I/O,因为大量的数据读写操作需要快速的存储...
4. **Hadoop的作者**: - Hadoop的主要作者是Doug Cutting,他最初为解决Yahoo!的海量数据处理问题而开发了这个项目。 5. **HDFS的默认Block Size**: - HDFS的默认Block Size可以根据实际需求进行配置,但在...
4. **集群瓶颈**: - **磁盘I/O**往往是集群性能的瓶颈之一,特别是在处理大量数据读写操作时。优化磁盘性能可以显著提升整体效率。 5. **配置机架感知**: - **机架感知**是指Hadoop能够感知到不同DataNode所在...
4. HDFS块大小的调整 在HDFS中,块大小是影响数据存储和管理的关键参数。文档中介绍了如何通过Hadoop的WEB监控管理界面查看当前的块大小,并通过修改hdfs-site.xml文件中的dfs.block.size属性来改变它。这个实验演示...
localhost: starting secondarynamenode, logging to /home/wys/Documents/hadoop-1.0.4/libexec/../logs/hadoop-root-secondarynamenode-ubuntu.out starting jobtracker, logging to /home/wys/Documents/hadoop-...
DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager NodeManager 3. 配置集群 (1)核心配置文件 配置core-site.xml (2)HDFS配置文件 配置 hadoop-env.sh 配置 hadoop-site.xml...
| SecondaryNameNode | 172.15.0.4 | SecondaryNameNode | | DataNode01 | 172.15.0.5 | DataNode & NodeManager | | DataNode02 | 172.15.0.6 | DataNode & NodeManager | | DataNode03 | 172.15.0.7 | DataNode & ...