之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享,有一些朋友留言索要了dkhadoop安装包,不知道有没有去下载安装一探究竟。关于DKHadoop下载安装基本已经讲清楚了,这几天有点空闲把大快DKM大数据运维管理平台的内容整理了一些,作为DKHadoop相配套的管理平台,是有必要对DKM有所了解的。
DKM 是DKHadoop管理平台。作为大数据平台端到端Apache Hadoop 的管理应用,DKM 对 DKH 的每个部件都提供了细粒度的可视化和控制。通过DKM ,运维人员是可以提高集群的性能,提升服务质量,提高合规性并降低管理成本。
DKM 设计的目的是为了使得对于企业数据中心的管理变得简单和直观。通过DKM ,可以方便地部署,并且集中式的操作完整的大数据软件栈。该应用软件会自动化安装过程,从而减少了部署集群的时间。通过DKM 可以提供一个集群范围内的节点实时运行状态视图。同时,还提供了一个中央控制台,可以用于配置集群。总结DKM 能够提供的功能主要有以下几点:
-
自动化Hadoop 安装过程,大幅缩短部署时间;
-
提供实时的集群概况,例如节点,服务的运行状况;
-
提供了集中的中央控制台对集群的配置进行更改;
-
包含全面的报告和诊断工具,帮助优化性能和利用率;
基本功能:DKM的基本功能主要可以分为四大模块:管理功能,监控功能,诊断功能和集成功能。本篇我们就先来看以下管理功能:
1、批量部署
我们都知道Hadoop 本身是一个分布式的系统,因此在安装时,需要对每一个节点进行组件的安装,并且由于是开源软件,其安装过程相对比较复杂,Hadoop 每个组件都需要做很多的配置工作,这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署Hadoop 。 大大缩短了Hadoop 的安装时间,同时也简化了安装Hadoop 的过程。(DKHADOOP安装步骤请参考此前分享的文章)
自动化安装的过程如下:
-
安装环境准备,下载DKM 以及DKH 的安装文件,安装JDK,yum 等基本软件。
-
挑选一台节点,安装DKM ,用户只需要启动安装脚本即可,通常情况下几分钟就能够完成。
-
DKM 是一个web 应用,提供了基于浏览器的界面,用户可以通过浏览器可视化的进行DKH的安装部署。
-
通过DKM 界面,添加其他需要的安装的节点,选择要安装的Hadoop 组件,以及每个节点承担的角色,选择安装,DKM 会自动地将需要安装的软件分发到对应的节点,并完成安装。
-
当所有节点的软件都安装完成之后,DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点,批量化以及自动化。只需要在其中一个节点完成,其他节点都可以进行批量化的自动安装。
2、集群配置
(1)可视化参数配置界面
Hadoop 包含许多的组件,不同的组件都包含各种各样的配置, 并且分布于不同的主机之上。 DKM 针对这种情况提供了界面化的参数配置功能,并且能够自动的部署到每个节点。
(2)高可靠配置
DKM 对关键的组件使用HA部署方案,避免单点失效的发生,同时DKH 对于组件的异常错误提供了自动恢复处理,最大限度的保证服务的可靠性。
(3)HDFS 高可靠
在标准配置中,NameNode 是HDFS群集中的单点故障(SPOF)。每个群集都具有一个NameNode ,如果机器或进程变为不可用,群集整体将变为不可用,直到NameNode 在新主机上重新启动或上线。Secondary NameNode 不提供故障转移功能。 为了让“备用” NameNode 的状态与“活动”NameNode 在此实施中保持同步,两个节点均与一组名为JournalNode 的独立后台程序进行通信。由“活动”NameNode 执行任何Namespace 修改时,它会持续记录其中大部分JournalNode 的修改记录。 “备用”NameNode 能够从JournalNode 读取编辑操作,并不断监视它们以了解编辑日志发生的更改。当备用节点发现编辑操作时,它会将这些编辑应用于自己的Namespace 。在发生故障转移时,备用节点将确保首先从JournalNode 读取所有的编辑操作,然后才会将自己升级为“活动状态”。这确保了再发生故障转移之前完全同步Namespace 状态。
为了提供快速故障转移,备用NameNode 还需要拥有有关群集中的块位置的最新信息。为实现这一目的,DataNode 配置了这两个NameNode的位置,它们会将这块位置信息和检测信号发送给这两个NameNode。
一次只能有其中一个NameNode 处于活动状态,这一点对于HA群集的正常运行来说至关重要。否则,Namespace 状态会在两者之间快速出现分歧,从而导致数据丢失风险或其他不正确的结果。为了确保此属性并防止所谓的“大脑分裂状况”,JournalNode 一次只允许一个NameNode 成为写入程序。在故障转移过程中,要进入“活动”状态的NameNode 将接管JournalNode的写入角色,这会有效地阻止其它NameNode继续保持“活动”状态,使得新的“活动”NameNode可以安全地继续执行故障转移。
DKH 默认开启了HA . 用户不用担心此问题。
(4)YARN 高可靠
YARN ResourceManager(RM) 负责跟踪群集中的资源并安排应用程序(例如,MapReduce作业)。RM 高可用性(HA)功能以活动/待机 RM 对形式添加冗余,以删除此单点故障。此外,在从待机RM 到活动RM 进行故障转移时,应用程序可以从其上次检查点状态恢复; 例如,在MapReduce 作业中完成的map 任务不在后续的尝试中重新运行。这样可以在不对运行中的应用程序产生任何重要性能影响的情况下,处理以下事件:
计划外事件,如计算机崩溃。
计划内维护事件,如在运行ResourceManager的计算机上进行的软件或硬件升级。
RM HA 要求Zookeeper 和HDFS 服务处于运行状态。RM HA 通过活动-待机RM 对的方式实施。启动时,每个RM 处于待机状态;启动过程,但未加载状态。转换到活动状态时,RM会从指定的状态存储加载内部状态,并启动所有内部服务。 管理员(通过CLI)或通过集成的故障转移控制器(启用自动故障转移时)可促进转换为活动状态。
DKH 默认开启了Resource Manager HA 。用户不需要担心。
3、权限管理
对系统管理员,数据库管理员及其他管理员必须授予不同级别的管理权限。
相关推荐
5. **数据库与数据存储管理**:运维人员需要管理大数据平台中的各种数据库系统(如HBase、Cassandra),执行数据备份策略,进行日常维护,并进行性能调优。此外,理解不同存储技术的特性(如列式存储、对象存储)...
总结,HDFS通过其独特的架构和机制,成功解决了大数据存储和管理的挑战,提供了高可用性和可扩展性,是大数据运维面试中不可或缺的知识点。理解并掌握这些概念对于任何涉及Hadoop和大数据运维的职位都至关重要。
同时,他们在数据交换与集成、电力行业软件架构设计、大数据处理等领域积累了深厚的技术积累,如电能质量PQDF算法解析,这些都是他们实现高效运维管理的关键。 总的来说,大数据运维管理平台是保障企业信息系统安全...
本文探讨了在这样的背景下,如何通过物联网终端管理云平台实现大数据的运维工作。首先,文中描述了智能移动终端解决方案在多个行业的普及情况,尤其是在物流、新零售、医疗健康等领域。这些终端通常基于Android操作...
【大数据运维技术】\n\n在大数据运维领域,配置基础环境是至关重要的步骤,特别是对于Hadoop这样的分布式计算平台。...\n\n在实验环境下,Hadoop...理解并掌握这些知识点,对于提升大数据平台的稳定性和运维效率至关重要。
本项目“基于Echarts的可视化大屏大数据运维总览图”就是将Echarts的功能与大数据运维相结合,通过交互式的大屏展示,帮助运维人员快速理解系统状态,进行决策。 **1. Echarts详解** Echarts是一个基于SVG和Canvas...
山东蚁巡网络科技有限公司提出的解决方案是基于其“蚁巡”系列运维产品,这些产品已经在政府、企业、高校、军工等多个领域和国家级项目中得到广泛应用,显示出公司在运维工具研发、大数据运维管理和运维云平台建设...
"大数据运维"不仅关注数据的处理,还包括数据的生命周期管理。这包括数据的采集(例如使用Flume、Kafka等工具),存储(如Hadoop HDFS、Cassandra、MongoDB等分布式数据库),处理(MapReduce、Spark等计算框架),...
【大数据运维面试题解析】 1. HTTP与HTTPS的区别: - HTTPS比HTTP更安全,因为它通过SSL/TLS协议加密通信,防止数据被窃取或篡改。 - HTTPS需要CA(证书颁发机构)颁发的证书,通常需要付费,而HTTP则无需证书。 ...
【TIZA STAR大数据运维总览图模板】是专为大数据环境设计的一种综合监控和管理工具,它通过可视化的方式展示了大数据系统的运行状态,帮助运维人员高效地管理和维护大数据集群。这个模板结合了多种技术,包括前端...
智慧环保大数据运维平台和基于大数据的 IT 运维方案都是基于大数据技术的创新解决方案,它们能够帮助企业和环保部门更好地管理和应用数据,提高工作效率和数据精准度,降低成本和风险,提高企业的竞争力和环保事业的...
【基于大数据的智能运维管理系统研究与实现】 随着大数据时代的来临,企业IT架构的复杂性日益增加,运维管理工作面临着巨大的挑战。传统的运维模式已无法满足现代企业的需求,因此,基于大数据的智能运维管理系统...
本文主要讨论的是大数据运维平台的建设方案,旨在解决日益复杂的IT网络管理和运维难题。大数据运维平台的建设目标是提升运维效率,确保业务系统的稳定和安全,以及实现资源的全面集中化管理、资产配置管理、服务流程...
【大数据运维平台建设方案】 大数据运维平台的建设旨在...通过这些功能的实施,大数据运维平台将成为保障九寨沟景区智慧旅游大数据综合管理平台高效、稳定运行的重要工具,有效提升运维效率,降低风险,优化用户体验。
3. 大数据运维工程师可以在大数据平台的运维、开发和管理等方面具有很强的发展前景。 结论 大数据运维工程师是大数据领域中非常重要的一种职业,对大数据平台的运维保障、架构审核、业务监控等都具有重要的影响。...
综上所述,魅族大数据运维平台的实践充分展示了如何通过技术创新和规范化管理,解决大数据运维中的复杂问题,为大数据处理提供了一个高效、安全的解决方案。这一平台的成功实践,对于其他企业应对大数据挑战具有重要...
大数据平台运维架构实践是指通过统一的运维平台,提供大数据平台的运维解决方案,以提高大数据平台的稳定性、可靠性和安全性。本文将从大数据平台的架构、运维历程、监控告警、自动化等方面论述大数据平台运维架构...
阿里巴巴大数据运维实践 阿里巴巴大数据运维实践是一份关于大数据运维的解决方案,旨在解决复杂的数据处理问题,提高业务效率和运营效率。本实践方案涵盖了从数据采集、储存、处理到分析和可视化的整个数据处理流程...
大数据运维是针对大规模数据环境下的信息系统进行管理和维护的过程,旨在确保系统高效稳定运行,最大化信息系统的效能。运维工作主要包括监控系统状态、处理故障、优化性能和保障安全等多个方面。随着信息技术的快速...