`

如何设计hadoop架构

 
阅读更多

 

 

0 脑子里要有货:

 

   a)这个框架是什么东西
   b) 这个架构的特点

   c) 这个框架适用于哪些业务场景,是基于何种具体问题被提出来的
   d) 框架之间的搭配

   e) 脑子中有一套设计架构,不合适业务的时候知道根据b) c)去选择哪个框架来替代

 

平时主动思考如果你出去面试, 面试官问你:(培养创造性意识 不要一直在ctrl界混)

如果让你设计分布式计算 存储框架,你应该考虑哪些点??

 

 

 

1 如下是离线处理架构设计:

 

1.0) 图:



 

 

 1.1) 解说:

 

a) 每一个框架都要分布式部署,解决 1)单点 2)负载均衡问题

b) zookeeper使用说明:

因为zookeeper分布式下,挂掉哪个节点都不会对整个集群造成任何影响,而hdfs集群 hive集群 hbase集群则或多或少都会对别的节点造成影响,因此zookeeper最适合做配置管理,和个框架之间相互连接这种工作。

如果集群在5-7台以上的话,zookeeper至少分配3或者5或者7个节点(奇数个)。
zookeeper和Hadoop是没有关系的因此放在哪台机器上都行,但是考虑到Hadoop集群会跑任务,

因此建议zookeeper节点放在负载低的节点上

 

c) flume使用说明:

节点部署在业务服务器上,好处在于:作为代理可以直接和业务数据库打交道,flume节点要看业务节点多少而定,但是没必要做到一对一, 一个flume节点可以对应多个业务节点,直接部署在业务数据库服务器上就行

 

d) hbase使用说明:

 hbase的数据存在hdfs上,所以和hdfs主从式配置保持一致就行了,好处在于hbase可以就近读取hdfs的数据

 

e) hbase使用说明:

hive作为客户端,可以随便放在一台机器上, hive经常被作为客户端来使用,当然hive可以作为服务端使用,但是使用频率不高。

 

 

 

c) flume使用部署图:

 

 

 

 2 如下是实时处理架构设计:

 

 

离线计算 + 实时计算 + 消息队列 + 高速缓存 =   实时系统

 



 

 

  • 大小: 46.8 KB
  • 大小: 49.5 KB
  • 大小: 86.5 KB
分享到:
评论

相关推荐

    Hadoop架构设计文档

    ### Hadoop架构设计关键知识点解析 #### 一、Hadoop架构概述 - **定义与愿景:**Hadoop被定义为一种灵活且可用的架构,它支持大规模的数据处理和计算任务在网络中的商品硬件上运行(“Flexible and available ...

    计算机-后端-Hadoop架构在政府采购系统中的研究与应用.pdf

    本文研究了Hadoop架构在政府采购系统中的应用,设计和实现了基于Hadoop平台的政府采购系统。结果表明,Hadoop架构能够满足政府采购系统的需求,提高系统的效率和可靠性。未来,政府采购系统可以继续使用Hadoop架构来...

    Hadoop集群架构搭建分析

    Hadoop 集群架构搭建分析是指设计和搭建一个高效、可靠、可扩展的 Hadoop 集群环境,以满足大数据处理和分析的需求。本文将从概述、环境准备、环境搭建三个方面对 Hadoop 集群架构搭建进行分析。 一、概述 Hadoop ...

    Netflix基于AWS的大数据平台Hadoop架构解析.docx

    【Netflix基于AWS的大数据平台Hadoop架构解析】 Netflix是一个全球知名的在线流媒体服务平台,其背后的大数据处理能力至关重要。为了支持海量数据的分析和决策,Netflix构建了一个基于Amazon Web Services (AWS)的...

    基于Hadoop架构的国产化分布式集群平台.pdf

    基于Hadoop架构的国产化分布式集群平台的构建,不仅是一种技术上的革新,更是适应大数据时代需求的必然选择。 Hadoop是一种开源的分布式计算框架,其核心组件是Hadoop分布式文件系统(HDFS)。HDFS基于主从(Master...

    详解Hadoop核心架构HDFS

    ### 详解Hadoop核心架构HDFS #### HDFS体系架构概览 Hadoop作为一个领先的开源分布式计算框架,其核心组成部分之一便是Hadoop Distributed File System(HDFS),它为大规模数据处理提供了高效、可靠且可扩展的...

    基于Hadoop架构的分布式计算和存储技术及其应用.pdf

    Hadoop架构的核心组件包括HDFS和MapReduce。HDFS是一个分布式文件系统,它具有高容错性特点,允许数据跨多个存储设备进行冗余存储,即使个别节点发生故障,数据也不会丢失。HDFS的设计目标是支持大文件的存储,能够...

    hadoop大数据课程设计

    接着,会接触到Hadoop的基础知识,包括HDFS的架构和MapReduce的工作流程,理解如何将爬取到的数据导入Hadoop环境。 在实际操作中,学生们可能会遇到数据清洗、去重、异常处理等问题,需要运用Python的pandas库进行...

    基于Hadoop架构的混合型DDoS攻击分布式检测系统.docx

    接着,本文详细介绍了基于Hadoop架构的混合型DDoS攻击分布式检测系统的设计和实现。该系统采用Hadoop平台,包括分布式文件系统HDFS和编程模型MapReduce。HDFS文件系统包括NameNode、DataNode和Client模块, ...

    Hadoop架构下的大数据安全存储技术研究.docx

    本文将深入探讨Hadoop架构在大数据处理中的应用,以及如何在Hadoop环境下实现大数据的安全存储。 首先,Hadoop的基本概念包括其核心的两个组件:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种...

    Hadoop 2.0基本架构和发展趋势

    ### Hadoop 2.0基本架构和发展趋势 #### 什么是Hadoop 2.0? Hadoop 2.0是Apache Hadoop的一个重大升级版本,它引入了YARN(Yet Another Resource Negotiator)作为其核心组件之一,以解决Hadoop 1.x版本中...

    hadoop架构十年发展与应用实践.pdf

    《Hadoop架构十年发展与应用实践》是一本深入剖析Hadoop技术演进及实际应用的著作。这本书详尽地阐述了Hadoop自2006年诞生以来的十年间,如何从一个简单的分布式文件系统发展成为大数据处理的核心框架,以及在各行业...

    Netflix基于AWS的大数据平台Hadoop架构解析.pdf

    【Netflix基于AWS的大数据平台Hadoop架构解析】 Netflix是一个全球知名的在线流媒体服务平台,其背后依赖着庞大的大数据处理系统。为了应对不断增长的数据量和复杂的数据分析需求,Netflix选择了Amazon Web ...

    Hadoop分布式文件系统:架构和设计要点

    ### Hadoop分布式文件系统:架构和设计要点 #### 前提和设计目标 Hadoop分布式文件系统(HDFS)的设计初衷是为了满足大数据处理的需求,尤其是针对那些需要高吞吐量而非低延迟访问的应用程序。以下几点是HDFS设计...

    Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理

    《Hadoop技术内幕:深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是IT领域的经典之作,专门探讨了Hadoop的核心组件——Hadoop Common和HDFS(Hadoop Distributed File System)的设计理念、架构及其背后的...

    hadoop技术内幕 深入解析mapreduce架构设计与实现原理

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和...

    计算机-后端-Hadoop架构下近红外光谱大数据安全机制.pdf

    在当前的IT行业中,大数据处理已经成为一个至关重要的领域,特别是在Hadoop架构下,它为海量数据的存储和分析提供了高效且可扩展的解决方案。本文主要关注的是如何在Hadoop架构下确保近红外光谱大数据的安全性。 ...

Global site tag (gtag.js) - Google Analytics