`

Hadoop组成简介

阅读更多

Hadoop是Apache的一个项目(它是包含了很多子项目的集合,见下图),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS.
HBase是Hadoop的其中一个子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现。它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,
    Google BigTable的paper: 
http://labs.google.com/papers/bigtable-osdi06.pdf



 

目前,整个Hadoop家族由以下几个子项目组成:

Hadoop Common
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

Avro
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

HBase
基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。

HDFS
分布式文件系统

Hive
hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

MapReduce
实现了MapReduce编程框架

Pig
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

分享到:
评论

相关推荐

    hadoop简介Word版

    Hadoop架构主要由两大部分组成:HDFS和MapReduce引擎。 - **HDFS**:负责数据的存储和管理,数据被分割成块并复制到多个DataNode上,以提高数据的可用性和可靠性。NameNode作为HDFS的主控中心,管理文件系统名称...

    Hadoop各个组件大概介绍

    Hadoop生态系统组件介绍 Hadoop是一个大数据处理的开源框架,由于其强大的数据处理能力和高扩展性,已经成为大数据处理的标准解决方案。Hadoop生态系统中有多种组件,每个组件都有其特点和功能,本文将对Hadoop生态...

    一、Hadoop简介 和 Hadoop结构介绍

    1、Hadoop 是什么 Hadoop是现阶段数据开发的基础,Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的...2、Hadoop 组成结构 HDFS :分布式文件储存系统 Yarn :资源管理和调度系统 MapReduce :分

    hadoop介绍

    #### 一、Hadoop简介 **Hadoop** 是一个能够对大量数据进行分布式处理的软件框架,它最初由Nutch和Lucene之父Doug Cutting于2006年创建。有趣的是,“Hadoop”这个名字来源于Doug Cutting的儿子对他玩具大象的一种...

    Hadoop组件简介共5页.pdf.zip

    这个压缩包文件“Hadoop组件简介共5页.pdf.zip”很可能包含了对Hadoop生态系统的基础介绍,特别是其核心组件。虽然“赚钱项目”这个子文件名可能与Hadoop无关,但我们可以专注于Hadoop的相关知识。 Hadoop的核心由...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。 Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发...

    hadoop简介ppt

    Hadoop简介 Hadoop 是一个由 Apache 软件基金会开发的开源大数据处理框架,主要用于存储和处理大规模数据。Hadoop 的核心组件包括 HDFS、MapReduce、HBase 和 ZooKeeper。 1. HDFS(Hadoop Distributed File ...

    Hadoop HDFS原理分析,技术详解

    HDFS的架构主要由四个部分组成:HDFS Client、NameNode、DataNode和SecondaryNameNode。HDFS Client是客户端,负责将文件切分成块,并与NameNode和DataNode进行交互。NameNode是主节点,负责管理HDFS的名称空间、...

    hadoop2.6.0插件+64位winutils+hadoop.dll

    它由两个主要组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS提供了高容错性的文件存储系统,而MapReduce则用于处理和分析这些数据。 Winutils是Hadoop在Windows操作系统上的一个辅助工具集,...

    Hadoop3.1.3.rar

    1. **Hadoop架构**:Hadoop由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能够将大型数据集分布在多台廉价服务器上,而MapReduce是处理这些数据的编程模型,...

    hadoop2.7.4 hadoop.dll包括winutils.exe

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要由HDFS(Hadoop Distributed File System)和MapReduce两大部分组成,旨在提供一种可靠、可扩展、高效的数据处理和存储解决方案。在标题中提到的...

    hadoop3.3.3-winutils

    Hadoop3.x在组成上没有变化Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 (1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每...

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe

    总之,hadoop.dll、hadoop.exp和winutils.exe是Hadoop在Windows平台上的关键组成部分,它们共同确保了在64位系统上实现Hadoop的功能和调试能力。理解和掌握这些工具的使用,将有助于你在Windows环境下更有效地开发和...

    hadoop.dll & winutils.exe For hadoop-3.0.0

    Hadoop的核心由两个主要部分组成:Hadoop Distributed File System (HDFS)和MapReduce。HDFS是分布式文件系统,而MapReduce则是用于处理和生成大数据集的编程模型。 1. **hadoop.dll**: 这是在Windows操作系统上...

    hadoop2.8.1+hadoop+winutils编译包

    它主要由两个关键部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,可以跨多台服务器存储和处理大规模数据;MapReduce则是一种编程模型,用于并行处理和分析这些数据。 ...

    hadoop config 配置文件

    Hadoop配置文件是这个系统的核心组成部分,它们定义了Hadoop集群的行为、性能和稳定性。在这个主题中,我们将深入探讨Hadoop配置文件的各个方面,以及如何有效地管理和优化它们。 1. **Hadoop配置结构** Hadoop的...

    hadoop-2.4.1版本大数据

    Hadoop的核心由两个主要部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,用于存储大量数据;而MapReduce则是一种编程模型,用于大规模数据集的并行计算。 二、Hadoop ...

    Hadoop构建数据仓库实践1_hadoop_

    Hadoop主要由两个关键部分组成:HDFS(Hadoop Distributed File System)和MapReduce。HDFS是分布式文件系统,能够跨多台服务器存储和管理大量数据,提供高容错性和高可用性。MapReduce则是一种编程模型,用于大规模...

Global site tag (gtag.js) - Google Analytics