Hadoop及子项目介绍
Hadoop是Apache的一个项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。
目前,整个Hadoop家族由以下几个子项目组成:
Hadoop Common
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。
Avro
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。
Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。
HBase
基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。
HDFS
分布式文件系统
Hive
hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。
MapReduce
实现了MapReduce编程框架
Pig
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
-------------------------------------------------------------------------------------------------------------------
作者:CNZQS|JesseZhang 个人博客:CNZQS(http://www.cnzqs.com)
版权声明:除非注明,文章均为原创,可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
--------------------------------------------------------------------------------------------------------------------
分享到:
相关推荐
Hadoop的子项目及其后续项目所用的名称也与其本身的功能多数相关,通常以动物的名字。一些小的组件,名称通常具有很好的描述性。比如:jobtracker是用于跟踪MapReduce作业的。从零开始构建一个网络搜索引擎是一个很...
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能...
Hadoop 子项目家族包括 HDFS、MapReduce 等。 HDFS(Hadoop File System)是 Hadoop 的核心组件之一,提供了一个可扩展的分布式文件系统,用于大型的、分布式的、大量数据进行访问的应用。HDFS 的设计特点有: 1. ...
Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两个组件共同构成了Hadoop分布式文件系统和数据处理模型的基础。 在分布式计算领域,Google是领先的公司之一,它的计算平台成为了后来类似开源项目...
### 基于Hadoop子项目Hive的云计算性能测试 #### 一、引言 在信息化时代,数据量的增长速度惊人,据IDC的一项预测显示,2006年全球的数据总量约为0.18ZB(1ZB=10亿TB),而在2011年这一数字已达到了1.8ZB。随着...
总之,对于Windows上的Hadoop开发,理解和配置winutils.exe及hadoop.dll至关重要。它们是连接Windows环境和Hadoop生态系统的关键桥梁,使得开发者能够在非Linux环境中充分利用Hadoop的功能。为了顺利进行Hadoop开发...
通过集成各个子项目(如HDFS、MapReduce、Mahout、MLLib等),企业可以构建起一个高效的数据分析平台,实现从数据采集、存储、处理到分析的全流程自动化。未来,随着技术的不断进步和发展,Hadoop及其生态系统将在更...
3. 集群资源管理器 - YARN(Yet Another Resource Negotiator):在Hadoop 2.0及以后的版本中,YARN作为资源调度和管理系统,负责管理集群的计算资源,为MapReduce和其他计算框架提供统一的资源管理和任务调度。...
13. **Windows上的Hadoop开发环境**:在Windows上开发HDFS项目,必须设置Hadoop开发环境,否则会出现错误。 14. **MapReduce的定义**:MapReduce是Hadoop的核心组件,提供了一种并行处理大数据的计算模型。 15. **...
这个工具通常位于Hadoop安装目录的`bin`子目录下,并且需要与`hadoop.dll`库文件配合工作。 `hadoop.dll`是Hadoop在Windows上的一个动态链接库文件,它是`winutils.exe`正常运行所必需的。这个库文件包含了Hadoop在...
`winutils.exe`通常位于Hadoop安装目录的`bin`子目录下,对于配置Hadoop环境和执行Hadoop命令至关重要。 在压缩包`winutils-master`中,我们可以推测这可能是一个包含`winutils.exe`源码的项目,或者是对Windows...
本文将详细介绍如何解决在Eclipse中开发Hadoop程序时遇到的`winutils.exe`错误,并提供所需的关键文件,如`hadoop.dll`和`winutils.exe`。 首先,`winutils.exe`是Hadoop在Windows操作系统中执行某些核心功能的必备...
- **Hadoop生态系统**:Hadoop不仅包括HDFS和MapReduce两大核心组件,还包括了其他多个重要的子项目和技术,形成了一个完整的生态系统。 - **包结构及依赖**:Hadoop的包结构非常复杂,这主要归因于HDFS提供了统一的...
2. Hadoop相关子项目:包括但不限于Hive、Pig、HBase等,这些项目扩展了Hadoop的功能,提供了对特定类型数据的处理能力。 3. 数据集成工具:例如Sqoop和Flume,用于在Hadoop与外部数据源之间高效地传输数据。 4. ...
在Hadoop生态系统中,Java是主要的编程语言,用于与HDFS(Hadoop Distributed File System)进行交互。本文将深入探讨使用Java管理HDFS文件和文件夹的关键知识点,特别是基于Hadoop 2.4版本。 首先,理解HDFS的基础...
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目之一,它是一个高度容错的系统,适合在廉价硬件上运行。HDFS有高吞吐量的特点,能提供对应用数据的高并发访问。HDFS有其特定的应用场景,但对于低延迟数据访问...
内容全面,对hadoop整个技术体系进行了全面的讲解,不仅包括hdfs和mapreduce这两大核心内容,而且还包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等与hadoop相关的子项目的内容。实战性强,为各个知识点...