Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。
Apache Hadoop
Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见:http://hadoop.apache.org/
Apache Ambari
Ambari是一个对Hadoop集群进行监控和管理的基于Web的系统。目前已经支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等组件。详细参见:http://ambari.apache.org/
Apache Cassandra
Cassandra是一个分布式的NoSQL数据库。它基于multi-master模式,无单点失败,具有可扩展性。最早由Facebook开发用于存储收件箱等简单格式数据,后开源,被用于Twitter等知名网站。详细参见:http://cassandra.apache.org/
Apache Hive
Hive是 一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL一样的查询语言HiveQL来管理这些数据。详细参见:http://hive.apache.org/
Apache Pig
Pig是一个基于Hadoop的大数据分析平台,它提供了一个叫PigLatin的高级语言来表达大数据分析程序。详细参见:http://pig.apache.org/
Apache Avro
Avro是一个数据序列化系统。它提供了丰富的数据结构类型,快读可压缩的二进制数据格式,存储持久数据的文件容器,远程过程调用等。详细参见:http://avro.apache.org/
Apache Chukwa
Chukwa是一个用于监控大型分布式系统的的数据采集系统。它构建于Hadoop的HDFS和Map/Reduce框架之上,包含了一系列用于数据监控,分析和展示的灵活的强大工具集。它为日志系统提供了一整套解决方案。详细参见:http://chukwa.apache.org/
Apache Drill
Drill是一个对大规模数据集进行交互式分析的分布式系统。它是Google的Gremel的开源实现。详细参见:http://incubator.apache.org/drill/
Apache Flume
Flume是一个高可靠的分布式海量日志采集,聚合和传输系统。它来源于Cloudera开发的日志收集系统。详细参见:http://flume.apache.org/
Apache HBase
HBase是一个分布式的,面向列的数据库。它基于Hadoop之上提供了类似BigTable的功能。详细参见:http://hbase.apache.org/
ApacheHCatalog
HCatalog是基于Hadoop的数据表和存储管理服务,提供了更好的数据存储抽象和元数据服务。详细参见:https://hive.apache.org/hcatalog/
ApacheMahout
Mahout是一个机器学习领域的经典算法库,提供包括聚类,分类,推荐过滤,频繁子项挖掘等。详细参见:http://mahout.apache.org/
ApacheOozie
Oozie是一个工作流调度系统,用于管理Hadoop里的job。它可以把多个Map/Reduce作业组合到一个逻辑工作单元来完成指定目标。详细参见:http://oozie.apache.org/
Apache Sqoop
Sqoop是一个Hadoop和关系型数据库之间的数据转移工具。可将关系型数据库中的数据导入到Hadoop的HDFS中,也可将HDFS中的数据导进到关系型数据库中。详细参见:http://sqoop.apache.org/
ApacheZooKeeper
ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供包括配置维护,名字服务,分布式同步和组服务等功能。Hadoop的管理就是用的ZooKeeper。详细参见:http://zookeeper.apache.org/
ApacheGiraph
Giraph是一个高可伸缩的迭代式图处理系统。它现在用于分析Facebook中的用户的社交关系。Giraph相当于Google图处理架构Pregel的开源版本。详细参见:http://giraph.apache.org/
ApacheAccumulo
Accumulo是一个可靠的,可伸缩的,高性能排序分布式的Key-Value存储解决方案。它基于Google的BigTable设计思路。详细参见:http://accumulo.apache.org/
Apache S4
S4是一个可扩展的,分布式的流数据实时处理框架,最早由Yahoo开发并开源。与Twitter的Storm类似。详细参见:http://incubator.apache.org/s4/
Apache Thrift
Thrift是一个跨语言的服务开发框架。用它可让你的服务支持多种语言的开发,并可用代码生成器对它所定义的IDL定义文件自动生成服务代码框架。它最早由Facebook开发并开源出来。 详细参见:http://thrift.apache.org/
最后,得提一下Apache Nutch开源网络爬虫系统。Hadoop最早是为Nutch服务而诞生的,即为大规模的网络爬虫系统提供分布式存储和计算服务。
分享到:
相关推荐
是我们的开源工作,旨在增强Hadoop生态系统的现有数据保护功能,以应对这些挑战,并将代码贡献给Apache。 众所周知,Apache Hadoop生态系统的核心是: Hadoop Common:一组共享库 HDFS:Hadoop文件系统 MapReduce...
《Pro Apache Hadoop》是一本深入探讨Apache Hadoop生态系统的专业书籍,旨在为读者提供全面且深入的Hadoop知识。Hadoop是大数据处理领域的重要框架,由Apache软件基金会开发,以分布式计算为核心,实现了对海量数据...
"Apache Hadoop 生态系统发展概述" Apache Hadoop 生态系统自2006年以来经过了快速发展,Hadoop 的创始人 Arun Murthy 在 Hortonworks 的演讲中回顾了 Hadoop 的发展历程。从早期的 NHDFS 和 MapReduce 到现在的 ...
Hadoop生态系统的不断发展和扩展,引入了许多其他项目,如YARN(用于资源管理和调度)、Tez(优化MapReduce执行效率)、Spark(提供内存计算,加速处理速度)等,进一步完善了大数据处理的基础设施。这些项目相互...
Apache Hadoop YARN,全称为Yet Another Resource Negotiator(另一种资源协调器),是Apache Hadoop生态系统中的核心组件,负责管理和调度Hadoop分布式计算环境中的资源。YARN的引入旨在解决早期Hadoop MapReduce...
Apache Ambari 是一款强大的开源工具,专门设计用于简化Apache Hadoop生态系统的集群管理与监控。它通过一个直观的Web界面提供了丰富的功能,使管理员能够轻松地供应、配置、管理和监控Hadoop集群。Hadoop在这里指的...
本项目为Apache Hadoop生态系统新增组件Apache Kudu的设计源码,致力于完善Hadoop存储层,实现针对快速数据的快速数据分析。源码包含2222个文件,涵盖多种编程语言,如C、Java、Shell、Python、Scala、JavaScript、...
文章标题《Hadoop at 10-the History and Evolution of the Apache Hadoop Ecosystem》和描述“ArchSummit”提示本文内容可能与Apache Hadoop生态系统的发展历史、现状以及未来展望相关,且很可能是在某个架构师峰会...
Apache Ranger 是一个强大的安全管理框架,特别为Apache Hadoop生态系统设计,旨在提供集中式的授权和审计功能。这个框架允许管理员精细地控制对Hadoop组件,包括HDFS、YARN、Hive、HBase等数据访问的权限,从而确保...
总结来说,Apache Hadoop 生态系统的组件提供了丰富的工具来应对各种实时和准实时数据处理需求。根据具体业务场景选择合适的技术组合,可以有效地处理大规模数据流,并实现高效的数据洞察。通过深入理解这些架构模式...
在这个“Apache Hadoop基于开源监控模板大全”中,我们关注的是如何使用它们来监控Hadoop生态系统中的组件,如Hadoop本身、Zookeeper以及HBase。 首先,JMX(Java Management Extensions)是Java平台提供的一种标准...
Hadoop生态系统支持多种输入输出格式和数据处理方法,这使得它能够灵活地适应各种不同的数据处理场景。 **8. Hadoop程序测试(Testing Hadoop Programs)** 第八章专注于如何在Hadoop环境中进行测试,包括单元测试...
### Hadoop生态系统学习 #### Hadoop概述 Hadoop是由Apache基金会开发的一款开源分布式计算框架,旨在简化大规模数据的处理过程。作为一个分布式系统的基础架构,Hadoop不仅能够支持海量数据的存储,还能高效地进行...
在这个架构中,Apache Hadoop 生态系统的多个组件协同工作,以满足不同类型的实时和近实时数据处理需求。 首先,我们要理解四种主要的流处理模式: 1. **流采集**:此阶段的目标是将数据低延迟地引入系统,如HDFS...
### 第1周 Hadoop生态系统及版本演化 #### 日志系统 **日志系统**是互联网企业不可或缺的一部分,它主要用于收集用户的交互数据,并基于这些数据进行分析以提升用户体验、优化产品功能或提供更精准的个性化服务。...
Hadoop生态系统是由Apache软件基金会开发的一个开源框架,用于存储和处理大数据。该生态系统是由多个组件构成的,每个组件都有其独特的功能和用途,共同为大数据的存储、处理、分析提供了一个全面的解决方案。以下是...
2. **可扩展性**:Hadoop生态系统支持横向扩展,这意味着可以通过简单地增加节点来提高系统的处理能力,而无需对现有架构进行重大更改。 3. **灵活性**:Hadoop不仅适用于批量处理任务,还可以通过集成其他组件...
### Hadoop生态系统基本介绍 #### 一、Hadoop发展历程及各组件概述 ##### 1.1 课程简介 - **课程目标**:本课程旨在帮助学员理解Hadoop的发展历程及其在大数据处理领域的地位,并深入探讨Hadoop生态系统的各个...
综上所述,Apache Hadoop 不仅是一个功能强大的数据处理框架,还是一个不断发展壮大的生态系统,为解决大数据挑战提供了有力的支持。随着技术的进步和应用场景的拓展,Hadoop 的作用将越来越重要。