`
javababy1
  • 浏览: 1226373 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Apache Hadoop 项目介绍

阅读更多

ApacheHadoop 项目开发的开源软件提供了可靠、可伸缩、分布式的计算。它是Google类似技术的开源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。

为什么要开发这样的系统呢?“When data exists in this quantity (terabit/day or petabit/day), one of the processing limitations is that it takes a significant amount of time to move the data. Apache Hadoop has emerged to address these concerns with its unique approach of moving the work to the data and not the other way around.” 简单翻译就是,当数据量非常庞大的时候,移动数据时间也非常庞大。为了处理这个挑战,Hadoop采用将数据处理工作移动到数据处而不是反向移动的方式。

Hadoop 包括如下的子项目:

  • Hadoop Common : 项目共用软件包
  • Chukwa : 数据收集系统以管理大型分布式系统
  • HBase : 可伸缩、分布式、结构化数据库
  • HDFS : 分布式文件系统
  • Hive : 数据仓库以提供数据整合以及ad hoc查询
  • MapReduce : 分布式大型数据处理软件框架
  • Pig : 数据流语言以及平行化执行框架
  • ZooKeeper : 为分布式应用程序提供高性能协调服务

Hadoop的工作原理可以用下面的图简单描述:Hadoop

还有很多基于Hadoop开发的项目:

如果你想进一步了解Hadoop,《Hadoop权威指南(中文版)》将是你第一选择了,它是Hadoop的开发者写的,所以相当的权威性。Hadoop

分享到:
评论

相关推荐

    Pro Apache Hadoop, 2nd Edition

    这本书的第二版是针对Hadoop 2.x版本的最新资料,它不仅详细介绍了Hadoop平台,还提供了大量实用案例和最佳实践,帮助读者在实际项目中实现和应用大数据技术。通过深入理解Hadoop的工作原理和设计决策,读者还将获得...

    Apache Hadoop (hadoop-3.3.3.tar.gz)

    Apache Hadoop (hadoop-3.3.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...

    Apache Hadoop Goes Realtime at Facebook

    3. **社区支持与成熟度**:Hadoop作为一个成熟的开源项目,拥有庞大的开发者社区和丰富的文档资料,这为Facebook提供了强有力的支持。 #### 五、面临的挑战与未来发展方向 1. **日常运维**:尽管Hadoop和HBase提供...

    Java-org.apache.hadoop

    Java-org.apache.hadoop是Apache Hadoop项目的核心组件,它在分布式计算领域扮演着至关重要的角色。Hadoop是由Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据。它设计的初衷是为了支持数据密集型...

    Apache Hadoop十周岁:展望前方.pdf

    Apache Hadoop是一个开源框架,主要用于分布式存储和计算大数据。自2004年诞生以来,Hadoop已经走过了一个十年的历程,经历了多个关键的发展阶段。2006年,Hadoop从Google的GFS(Google文件系统)和MapReduce启发,...

    Apache Hadoop (hadoop-3.2.3.tar.gz)

    Apache Hadoop (hadoop-3.2.3.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...

    Apache Hadoop

    ### Apache Hadoop 知识点详解 #### 一、Apache Hadoop 概述 Apache Hadoop 是一个由 Apache Software Foundation 开发的开源软件框架,它主要用于处理和存储大规模数据集。该框架支持分布式计算,能够跨越多台...

    Apache hadoop-3.1.0 版本

    Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...

    Apache Hadoop (hadoop-3.2.3-src.tar.gz)

    Apache Hadoop (hadoop-3.2.3-src.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到...

    Apache Hadoop (hadoop-3.3.3-src.tar.gz)

    Apache Hadoop (hadoop-3.3.3-src.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到...

    Apache Hadoop (hadoop-3.2.2.tar.gz)

    Apache Hadoop (hadoop-3.2.2.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...

    Apache Hadoop (hadoop-2.10.1.tar.gz)

    Apache Hadoop (hadoop-2.10.1.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数...

    Apache Hadoop (hadoop-3.3.1.tar.gz)

    Apache Hadoop (hadoop-3.3.1.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千...

    云计算之Apache Hadoop介绍 共133页.pdf

    Hadoop是一个开源项目,它基于Java编程语言,遵循Apache软件基金会的许可证,允许全球各地的开发者和企业自由地使用、修改和分发源代码。这个133页的文档很可能是对Hadoop的深入介绍,涵盖了从基础概念到实际应用的...

    用于与Apache Hadoop的同步hadoop-assemblies.rar

    `hadoop-assemblies`通常指的是Apache Hadoop项目的打包文件,包含了运行Hadoop生态系统中各种服务和应用程序所需的依赖集合。这个压缩包可能包含Hadoop的二进制文件、配置文件、库和其他资源,使得用户能够更方便地...

    Apache Hadoop (hadoop-3.3.1-aarch64.tar.gz)

    Apache Hadoop (hadoop-3.3.1-aarch64.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器...

    用于与Apache Hadoop的同步hadoop-build-tools.rar

    `hadoop-build-tools.rar`压缩包文件包含了与Hadoop项目构建、部署和维护相关的工具,这些工具对于开发、测试和管理Hadoop环境至关重要。 Hadoop的核心由两个主要组件组成:HDFS(Hadoop Distributed File System)...

    Apache Hadoop (hadoop-3.3.1-src.tar.gz 源代码)

    Apache Hadoop (hadoop-3.3.1-src.tar.gz 源代码)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个...

    Apache Hadoop (hadoop-3.2.2-src.tar.gz 源代码)

    Apache Hadoop (hadoop-3.2.2-src.tar.gz 源代码)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个...

    Apache Hadoop (hadoop-2.10.1-src.tar.gz 源代码)

    Apache Hadoop (hadoop-2.10.1-src.tar.gz 源代码)项目为可靠、可扩展的分布式计算开发开源软件。 Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个...

Global site tag (gtag.js) - Google Analytics