Apache Nutch是Hadoop的源头,该项目始于2002年,是Apache Lucene 的子项目之一。至2004年,Google在OSDI上公开发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文,受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS(Nutch Distributed File System)结合支持Nutch的主要算法。至2006年逐渐成为一套完整而独立的软件,起名为Hadoop。2008年初,Hadoop成为 Apache的顶级项目,应用到除Yahoo!以外的很多互联网公司。
Hadoop主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及 面向大规模分布式系统的数据收集软件Chukwa等。
Hadoop技术已经在互联网领域得以广泛的应用,同时也得到研究界的普遍关注。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周 200TB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(BigCloud)系统,不但用于相关数据分析, 还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。
在国内最早运用Hadoop技术的是互联网公司,因为Hadoop是开源软件,当时国内尚无针对Hadoop的交流平台,Hadoop in China志愿者社区正是在这样的形势下自然形成的。Hadoop in China大会是这个志愿者社区的窗口,其前身是Hadoop技术沙龙。第一次举办沙龙是在2008年11月23日,目的是为了让更多的Hadoop技术 爱好者能够互相认识,并能够在一起交流学术和技术心得。会议邀请了Yahoo!、Facebook、百度等互联网企业的资深技术人员到场讲解了 Hadoop技术的原理、应用和很多内部技术细节。经过两年多的努力,Hadoop in China大会已逐渐成为集技术研讨、交流和成果展示为一身的综合性技术交流平台,Hadoop in China 志愿者社区已成为国内推广Hadoop技术的重要力量之一。感谢为Hadoop in China 社区做出贡献的公司、单位和个人!
原文出自【比特网】,转载请保留原文链接:http://it.chinabyte.com/83/11520583.shtml
分享到:
相关推荐
Hadoop 发展趋势分析 Hadoop 发展趋势 近年来,Hadoop 行业经历了诸多变化和挑战,从 Cloudera 和 Hortonworks 的合并到 MapR 的破产危机,导致许多人认为 Hadoop 已经凉凉。但是,事实证明,这只是 Hadoop 行业的...
10. **Hadoop发展趋势与应用**:了解Hadoop在大数据处理、云计算、人工智能等领域的应用,以及Hadoop的最新版本特性和发展趋势。 通过这份实验指导书,你将不仅掌握Hadoop的基础知识,还能通过实践提升解决实际问题...
10. **Hadoop发展趋势与未来**:探讨Hadoop在大数据领域的发展趋势,包括与Spark、Flink等新型计算框架的融合,以及云计算环境下的Hadoop应用。 通过阅读这本【Hadoop入门手册.chm】,你不仅可以了解Hadoop的基本...
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了...通过阅读《Hadoop权威指南》,读者不仅可以掌握Hadoop的基础知识,还能了解到最新的Hadoop发展趋势,为在大数据领域的工作或研究打下坚实的基础。
9. **Hadoop发展趋势**: - YARN(Yet Another Resource Negotiator):资源管理器,分离了资源管理和计算任务,增强了Hadoop的灵活性。 - Spark:作为下一代大数据处理框架,弥补了Hadoop实时处理能力的不足。 -...
9. Hadoop发展趋势:随着云计算和人工智能的发展,Hadoop也在不断演进,如Hadoop 3.0引入了多命名空间、更强大的YARN等功能,同时与Spark、Kubernetes等新技术的融合也是未来趋势。 以上是对Hadoop基础知识的概括,...
### Hadoop 2.0基本架构和发展趋势 #### 什么是Hadoop 2.0? Hadoop 2.0是Apache Hadoop的一个重大升级版本,它引入了YARN(Yet Another Resource Negotiator)作为其核心组件之一,以解决Hadoop 1.x版本中...
《Hadoop权威指南》第四版还涵盖了最新的Hadoop发展趋势,包括云计算环境下的Hadoop、安全性、数据保护以及新的Hadoop版本带来的改进和新特性。这使得读者能够跟上Hadoop技术的最新动态,为未来的技术选型和升级做好...
七、Hadoop发展趋势 随着大数据技术的不断演进,Hadoop也在持续升级,例如YARN的引入提升了资源管理效率,Spark等新型计算框架与Hadoop的融合则提高了计算性能。理解这些发展趋势,对于把握大数据行业的未来至关重要...
10. **Hadoop发展趋势与未来**:对Hadoop及其生态系统的发展趋势进行展望,讨论新的挑战和机遇。 通过阅读《Hadoop权威指南》第四版,读者不仅可以掌握Hadoop的基本概念和技术,还能了解到如何在实际项目中应用...
### Hadoop的发展趋势 #### 一、前言与背景 Hadoop作为一种强大的分布式计算框架,其发展历程和技术演进一直是IT领域关注的焦点。随着大数据时代的到来,Hadoop不仅被广泛应用于数据存储和处理,也在不断地吸收新...
《Hadoop的前世今生》是一份深入探讨Hadoop发展历程的英文文档,旨在揭示这款开源大数据处理框架的起源、发展及现状。Hadoop,这个在云计算领域具有重要地位的名字,其背后有着丰富的历史和技术演变。 Hadoop最初是...
最后,书中可能还会讨论最新的Spark版本更新和Hadoop发展趋势,比如Spark on YARN的优化、DataFrame API的改进、Kafka与Spark Streaming的整合等,以及如何利用这些新特性提升大数据分析效率。 总的来说,《大数据...
Hadoop大数据的历史与发展趋势分析 Hadoop作为大数据领域的发展趋势,经过了十年的发展,从无到有、再到称王。今天,我们可以看到Hadoop是一个庞大的生态系统,包含60多个相关组件,包括数据存储、执行引擎、编程和...
【YARN发展趋势】 随着大数据技术的发展,YARN也在不断演进,以适应更复杂的应用场景和需求: 1. **资源调度优化**:YARN引入了多级调度和基于资源预留的策略,以提高资源利用率和系统效率。 2. **高可用性 (HA)**...
发展趋势包括更好地资源隔离和安全策略、持续优化的资源调度器以及对动态资源调整的更加灵活支持。Hadoop YARN作为大数据生态中的重要组成部分,它的演进将继续为各种数据处理框架提供强大的支撑,使之能更有效地...
1.2.3 2016 年发展趋势 1.2.4 现场答疑(Q&A) 1.3 内容之二 1.3.1 新API 接口 1.3.2 多个 Region 副本 1.3.3 Family 粒度的 Flush 1.3.4 RPC 读写队列分离 1.3.5 在线调整配置 1.3.6 社区的工作方向和趋势 1.3.7...
在这个章节中,学习者将了解到大数据在当今信息化社会中的重要地位,并掌握大数据的基本特征和发展趋势。 首先,大数据被比喻为新时代的“新石油”,因为它已经成为了决定国家竞争力的关键因素。大数据的五大特征...
总结篇则在全书内容的基础上,对Hadoop技术的发展趋势、未来挑战以及在企业应用中的最佳实践进行总结和展望。Hadoop作为处理海量数据的重要技术,其发展与创新是与大数据时代的发展紧密相关的。总结篇会帮助读者站在...