`
qindongliang1922
  • 浏览: 2183709 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117525
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125921
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59896
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71300
社区版块
存档分类
最新评论

Cloudera公司首席架构师Doug Cutting谈Hadoop之变迁

阅读更多
Doug Cutting是开源界的大神,也是散仙非常膜拜的一个对象,从最早2000年Lucene的开始,到后来的基于Lucene衍生的企业级搜索项目Solr和ElasticSearch,以及发展到现在专职于全网采集的Nutch项目,再到后来从Nutch项目里,发展出来的Hadoop项目,无论哪一个开源项目,都是非常的出色,尤其是Hadoop项目及其衍生的基于yarn的生态系统,即使有了分布式内存计算框架Spark的出现,Hadoop的苗头,依然如火如荼,造就了大量的高新就业职位,当前前提是你得学的扎实,哈哈,扯多了,下面看看大神的访谈,感受感受大神的开源气息:






Doug Cutting是众多获得巨大成功的开源项目的创始人,其中包括Lucene以及Hadoop这样的重量级成果。目前他在Cloudera公司担任首席架构师一职,同时也在Apache软件基金会董事会任职。

在这一次的采访中,他向我们解释了开源开发机制为何更加强调技术常识而非开发信念,同时深度剖析了开源机制在企业环境下的应用方式。此前他曾在All Things Open大会上作出过主题演讲,因此我也向他问起Lucene的开源开发之路、他个人在Apache软件基金会中所扮演的角色以及开源机制对他而言意味着什么。

您曾经在GPL许可之下在SourceForge上发布Lucene,早在2000年时就对Lucene进行开源处理一定面临着诸多不同于当下的问题吧?


其实当时的状况与现在相比并没有太多差别。学术界与研究界的从业者们早就开始了软件开发成果的分享之旅,因此免费下载技术方案的概念或者开源许可并不算是什么新鲜事物。(我与GPL的首次邂逅是在1985年,当时我在这套许可之下为GNU Emacs贡献了一部分代码。)要说差别,当时使用的工具与当下有所不同。我们那时候使用的是Concurrent Versions System (即并发版本系统,简称CVS),因为当时还不存在版本控制这类可用工具。我们并没有使用错误追踪机制,只是单纯通过邮件列表来处理沟通工作,不过其基本流程还是一样的。人们利用它来交流并协调自己在共享项目中的工作成果。


自从您最初创造的首个项目——Lucene——以来,您就一直将开源作为开发工作的基本原则。您当下仍在坚持这些原则吗,理由又是什么呢?

对我来说,开源开发机制的重点在于常识的积累而非对开放信念的强调。我希望自己的努力能够为用户带来切实可行的软件解决方案,也就是将实用性作为首要诉求。我喜欢与其他同伴一起完成这项任务。在这些基本前提确定下来之后,其它事情也就水到渠成了。我们必须要以敬意作为前提同其他参与者协同合作,否则根本不可能获得理想的协作成果。同样,要想构建起一个能够健康运作而且拥有长期协作关系的开源社区,透明度与精英管理体系也是不可或缺的。从这个角度来看,开源开发与非软件项目其实没什么不同。就像在组织聚会之后的清理分工一样,有些同志负责擦洗桌面、有些负责清洁碗筷、另一些则负责将椅子摆回原位。在这里我们并非上下级的关系,每个人都从属于自己有能力完成的那部分工作体系——换言之,既要把房子打扫干净、又不能因此破坏了彼此之间的朋友关系。

您是Apache软件基金会的董事会成员之一。您能从这个角度讲讲自己所扮演的角色吗?

从根本层面讲,Apache董事会的作用在于监督基金会旗下的各个项目,从而确保其各自拥有一套健康有序的社区体系。我们需要保证这些项目的实质性控制权不会落到某个个人或者公司手中,而是真正让每位参与者都能获得应有的尊重。目前的150多个Apache项目会定期向董事会提交季度报告,这意味着我们每个月大约需要审查50个项目的运作状态。一般来讲这项工作都能顺利进行。当然,我们偶尔也需要介入其中,为项目指明一个更为可行的发展方向。董事会还负责处理各种典型的组织管理工作,例如确保有人维持网站的正常运行、收集捐赠款项并及时纳税等等。

随着越来越多企业开始在运营环境下使用开源方案,您认为未来三到五年内Hadoop与开源将分别呈现出怎样的发展态势?

我非常欣赏开源机制,因为它适合我个人作为开发人员的身份。它能让很多用户使用我所打造的软件成果,这是一种非常宝贵的个人奖励与工作肯定。此外,开源对于普通软件用户而言也颇具吸引力,因为他们能够借此大大降低对于特定厂商的依赖性(也就是‘供应商锁定’)。现在已经有越来越多开发人员专注于为专有技术方案创造替代式开源成果。如果可以选择,用户更倾向于使用开源方案,因为这能够有效摆脱锁定效应的负面影响。事实上,开源实施方案算是开了个好头,而Hadoop生态系统则继续跟进并完成接下来的深层工作。大家可能注意到了,开发人员往往会以当前专有方案为基础开发出替代性开源成果,但却很少有人打算利用专有产品代替人们所喜爱的开源工具。我希望这种趋势能够一直保持下去。Hadoop生态系统的核心经历了诸多发展与变化,但其仍将坚持开源路线不动摇。虽然目前已经有一些专有工具出现在这套堆栈之上,但从基础层面看Hadoop的开源身份仍然可谓根红苗正。

待办事务团队的建立给您带来了怎样的帮助?

我会与他们进行简单交流,而且在我看来整个团队就是一份邮件列表——只不过这部分成员的主要工作在于运行企业开源项目并探讨与此相关的最佳实践。基本上就是这些,他们的全部议程都以此为核心。许多企业都会发布一些开源成果并因此面临常见的技术以及法务问题。他们希望在这方面找到可资合作的机会,或者至少给予劝解。








  • 大小: 33.8 KB
2
1
分享到:
评论
2 楼 qindongliang1922 2014-10-28  
谈不上什么大神,有什么问题,可以一起交流,加油
1 楼 a479992590 2014-10-28  
大神收徒弟么?

相关推荐

    Doug Cutting:Apache Hadoop和大数据平台

    Doug Cutting是Hadoop的创始人之一,他将Hadoop定义为大数据分布式操作系统的“内核”,这是一个已经成为事实标准的技术。本文主要围绕Hadoop生态系统展开,探讨其重要性、组成、优势、以及未来的发展方向。 首先,...

    cloudera平台部署架构建议

    ### Cloudera平台部署架构建议 #### 一、概述 Cloudera平台是业界领先的开源大数据解决方案之一,它集成了大量的大数据技术栈,为用户提供了一站式的数据分析与处理能力。本文将详细介绍Cloudera平台的软件体系...

    Cloudera Hadoop 安装指南

    根据给定的文件信息,以下是对Cloudera Hadoop安装指南中的关键知识点的详细解析。 ### 关于Cloudera Hadoop安装指南 Cloudera Hadoop安装指南是为那些希望在自己的环境中部署并运行Cloudera Hadoop软件的用户提供...

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和...

    Cloudera hadoop开发员培训教材

    最后,课程还会介绍Cloudera Enterprise,这是Cloudera公司提供的企业级Hadoop管理解决方案,它帮助组织高效地部署、管理和优化Hadoop集群。此外,还会有专门的部分讨论MapReduce中的图操作,这是因为MapReduce模型...

    Cloudera 5 Hadoop平台简介

    作为业界最领先的企业级数据平台软件,Cloudera企业版除了包含业界最流行的基于开源Hadoop及其生态组件构建的CDH核心,还包含了大量为支撑企业级业务的高级管理特性。 借助于Cloudera企业版的整体解决方案,企业可以...

    HadoopHDFS架构概述推荐系统框架图

    Hadoop 的发展历史:Hadoop 的创始人 Doug Cutting,为了实现与 Google 类似的全文搜索功能,他在 Lucene 框架基础上进行优化升级,查询引擎和索引引擎。2001 年年底 Lucene 成为 Apache 基金会的一个子项目。对于...

    CCTC 2016 Cloudera韩军:hadoop架构在云上的应用实践

    在探讨Hadoop架构在云上的应用实践时,我们需要首先了解Cloudera这一企业级Hadoop产品提供商的背景及其产品的特性。 Cloudera成立于2008年,是一家专注于企业级Hadoop产品的提供商,其员工数量已经超过1100名,全球...

    基于Hadoop的实时查询 Cloudera Impala.zip

    Cloudera是一家提供大数据管理和分析平台的公司,Impala是它们推出的一个开源项目,专门用于解决Hadoop上复杂数据的实时查询问题。描述中提到,Cloudera Impala在多款产品测试中表现出比传统的基于MapReduce的查询...

    hadoop入门

    Hadoop创始人Doug Cutting在Yahoo工作期间开发了Hadoop项目,后来在Cloudera公司从事架构工作。Hadoop的名字来源于Doug Cutting儿子的一个玩具大象。2003-2004年,Google公开了部分关于GFS和Mapreduce的技术细节,...

    Hadoop集群

    Hadoop由Apache软件基金会(ASF)孵化,Doug Cutting是Hadoop的创造者,Hadoop的起源与Nutch搜索引擎紧密相关。Hadoop项目有两个核心组件:HDFS和MapReduce,它们共同构成了Hadoop系统的基础。 HDFS(Hadoop分布式...

    Cloudera Developer_Training_Hadoop CCDH

    Cloudera Developer Training for Apache Hadoop CCDH是一门专注于Hadoop的开发者培训课程,由Cloudera公司提供。Cloudera是全球领先的Hadoop发行版提供商和相关服务的供应商,致力于推动Apache Hadoop技术的应用和...

    大数据技术之Hadoop(入门).doc

    Cloudera则是一家早期将Hadoop商业化的公司,提供包括支持、咨询服务和培训在内的Hadoop解决方案。Cloudera的Hadoop发行版CDH在兼容性、安全性、稳定性方面进行了增强,并提供了Cloudera Manager这样的集群管理和...

    Hadoop入门帆帆帆帆

    Hadoop的发展历史可以追溯到2001年,Doug Cutting等人开发了Lucene,并将其作为Apache基金会的一个子项目。后来,Doug Cutting等人又开发了Nutch,学习和模仿Google解决大规模数据处理问题的办法。2005年,Hadoop...

    cloudera连接自定义MySQL数据库

    cloudera连接自定义MySQL数据库,cloudera集成hadoop以及所有组件

    Hadoop at Cloudera

    作为 Cloudera 的首席科学家兼产品副总裁,Hammerbacher 在哈佛大学学习数学,并在华尔街担任量化分析师。他还曾负责 Facebook 的数据团队,带领近 30 名工程师和数据科学家开展工作,并发起多个开源项目和研究论文...

    2-大数据技术之Hadoop(入门)

    Cloudera Hadoop(CDH)在2008年由Cloudera公司推出,是最早的Hadoop商业化解决方案之一,其特点是包含了更多的大数据框架,并提供了Cloudera Manager,便于集群管理和监控。Cloudera还吸引了Hadoop的创始人Doug ...

Global site tag (gtag.js) - Google Analytics