- 浏览: 14839 次
- 性别:
- 来自: 上海
文章分类
最新评论
揭秘谷歌网络架构英雄:传承施乐PARC理念
从某种意义上讲,谷歌就是施乐PARC研究中心的当代继承人,只是在PARC理念基础上迈出了更远步伐。谷歌所制定的管理措施,能够使该公司在完成技术开发后迅速投入使用。
北京时间8月9日消息,美国知名IT杂志《连线》网络版周三刊登长篇深度文章,披露了谷歌网络服务基础架构的幕后负责人及相关故事,并指出从某种意义上讲,谷歌就是施乐PARC研究中心的当代继承人。
以下为文章全文:
Jeff Dean and Sanjay Ghemawat, two of the most important software engineers of the internet age — and two of the most underappreciated. Photos: Ariel Zambelich/Wired
2007年4月1日的西方愚人节,有关“恶搞”杰夫·迪恩(Jeff Dean)的真相被披露出来。
在谷歌内部某个地方,一个私人网站记录了有关迪恩事迹的详细列表。迪恩是谷歌最早一批员工之一,同时也是谷歌为何能够比任何其他互联网公司处理更多流量的幕后干将。这个私人网站仅针对谷歌员工开放,但鼓励所有员工在该网站中添加有关迪恩事迹的信息。许多员工也积极响应。
谷歌员工添加的一条信息这样写道:“迪恩曾经没能通过一次图灵(Turing)测试,当时他在不到一秒钟内成功确认了第203号Fibonacci数字。”
另一条信息这样写道:“在每次提交代码之前,迪恩都会进行相应汇编和运行工作。只是他这样做的目的,主要是为了检测一下汇编器和CPU漏洞。”
第三条所添加信息为:“真空中的光速过去曾被认为是每小时35英里左右。于是迪恩花了一个周末时间来优化相关物理性质。”
当然,这些信息也算不上是什么事迹,但这些情况皆为不虚。对谷歌而言,愚人节是个神圣的节日。与任何其他高质量的愚人节笑话一样,谷歌的恶作剧也是有其事实依据。这个私人网站是由一位名为肯顿·瓦尔达(Kenton Varda)的谷歌工程师所组建,在他将该网站链接发给谷歌所有其他员工时,瓦尔达刻意隐瞒了自己的身份。但不久之后,瓦尔达就接到了迪恩发来的信息,原因是迪恩通过查找隐藏在谷歌服务器当中的数字脚印,进而了解到该网站的组建者为瓦尔达。
在谷歌内部,迪恩可谓备受尊敬。但在整个美国科技产业,知道迪恩的人却寥寥无几。只是迪恩不应该被世人遗忘。迪恩是谷歌内部一个小型软件工程师团队成员之一,该团队负责谷歌基础软件和硬件的开发工作,正是这些工作致使谷歌在互联网产业领域取得了优势地位,且不断被后来者模仿。更不用说,还有大量后来者希望取代谷歌的强势地位。
由此我们不由想起了施乐PARC研究中心的故事。该研究中心曾开发了PC产业的多项核心技术,如图形用户界面、激光打印机、以太网和面向对象编程等等。只是与PARC不同的是,谷歌不会向竞争对手公开其数据中心的最新技术,且诸如迪恩等人又很低调,因此外界对于谷歌给当代计算产业带来的基础性影响了解并不是很多。或许可以这样讲:谷歌就是云计算时代的PARC研究中心。
美国华盛顿大学粒子物理学助理教授、科技公司Cloudant首席科学家迈克·米勒(Mike Miller)表示:“在贝尔实验室、施乐PARC研究中心‘气数将尽’之时,谷歌将一大批极有创新能力的人才招致麾下。谷歌挖走的并不仅仅是这些实验室的研究人员,而且也是这些实验室的生命力所在。”
谷歌所开发的这些技术,用户并不能拿在手中或放在桌面上,它们并不在手机或PC机上运行,而是体现在一条全球范围内的数据中心网络当中。
这些技术包括影响力很高的软件平台,如谷歌文件系统(GFS)、MapReduce和BigTable等,这些技术能够支持大量在线应用程序,并将相应处理工作化为非常微小的部分,然后再传输到数千台机器当中,就好比蚂蚁搬家,各有各的精确任务。此外,这些技术还包括了新一代服务器、网络硬件以及用以运行这些技术的数据中心。谷歌的思路是:使所有计算设备能够像单一机器那要运行。蚂蚁搬家的每只蚂蚁分工明确,谷歌数据中心也是这种原理。
在硅谷还未从社交网络、触摸屏的最新趋势回过神来之时,谷歌却在幕后对其技术进行了重新改造。而不久之后,在其他互联网巨头竞相挖掘网络数据之时,他们仍落在谷歌后面。在谷歌对其搜索引擎、GFS和MapReduce技术进行重新改造后,又催生了Hadoop平台,该平台已成为全球最为成功的开源项目之一。BigTable技术促进了NoSQL运动的发展,并导致大量网络数据库的诞生。不仅如此,谷歌对于数据中心硬件采取的新方式,也促使Facebook、亚马逊、微软及其他科技公司采取类似措施。
可以肯定的是,谷歌能够取得今天的市场业绩,与该公司大量默默无闻的计算机科学家多年倾力奉献密不可分。这些科学家曾就职于PARC研究中心、贝尔实验室及其他研究机构。与谷歌一样,亚马逊在网络基础服务领域也有着重要影响力,如亚马逊发布了有关Dynamo文件系统的学术资料。只是与亚马逊相比,谷歌的影响力更为广泛。
谷歌与施乐PARC研究中心的重大区别是:谷歌在世人了解到相关技术之前,就已经从这些技术中获取了大量利润。诸如GFS、MapReduce等工具,使谷歌能够领先于竞争对手。而现在,谷歌已经抛弃了这些工具,并开始使用新一批软件和硬件。与以往一样,其他科技公司又只有追赶谷歌的份。
谷歌双雄
在肯顿·瓦尔达愚人节恶搞对象中,本来可有多个目标,但迪恩却成为“最有搞头”的靶子。瓦尔达回忆道:“他的一举一动有如仙人。”
另一位恶搞对象就是迪恩的长期同事桑杰伊·格马瓦特(Sanjay Ghemawa)。2004年期间,谷歌发表了有关MapReduce平台技术的学术论文。该论文署上了两个人的名字,即迪恩和格马瓦特。在BigTable数据库的设计过程中,这两人也扮演了重要角色。格马瓦特也是谷歌GFS文件系统学术论文的三名联合作者之一。
在瓦尔达看来,迪恩和格马瓦特两人的工作很难分开来看,“他们两人密切合作,而承担了谷歌基础架构开发工作的大量事务。在多数情况下,他们都是联手工作,因此很难将两人的工作截然分开。在谷歌内部,所有代码改变在提交之前,都必须得到其他同事的评估。但就迪恩和格马瓦特两人而言,如果其中一人将规模较大的代码给对方评估,对方将会立即给出‘LGTM’(“我觉得不错looks good to me.的英文首字母缩写)的评语,原因是他们此前已经共同着手代码改变工作。”
瓦尔达所说并不虚假。多年以来,迪恩和格马瓦特已养成这样的习惯:一起坐在同一台电脑前编写代码。多数情况下,是由格马瓦特负责输入工作。迪恩说:“格马瓦特对所输入编程代码的字距很挑剔。”
早在加盟谷歌之前,迪恩与格马瓦特已经认识。在上个世纪90年代期间,他们两人都在数字设备公司(DEC)负责运营的多家硅谷实验室中工作。当时迪恩工作地点为DEC的Western Research Lab实验室,而格马瓦特工作地点与迪恩仅有两街之隔,即另一个姊妹实验室“系统研究中心”(Systems Research Center,src)。正是由于这种关系,两人当时需要经常就一些项目展开合作,且两人之间的合作关系非常稳固。在DEC工作期间,迪恩和格马瓦特为Java编程语言编写了新的汇编器以及用于跟踪计算机服务器的系统测量仪。
在DEC研究人才大迁移过程中,迪恩和格马瓦特也来到了谷歌。上个世纪90年代晚期,就在谷歌破土而出之时,DEC却难以为继。DEC主要生产体积很大、基于RISC架构的服务器产品,而业界却迅速转向使用低成本、基于英特尔x86芯片的小体积服务器。1998年,DEC被当时PC厂商康柏收购。而四年之后,康柏又与惠普合并。如此一来,DEC原有研发人员逐步流向他处。
迪恩说:“DEC被康柏收购后,DEC各技术实验室的日子曾经一度很难过。当时并不清楚DEC与康柏合并后,DEC实验室将扮演何种角色。”此时微软开始在硅谷组建一家研发中心,于是部分DEC技术工程师流向微软。还有部分人员流向虚拟服务器软件开发商VMware。其他大量DEC技术人员则选择了加盟谷歌。DEC被康柏收购的那一年(1998年),也正是谷歌创立的年份。
1998年前后,也正值大量曾最具影响力的科技实验室风光不再,其中包括施乐PARC研究中心和贝尔实验室等等。这些实验室曾担负过Unix操作系统、C编程语言等重要技术的开发工作。只是眼看着这些实验室的顶峰期已过,在这些实验室工作的大量技术人员开始另谋出路。
加州大学伯克利分校计算机科学教授埃里克·布鲁尔(Eric Brewer)表示:“2001年美国网络经济泡沫破裂后,招聘人才最多的两家公司分别为谷歌和VMware。由于当时高科技人才市场供求关系的严重不对等,这两家公司乘机招聘了大量真正有实力的人才。”
与迪恩和格马瓦特一样,其他从DEC加盟谷歌的技术工程师同样也作出了很大贡献,其中包括迈克·布洛斯(Mike Burrows)、Shun-Tak Leung以及卢伊兹·安德烈·巴洛索(Luiz Andre Barroso)等。当时,这些技术人员希望找到一份自己感兴趣的工作,而谷歌则希望招聘那些能够运营自家搜索引擎的人才。如今回头一看,当时DEC的人才大流动,确实为谷歌取得市场成功提供了基础条件和潜在机会。
DEC也是首批成功开发出互联网搜索引擎的科技公司之一。如AltaVista便出自DEC旗下的Western实验室。至少在初期阶段,这些搜索引擎仅仅在DEC单独一台机器上运行。而谷歌之所以能够超过AltaVista,大部分原因是谷歌采取了新型手段:将其软件打碎,并将不同任务分配给大量小型、低成本机器。这其实正是GFS、MapReduce、BigTable以及其他大量技术创意的出发点。
如今回顾起来,谷歌这种做法,其实也是网络技术开发的自然演进过程。加州大学伯克利分校计算机科学教授、大规模计算专家阿马多·福克斯(Armando Fox)表示:“诸如谷歌在组建分布于数千台计算机上的数据系统过程中,自然会遇到架构方面的挑战。而这些挑战,与组建单一庞大系统所遇到的难题并不存在太大区别。由于遭遇难题的相似性,谷歌所招聘DEC人才就显得至关重要。”
“学术长辈”
Urs Hölzle. Image: Urs Hölzle
迪恩是加盟谷歌的首名DEC技术工程师。迪恩是追随其“学术长辈”乌尔·霍尔泽(Urs Holzle)而来。
霍尔泽是谷歌早期10名员工之一,同时也是谷歌首名技术开发副总裁。他曾负责谷歌架构的创建工作,该架构目前已遍布谷歌位于全球范围内的35个以上数据中心(该数字由外界推测得出)。在加盟谷歌之前,霍尔泽担任加州大学圣巴巴拉分校教授。在此之前,他曾在斯坦福大学学习,导师为戴维·乌恩加尔(David Ungar),并开发了如今用于Java编辑语言编辑器中的一些核心技术。
而迪恩的学术导师是乌恩加尔同学,正是由于这层关系,霍尔泽成为迪恩的学术长辈。1999年期间,由于DEC难以为继,迪恩跳槽到一家名为MySimon的科技创业公司。后来他看到霍尔泽已在谷歌工作,于是便给霍尔泽发了一封电子邮件,并表示希望到谷歌工作。不久迪恩便被曾招聘霍尔泽的人招至谷歌麾下,这个人便是谷歌联合创始人拉里·佩奇(Larry Page)。
在加盟谷歌之初,迪恩被指定负责谷歌搜索引擎广告系统的开发工作。但数月之后,他进入到谷歌核心搜索技术开发团队。当时由于互联网流量的迅速增长,谷歌搜索技术也需要加以相应调整。随后格马瓦特也加盟到迪恩的团队。格马瓦特之所以能够加盟谷歌,主要是受原DEC同事迪恩、克里斯那·巴拉特(Krishna Bharat)及蒙尼卡·亨泽格(Monika Henzinger)等人的推荐,因为这些前同事已经加盟谷歌。
格马瓦特说:“公允地讲,如果当时不是迪恩已经在谷歌工作,我可能根本没有机会被谷歌招聘。”迪恩与格马瓦特在谷歌会合后,两人很快又恢复了以前的工作合作关系。在随后的三、四年中,虽然谷歌核心技术开发团队的人员处于不断变动之中,但迪恩与格马瓦特两人同这些人员密切合作,并设计、组建和修订了谷歌的网络数据抓取技术。正是借助这些后台技术,谷歌才能向全球网民返回他们希望查找的搜索结果。
迪恩表示,自己与格马瓦特的合作关系很有效,原因就是两人能够实现性格互补:格马瓦特行事作风更为冷静。迪恩说:“我这个人容易急燥,脑子会飞快地想出所有方案,脑子和手都忙个不停。而格马瓦特虽然也会激动,但会更冷静一些。他能纠正我的偏差,然后两人向正确的方向发展。”
格马瓦特却表示,迪恩的工作方式同样也非常重要,他能促进技术开发工作向前推进。格马瓦特说:“我经常中途停了下来,并思考多种可行方案,同时担忧现有方案的不成熟性。而此时就需要有人出来加以鼓励,并使我们向着目标进发。”
在创建GFS文件系统和MapReduce技术后,迪恩和格马瓦特的工作取得了重大突破。过去十年中,这些平台和技术已被用于谷歌的数据中心当中,并能够向谷歌搜索业务提供规模更为庞大的数据索引。当谷歌抓取全球各地的网页时,就能通过使用GFS技术的数千台服务器传送这些数据。而通过MapReduce技术,这些服务器又能将这些数据转化成数量单一、可进行搜索的索引。
而这些技术的迷人之处,就在于某台机器无法正常工作或网络变慢时,这些平台并不会停止工作。如果你每天像谷歌那样负责数万台服务器的运行,就会发现机器“bagong”现象可谓家常便饭。而利用GFS和MapReduce技术,谷歌就能够在多台机器上复制数据。如果其中一台机器工作不正常,另一台机器就能马上顶替进来。
迪恩说在谈及MapReduce技术时这样说道:“由于数据索引的工作量非常庞大,导致应对机器故障或数据延迟的工作异常复杂。因此我们开始寻求一种在一系列机器中可自动平行代替的解决方案。该方案既可提高任务处理的质量和规模,也能使长期工作的多台计算机稳定运行。”迪恩还表示,谷歌将这些工具应用到搜索引擎业务当中之后,还发现这些工具也能给其他网络服务提供有益帮助。
BigTable技术也发挥出重要功能。与MapReduce一样,BigTable是在GFS文件系统层面之上运行,但却并不负责数据处理工作,而是像一个大型数据库那样运行。迪恩说:“BigTable能够管理大量数据,并将这些数据传送到其他机器当中,这些机器的数量可以是无限多。”虽然BigTable不会像传统数据中心那样对所传输数据加以精确控制,但却能处理海量数据,而传统意义上的大型机却无法胜任这一任务。
诸如此类的故事还一再上演。随着谷歌业务规模的不断扩大,该公司需要处理的数据也越来越多。这就迫使谷歌需要开发出新型软件。
美国云计算服务提供商Joyent首席技术官(CTO)詹森·霍夫曼(Jason Hoffman)表示:“如果你希望复制整个互联网并为其建立起数据索引,且复制规模与真实互联网的规模相一致,那么你该怎么办?其中难度可想而知。制锤还需打铁人,压力也能转化成动力。如果你能面对失败,就能获得技术灵感。”
数据中心帝国
Luiz Barroso, whose love for a certain French dessert changed the web. Photo: Google
继迪恩和格马瓦特之后,卢伊兹·巴洛索(Luiz André Barroso)也来到谷歌。但巴洛索差点未能成行。
巴洛索曾与迪恩在DEC的Western实验室共事。2001年期间,巴洛索同时获得了谷歌和VMware的加盟请求。巴洛索曾到谷歌和VMware两家公司面试和参观。为作出选择,巴洛索在一张电子数据表上分别列出加盟谷歌或VMware的理由。只是结果同样让他很为难:加盟谷歌的理由有122条,而加盟VMware的理由也是122条。
于是巴洛索便同迪恩讨论此事。迪恩则问道,在巴洛索电子数据表所列出的加盟理由中,是否写上了他参观谷歌那天,还获得了执行主管查理·艾耶斯(Charlie Ayers)提供的法式焦糖布丁(Creme brulee)?迪恩回忆道:“巴洛索最喜欢吃这种焦糖布丁,我跟巴洛索提起这件事时,他一拍脑门说,自己还真给忘了。”于是巴洛索第二天早上就接受了谷歌的加盟请求。
而巴洛索之所以不同寻常,原因就是从严格意义上讲,他并不是一名软件工程师。在DEC工作期间,他曾协助多核处理器的技术开发。巴洛索加盟谷歌软件开发团队不久,霍尔泽给他安排了一项新工作:对谷歌硬件架构进行调整,此事不但涉及服务器和其他设备,而且也包括数据中心的硬件设备。巴洛索说:“当时在谷歌的技术开发人员中,也就算我同硬件打过一点交道。”
霍尔泽、巴洛索和谷歌的“平台团队”开始思考如何改变公司的服务器架构。2003年期间,为压缩成本,谷歌不再从戴尔和惠普等公司处购买常规服务器,而改为自行设计服务器,然后向交由亚洲硬件厂商代工,而这些厂商同时也是戴尔和惠普服务器的代工商。总而言之,谷歌绕开了戴尔和惠普这两个产品销售中间人。
与其他服务器不同,谷歌自行设计服务器当中包括了12伏电池,以防数据中心服务器失去外部主要电源时,这些电池还能与其他电源连接。谷歌称,这种处理方式,比常规数据中心的不间断电源设备(UPS)更有效率。
随后谷歌技术开发团队便考虑如何放置这些服务器。曾经有那么一段时间,谷歌仅仅是从其他公司处租赁数据中心所需空间。但巴洛索及其团队却开始从无到有设计和组建谷歌自家数据中心,并希望通过此种方式,不但能够节省资金和电力,而且还能提高谷歌其他网络服务的整体性能。
于是谷歌开始在美国俄勒冈州达尔斯等农村地区部署新设备,部分原因是这些地区的电力收费标准较低,且有的地区还提供税收优惠。但谷歌这样做的主要目的,还是希望使所有数据中心能够像一台单一大型机那样运行。巴洛索和霍尔泽将这种方式称为“仓库规模的计算”。
洛索和霍尔泽在2009年发表的《作为计算机的数据中心》(The Datacenter as a Computer)一书中写道:“在这些设施中,大部分的硬件和软件资源必须共同协作,从而提供高标准的互联网服务,而只有整体性的设计和部署方案才能实现此目的。换句话说,我们必须将数据中心本身视为一种大规模的仓库式计算机。”
谷歌技术团队对数据中心采取了新的组建方案,他们将服务器、网络设备及其他硬件打包到一起,然后放入火车或轮船经常使用的集装箱当中。通过这些“模块”,就能实现数据中心的规模化组建。这样做的目的是使每个模块发挥出最大功能。事实上,集装箱模块思路来自佩奇。2003年期间,他曾看到Internet Achieve公司在一份演示稿给出了类似方案并因此获得灵感。但巴洛索已记不清该创意究竟是来自何人,“反正该创意不是由我提出。”
谷歌达尔斯数据中心于2005年正式上线服役。随后数年中,经常有媒体报道谷歌拥有数据中心模块及定制化服务器,但其中详情一直到2009年才被揭晓。2009年,谷歌在硅谷总部举行了一次小型会议,并披露了其数据中心的解决方案。在数据中心组建事宜上,谷歌并不仅仅满足于技术创新,而是首先默默工作,等到其性能稳定后再与外界分享相应方案。
泰斯拉效应
《连线》记者史蒂芬·列维(Steven Levy)在其《谷歌:In The Plex》一书中披露,佩奇本人是发明家尼古拉·泰斯拉(Nikola Tesla)的“粉丝”。佩奇认为,泰斯拉作为发明家的历史地位可与爱迪生并列,但缺点是无法将自己的发明转化为盈利,且不能保持自己技术发明能够长期被外界认可。
有关泰斯拉给人以警示意义的传奇故事,无疑也在一定程度上影响了谷歌对待其核心技术的态度。谷歌将这些技术视为商业机密。与苹果一样,谷歌非常重视核心技术的保密工作。然而在不少情况下,一些技术在谷歌内部使用数年后,谷歌又会开放相关技术。霍尔泽说:“我们希望能够在不失去自身竞争力前提下,尽可能向外部开放一些技术。我们会与外界就某些创意进行交流,但不会提供具体实施方案。”
2003年到2004年期间,谷歌发表了有关GFS文件系统和MapReduce技术的论文。谷歌让这些论文自己来说话。不久以后,一位名为道格·卡廷(Doug Cutting)的开发者利用这些论文资料,而组建了一种名为“Nutch”的索引系统,该系统可用于开源搜索引擎。卡廷后来加盟谷歌主要竞争对手雅虎后,该项目又被修改成为“Hadoop”。
随着互联网服务器处理数据规模的增长,Hadoop技术此前已被大量网络服务巨头所使用,其中包括Facebook、Twitter和微软等,目前又在向其他商业用户拓展。美国市场研究公司IDC此前发布预测报告称,到2016年时,Hadoop项目所引发的软件市场规模将高达8.13亿美元。
而BigTable技术又在重复这一举动。2006年期间,谷歌发表了有关其数据库技术的论文,而亚马逊也公布了Dynamo数据存储技术的相关资料。这些举措引发了NoSQL运动,目的是借此组建规模达数千台机器的数据库。
Joyent的霍夫曼表示:“如果你仔细研究一下每一种NoSQL解决方案,其实任何一种都将回溯到亚马逊Dynamo或谷歌BigTable论文资料。如果谷歌或亚马逊不公布这些学术论文,情况将会怎样?”
谷歌的硬件运营情况则稍有不同。对于谷歌数据中心所使用的硬件设备详细情况,我们还知之甚少。但谷歌的这些硬件举措,无疑已经被其他科技及其他产业所效仿。在亚洲硬件代工商的帮助下,Facebook也在设计自家服务器、服务器机架和存储器等硬件设备。知情人士透露,亚马逊和微软也在这样做。而随着Facebook以开源计算基金会的名义对其设计采取“开源”措施,其他公司也纷纷加入到自行设计硬件的行列。
更为重要的是,模块数据中心已成为网络服务的主流,如微软、eBay及其他数不清的科技公司都在使用此类模块。微软数据中心业务前主管迈克·曼诺斯(Mike Manos)曾表示,数据中心模块的创意并非来自谷歌,类似模块创意在上个世纪60年代就已经提出。但无论如何,谷歌是将该模块付诸实践的首家公司。就像Cloudant的米勒指出的那样,谷歌GFS文件系统和MapReduce技术也是从以往技术中获得灵感,但谷歌却能利用以往创意来解决新问题。
方兴未艾
The building that once housed DEC’s Systems Research Center. It’s now home to an Amazon.com research operation called A9. Photo: Ariel Zambelich/Wired
颇具讽刺意义的是,谷歌此前已采取相应措施来取代上述基础技术。过去数年中,谷歌放弃了GFS文件系统,而代之以名为“Colossus”的新平台。在搜索引擎算法事宜上,谷歌已使用了名为“Caffeine”的新系统。该系统包含了MapReduce的一些技术成份,但运营方式有很大不同,并能实现实时索引,而不是从抓取数据中重新建立索引。
谷歌达尔斯数据中心或许将继续使用,但估计该中心不会安装谷歌的最新硬件设备。对于谷歌数据中心所使用的最新硬件,我们了解还不多。但考虑到谷歌一直致力于硬件设计创新的历史,我们有理由相信,谷歌在其他数据中心仍在测试最新款硬件。
近年以来,谷歌发表了有关Caffeine及其他两个软件平台的学术论文。这两个平台分别为Pregel和Dremel,前者涉及“图谱”数据库技术,即能分析两种数据之间的关系;而Dremel则能分析和处理数据。此前已有大量基于Pregel技术的开源项目诞生,至少已出现一个源于Dremel技术的项目。Cloudant的米勒表示,Caffein论文资料公布后,已开始对Hadoop和NoSQL市场带来影响。
前述各种技术,只是谷歌曾投入使用技术的小部分。可以肯定的是,谷歌尚有大量技术并未被外界所了解。但无论谷歌正在使用何种新技术,该公司肯定不久后又会加以更新。去年5月,加州大学伯克利分校教授布鲁尔(Eric Brewer)宣布,他将加盟正在开发“下一代架构”的谷歌技术团队。布鲁尔当时说道:“云计算产业尚处于初期发展阶段,因此还有很大改进提高的空间。”
分布式计算专家布鲁尔加盟谷歌,也从一个侧面证实,谷歌就是施乐PARC研究中心的当代继承者。只是谷歌在PARC理念基础上迈出了更远步伐。
从谷歌的研发运营管理模式中,你总能够看到DEC的痕迹,而DEC又要回溯到PARC研究中心的早期阶段。DEC的系统研究中心(src)实验室由罗伯特·泰勒(Robert Taylor)创建,正是他曾在PARC创建了计算机科学实验室。
泰勒之所以要创建src实验室,原因是在80年代初,泰勒认为PARC已迷失了方向。泰勒说:“我在PARC的大量同事已对该研究中心不再抱任何希望,因此他们就到了我这儿。”他以PARC计算机科学研究室为原型,而创建了src实验室。从某种程度上讲,泰勒这一举措也取得了成功。
但与大量其他企业所运营的研究机构一样,src实验室也有其弱点。该实验室的最新技术研发成果,需要很长时间才能转化为投放市场的产品。这种情况也适用于DEC旗下的Western实验室。正是这种原因,最终迫使曾在Western实验室工作的迪恩加盟谷歌。迪恩说:“技术与真实用户的分离,也是我最终考虑加盟一家科技创业公司的原因。”
只是谷歌并不是寻常意义上的科技创业公司。谷歌所制定的管理措施,能够使该公司在完成技术开发后迅速投入使用。谷歌既可说是研究型机构,也可以说并非如此。格马瓦特说:“谷歌架构工作并不是当成研究项目,这些工作让我们能够解决产品中遇到的问题。”
对某些谷歌员工而言,谷歌核心架构技术开发工作的缺点是:你不得告诉任何人你正从事的工作。这也是谷歌工程师阿米尔·迈克尔(Amir Michael)选择从谷歌离职并加盟Facebook的原因之一。尽管如此,谷歌有时也允许这些员工发表自己的研究成果甚至公开讨论相关问题。
对谷歌而言,这无疑是一种平衡手段。虽然仍有不少人对这种方式颇有微辞,但不能不说该手段很有效。不可否认的是,谷歌的这些方式已推动了整个互联网产业向前发展,而施乐PARC研究中心从未有过这样的佳绩。
转至:http://blog.sina.com.cn/s/blog_5c57b5190102e0dx.html
英文:http://www.wired.com/wiredenterprise/2012/08/google-as-xerox-parc/
google Caffeine && Pregel && Dreme
http://www.csdn.net/article/2012-08-21/2808870-Google-Hadoop-versus-Dremel
从某种意义上讲,谷歌就是施乐PARC研究中心的当代继承人,只是在PARC理念基础上迈出了更远步伐。谷歌所制定的管理措施,能够使该公司在完成技术开发后迅速投入使用。
北京时间8月9日消息,美国知名IT杂志《连线》网络版周三刊登长篇深度文章,披露了谷歌网络服务基础架构的幕后负责人及相关故事,并指出从某种意义上讲,谷歌就是施乐PARC研究中心的当代继承人。
以下为文章全文:
Jeff Dean and Sanjay Ghemawat, two of the most important software engineers of the internet age — and two of the most underappreciated. Photos: Ariel Zambelich/Wired
2007年4月1日的西方愚人节,有关“恶搞”杰夫·迪恩(Jeff Dean)的真相被披露出来。
在谷歌内部某个地方,一个私人网站记录了有关迪恩事迹的详细列表。迪恩是谷歌最早一批员工之一,同时也是谷歌为何能够比任何其他互联网公司处理更多流量的幕后干将。这个私人网站仅针对谷歌员工开放,但鼓励所有员工在该网站中添加有关迪恩事迹的信息。许多员工也积极响应。
谷歌员工添加的一条信息这样写道:“迪恩曾经没能通过一次图灵(Turing)测试,当时他在不到一秒钟内成功确认了第203号Fibonacci数字。”
另一条信息这样写道:“在每次提交代码之前,迪恩都会进行相应汇编和运行工作。只是他这样做的目的,主要是为了检测一下汇编器和CPU漏洞。”
第三条所添加信息为:“真空中的光速过去曾被认为是每小时35英里左右。于是迪恩花了一个周末时间来优化相关物理性质。”
当然,这些信息也算不上是什么事迹,但这些情况皆为不虚。对谷歌而言,愚人节是个神圣的节日。与任何其他高质量的愚人节笑话一样,谷歌的恶作剧也是有其事实依据。这个私人网站是由一位名为肯顿·瓦尔达(Kenton Varda)的谷歌工程师所组建,在他将该网站链接发给谷歌所有其他员工时,瓦尔达刻意隐瞒了自己的身份。但不久之后,瓦尔达就接到了迪恩发来的信息,原因是迪恩通过查找隐藏在谷歌服务器当中的数字脚印,进而了解到该网站的组建者为瓦尔达。
在谷歌内部,迪恩可谓备受尊敬。但在整个美国科技产业,知道迪恩的人却寥寥无几。只是迪恩不应该被世人遗忘。迪恩是谷歌内部一个小型软件工程师团队成员之一,该团队负责谷歌基础软件和硬件的开发工作,正是这些工作致使谷歌在互联网产业领域取得了优势地位,且不断被后来者模仿。更不用说,还有大量后来者希望取代谷歌的强势地位。
由此我们不由想起了施乐PARC研究中心的故事。该研究中心曾开发了PC产业的多项核心技术,如图形用户界面、激光打印机、以太网和面向对象编程等等。只是与PARC不同的是,谷歌不会向竞争对手公开其数据中心的最新技术,且诸如迪恩等人又很低调,因此外界对于谷歌给当代计算产业带来的基础性影响了解并不是很多。或许可以这样讲:谷歌就是云计算时代的PARC研究中心。
美国华盛顿大学粒子物理学助理教授、科技公司Cloudant首席科学家迈克·米勒(Mike Miller)表示:“在贝尔实验室、施乐PARC研究中心‘气数将尽’之时,谷歌将一大批极有创新能力的人才招致麾下。谷歌挖走的并不仅仅是这些实验室的研究人员,而且也是这些实验室的生命力所在。”
谷歌所开发的这些技术,用户并不能拿在手中或放在桌面上,它们并不在手机或PC机上运行,而是体现在一条全球范围内的数据中心网络当中。
这些技术包括影响力很高的软件平台,如谷歌文件系统(GFS)、MapReduce和BigTable等,这些技术能够支持大量在线应用程序,并将相应处理工作化为非常微小的部分,然后再传输到数千台机器当中,就好比蚂蚁搬家,各有各的精确任务。此外,这些技术还包括了新一代服务器、网络硬件以及用以运行这些技术的数据中心。谷歌的思路是:使所有计算设备能够像单一机器那要运行。蚂蚁搬家的每只蚂蚁分工明确,谷歌数据中心也是这种原理。
在硅谷还未从社交网络、触摸屏的最新趋势回过神来之时,谷歌却在幕后对其技术进行了重新改造。而不久之后,在其他互联网巨头竞相挖掘网络数据之时,他们仍落在谷歌后面。在谷歌对其搜索引擎、GFS和MapReduce技术进行重新改造后,又催生了Hadoop平台,该平台已成为全球最为成功的开源项目之一。BigTable技术促进了NoSQL运动的发展,并导致大量网络数据库的诞生。不仅如此,谷歌对于数据中心硬件采取的新方式,也促使Facebook、亚马逊、微软及其他科技公司采取类似措施。
可以肯定的是,谷歌能够取得今天的市场业绩,与该公司大量默默无闻的计算机科学家多年倾力奉献密不可分。这些科学家曾就职于PARC研究中心、贝尔实验室及其他研究机构。与谷歌一样,亚马逊在网络基础服务领域也有着重要影响力,如亚马逊发布了有关Dynamo文件系统的学术资料。只是与亚马逊相比,谷歌的影响力更为广泛。
谷歌与施乐PARC研究中心的重大区别是:谷歌在世人了解到相关技术之前,就已经从这些技术中获取了大量利润。诸如GFS、MapReduce等工具,使谷歌能够领先于竞争对手。而现在,谷歌已经抛弃了这些工具,并开始使用新一批软件和硬件。与以往一样,其他科技公司又只有追赶谷歌的份。
谷歌双雄
在肯顿·瓦尔达愚人节恶搞对象中,本来可有多个目标,但迪恩却成为“最有搞头”的靶子。瓦尔达回忆道:“他的一举一动有如仙人。”
另一位恶搞对象就是迪恩的长期同事桑杰伊·格马瓦特(Sanjay Ghemawa)。2004年期间,谷歌发表了有关MapReduce平台技术的学术论文。该论文署上了两个人的名字,即迪恩和格马瓦特。在BigTable数据库的设计过程中,这两人也扮演了重要角色。格马瓦特也是谷歌GFS文件系统学术论文的三名联合作者之一。
在瓦尔达看来,迪恩和格马瓦特两人的工作很难分开来看,“他们两人密切合作,而承担了谷歌基础架构开发工作的大量事务。在多数情况下,他们都是联手工作,因此很难将两人的工作截然分开。在谷歌内部,所有代码改变在提交之前,都必须得到其他同事的评估。但就迪恩和格马瓦特两人而言,如果其中一人将规模较大的代码给对方评估,对方将会立即给出‘LGTM’(“我觉得不错looks good to me.的英文首字母缩写)的评语,原因是他们此前已经共同着手代码改变工作。”
瓦尔达所说并不虚假。多年以来,迪恩和格马瓦特已养成这样的习惯:一起坐在同一台电脑前编写代码。多数情况下,是由格马瓦特负责输入工作。迪恩说:“格马瓦特对所输入编程代码的字距很挑剔。”
早在加盟谷歌之前,迪恩与格马瓦特已经认识。在上个世纪90年代期间,他们两人都在数字设备公司(DEC)负责运营的多家硅谷实验室中工作。当时迪恩工作地点为DEC的Western Research Lab实验室,而格马瓦特工作地点与迪恩仅有两街之隔,即另一个姊妹实验室“系统研究中心”(Systems Research Center,src)。正是由于这种关系,两人当时需要经常就一些项目展开合作,且两人之间的合作关系非常稳固。在DEC工作期间,迪恩和格马瓦特为Java编程语言编写了新的汇编器以及用于跟踪计算机服务器的系统测量仪。
在DEC研究人才大迁移过程中,迪恩和格马瓦特也来到了谷歌。上个世纪90年代晚期,就在谷歌破土而出之时,DEC却难以为继。DEC主要生产体积很大、基于RISC架构的服务器产品,而业界却迅速转向使用低成本、基于英特尔x86芯片的小体积服务器。1998年,DEC被当时PC厂商康柏收购。而四年之后,康柏又与惠普合并。如此一来,DEC原有研发人员逐步流向他处。
迪恩说:“DEC被康柏收购后,DEC各技术实验室的日子曾经一度很难过。当时并不清楚DEC与康柏合并后,DEC实验室将扮演何种角色。”此时微软开始在硅谷组建一家研发中心,于是部分DEC技术工程师流向微软。还有部分人员流向虚拟服务器软件开发商VMware。其他大量DEC技术人员则选择了加盟谷歌。DEC被康柏收购的那一年(1998年),也正是谷歌创立的年份。
1998年前后,也正值大量曾最具影响力的科技实验室风光不再,其中包括施乐PARC研究中心和贝尔实验室等等。这些实验室曾担负过Unix操作系统、C编程语言等重要技术的开发工作。只是眼看着这些实验室的顶峰期已过,在这些实验室工作的大量技术人员开始另谋出路。
加州大学伯克利分校计算机科学教授埃里克·布鲁尔(Eric Brewer)表示:“2001年美国网络经济泡沫破裂后,招聘人才最多的两家公司分别为谷歌和VMware。由于当时高科技人才市场供求关系的严重不对等,这两家公司乘机招聘了大量真正有实力的人才。”
与迪恩和格马瓦特一样,其他从DEC加盟谷歌的技术工程师同样也作出了很大贡献,其中包括迈克·布洛斯(Mike Burrows)、Shun-Tak Leung以及卢伊兹·安德烈·巴洛索(Luiz Andre Barroso)等。当时,这些技术人员希望找到一份自己感兴趣的工作,而谷歌则希望招聘那些能够运营自家搜索引擎的人才。如今回头一看,当时DEC的人才大流动,确实为谷歌取得市场成功提供了基础条件和潜在机会。
DEC也是首批成功开发出互联网搜索引擎的科技公司之一。如AltaVista便出自DEC旗下的Western实验室。至少在初期阶段,这些搜索引擎仅仅在DEC单独一台机器上运行。而谷歌之所以能够超过AltaVista,大部分原因是谷歌采取了新型手段:将其软件打碎,并将不同任务分配给大量小型、低成本机器。这其实正是GFS、MapReduce、BigTable以及其他大量技术创意的出发点。
如今回顾起来,谷歌这种做法,其实也是网络技术开发的自然演进过程。加州大学伯克利分校计算机科学教授、大规模计算专家阿马多·福克斯(Armando Fox)表示:“诸如谷歌在组建分布于数千台计算机上的数据系统过程中,自然会遇到架构方面的挑战。而这些挑战,与组建单一庞大系统所遇到的难题并不存在太大区别。由于遭遇难题的相似性,谷歌所招聘DEC人才就显得至关重要。”
“学术长辈”
Urs Hölzle. Image: Urs Hölzle
迪恩是加盟谷歌的首名DEC技术工程师。迪恩是追随其“学术长辈”乌尔·霍尔泽(Urs Holzle)而来。
霍尔泽是谷歌早期10名员工之一,同时也是谷歌首名技术开发副总裁。他曾负责谷歌架构的创建工作,该架构目前已遍布谷歌位于全球范围内的35个以上数据中心(该数字由外界推测得出)。在加盟谷歌之前,霍尔泽担任加州大学圣巴巴拉分校教授。在此之前,他曾在斯坦福大学学习,导师为戴维·乌恩加尔(David Ungar),并开发了如今用于Java编辑语言编辑器中的一些核心技术。
而迪恩的学术导师是乌恩加尔同学,正是由于这层关系,霍尔泽成为迪恩的学术长辈。1999年期间,由于DEC难以为继,迪恩跳槽到一家名为MySimon的科技创业公司。后来他看到霍尔泽已在谷歌工作,于是便给霍尔泽发了一封电子邮件,并表示希望到谷歌工作。不久迪恩便被曾招聘霍尔泽的人招至谷歌麾下,这个人便是谷歌联合创始人拉里·佩奇(Larry Page)。
在加盟谷歌之初,迪恩被指定负责谷歌搜索引擎广告系统的开发工作。但数月之后,他进入到谷歌核心搜索技术开发团队。当时由于互联网流量的迅速增长,谷歌搜索技术也需要加以相应调整。随后格马瓦特也加盟到迪恩的团队。格马瓦特之所以能够加盟谷歌,主要是受原DEC同事迪恩、克里斯那·巴拉特(Krishna Bharat)及蒙尼卡·亨泽格(Monika Henzinger)等人的推荐,因为这些前同事已经加盟谷歌。
格马瓦特说:“公允地讲,如果当时不是迪恩已经在谷歌工作,我可能根本没有机会被谷歌招聘。”迪恩与格马瓦特在谷歌会合后,两人很快又恢复了以前的工作合作关系。在随后的三、四年中,虽然谷歌核心技术开发团队的人员处于不断变动之中,但迪恩与格马瓦特两人同这些人员密切合作,并设计、组建和修订了谷歌的网络数据抓取技术。正是借助这些后台技术,谷歌才能向全球网民返回他们希望查找的搜索结果。
迪恩表示,自己与格马瓦特的合作关系很有效,原因就是两人能够实现性格互补:格马瓦特行事作风更为冷静。迪恩说:“我这个人容易急燥,脑子会飞快地想出所有方案,脑子和手都忙个不停。而格马瓦特虽然也会激动,但会更冷静一些。他能纠正我的偏差,然后两人向正确的方向发展。”
格马瓦特却表示,迪恩的工作方式同样也非常重要,他能促进技术开发工作向前推进。格马瓦特说:“我经常中途停了下来,并思考多种可行方案,同时担忧现有方案的不成熟性。而此时就需要有人出来加以鼓励,并使我们向着目标进发。”
在创建GFS文件系统和MapReduce技术后,迪恩和格马瓦特的工作取得了重大突破。过去十年中,这些平台和技术已被用于谷歌的数据中心当中,并能够向谷歌搜索业务提供规模更为庞大的数据索引。当谷歌抓取全球各地的网页时,就能通过使用GFS技术的数千台服务器传送这些数据。而通过MapReduce技术,这些服务器又能将这些数据转化成数量单一、可进行搜索的索引。
而这些技术的迷人之处,就在于某台机器无法正常工作或网络变慢时,这些平台并不会停止工作。如果你每天像谷歌那样负责数万台服务器的运行,就会发现机器“bagong”现象可谓家常便饭。而利用GFS和MapReduce技术,谷歌就能够在多台机器上复制数据。如果其中一台机器工作不正常,另一台机器就能马上顶替进来。
迪恩说在谈及MapReduce技术时这样说道:“由于数据索引的工作量非常庞大,导致应对机器故障或数据延迟的工作异常复杂。因此我们开始寻求一种在一系列机器中可自动平行代替的解决方案。该方案既可提高任务处理的质量和规模,也能使长期工作的多台计算机稳定运行。”迪恩还表示,谷歌将这些工具应用到搜索引擎业务当中之后,还发现这些工具也能给其他网络服务提供有益帮助。
BigTable技术也发挥出重要功能。与MapReduce一样,BigTable是在GFS文件系统层面之上运行,但却并不负责数据处理工作,而是像一个大型数据库那样运行。迪恩说:“BigTable能够管理大量数据,并将这些数据传送到其他机器当中,这些机器的数量可以是无限多。”虽然BigTable不会像传统数据中心那样对所传输数据加以精确控制,但却能处理海量数据,而传统意义上的大型机却无法胜任这一任务。
诸如此类的故事还一再上演。随着谷歌业务规模的不断扩大,该公司需要处理的数据也越来越多。这就迫使谷歌需要开发出新型软件。
美国云计算服务提供商Joyent首席技术官(CTO)詹森·霍夫曼(Jason Hoffman)表示:“如果你希望复制整个互联网并为其建立起数据索引,且复制规模与真实互联网的规模相一致,那么你该怎么办?其中难度可想而知。制锤还需打铁人,压力也能转化成动力。如果你能面对失败,就能获得技术灵感。”
数据中心帝国
Luiz Barroso, whose love for a certain French dessert changed the web. Photo: Google
继迪恩和格马瓦特之后,卢伊兹·巴洛索(Luiz André Barroso)也来到谷歌。但巴洛索差点未能成行。
巴洛索曾与迪恩在DEC的Western实验室共事。2001年期间,巴洛索同时获得了谷歌和VMware的加盟请求。巴洛索曾到谷歌和VMware两家公司面试和参观。为作出选择,巴洛索在一张电子数据表上分别列出加盟谷歌或VMware的理由。只是结果同样让他很为难:加盟谷歌的理由有122条,而加盟VMware的理由也是122条。
于是巴洛索便同迪恩讨论此事。迪恩则问道,在巴洛索电子数据表所列出的加盟理由中,是否写上了他参观谷歌那天,还获得了执行主管查理·艾耶斯(Charlie Ayers)提供的法式焦糖布丁(Creme brulee)?迪恩回忆道:“巴洛索最喜欢吃这种焦糖布丁,我跟巴洛索提起这件事时,他一拍脑门说,自己还真给忘了。”于是巴洛索第二天早上就接受了谷歌的加盟请求。
而巴洛索之所以不同寻常,原因就是从严格意义上讲,他并不是一名软件工程师。在DEC工作期间,他曾协助多核处理器的技术开发。巴洛索加盟谷歌软件开发团队不久,霍尔泽给他安排了一项新工作:对谷歌硬件架构进行调整,此事不但涉及服务器和其他设备,而且也包括数据中心的硬件设备。巴洛索说:“当时在谷歌的技术开发人员中,也就算我同硬件打过一点交道。”
霍尔泽、巴洛索和谷歌的“平台团队”开始思考如何改变公司的服务器架构。2003年期间,为压缩成本,谷歌不再从戴尔和惠普等公司处购买常规服务器,而改为自行设计服务器,然后向交由亚洲硬件厂商代工,而这些厂商同时也是戴尔和惠普服务器的代工商。总而言之,谷歌绕开了戴尔和惠普这两个产品销售中间人。
与其他服务器不同,谷歌自行设计服务器当中包括了12伏电池,以防数据中心服务器失去外部主要电源时,这些电池还能与其他电源连接。谷歌称,这种处理方式,比常规数据中心的不间断电源设备(UPS)更有效率。
随后谷歌技术开发团队便考虑如何放置这些服务器。曾经有那么一段时间,谷歌仅仅是从其他公司处租赁数据中心所需空间。但巴洛索及其团队却开始从无到有设计和组建谷歌自家数据中心,并希望通过此种方式,不但能够节省资金和电力,而且还能提高谷歌其他网络服务的整体性能。
于是谷歌开始在美国俄勒冈州达尔斯等农村地区部署新设备,部分原因是这些地区的电力收费标准较低,且有的地区还提供税收优惠。但谷歌这样做的主要目的,还是希望使所有数据中心能够像一台单一大型机那样运行。巴洛索和霍尔泽将这种方式称为“仓库规模的计算”。
洛索和霍尔泽在2009年发表的《作为计算机的数据中心》(The Datacenter as a Computer)一书中写道:“在这些设施中,大部分的硬件和软件资源必须共同协作,从而提供高标准的互联网服务,而只有整体性的设计和部署方案才能实现此目的。换句话说,我们必须将数据中心本身视为一种大规模的仓库式计算机。”
谷歌技术团队对数据中心采取了新的组建方案,他们将服务器、网络设备及其他硬件打包到一起,然后放入火车或轮船经常使用的集装箱当中。通过这些“模块”,就能实现数据中心的规模化组建。这样做的目的是使每个模块发挥出最大功能。事实上,集装箱模块思路来自佩奇。2003年期间,他曾看到Internet Achieve公司在一份演示稿给出了类似方案并因此获得灵感。但巴洛索已记不清该创意究竟是来自何人,“反正该创意不是由我提出。”
谷歌达尔斯数据中心于2005年正式上线服役。随后数年中,经常有媒体报道谷歌拥有数据中心模块及定制化服务器,但其中详情一直到2009年才被揭晓。2009年,谷歌在硅谷总部举行了一次小型会议,并披露了其数据中心的解决方案。在数据中心组建事宜上,谷歌并不仅仅满足于技术创新,而是首先默默工作,等到其性能稳定后再与外界分享相应方案。
泰斯拉效应
《连线》记者史蒂芬·列维(Steven Levy)在其《谷歌:In The Plex》一书中披露,佩奇本人是发明家尼古拉·泰斯拉(Nikola Tesla)的“粉丝”。佩奇认为,泰斯拉作为发明家的历史地位可与爱迪生并列,但缺点是无法将自己的发明转化为盈利,且不能保持自己技术发明能够长期被外界认可。
有关泰斯拉给人以警示意义的传奇故事,无疑也在一定程度上影响了谷歌对待其核心技术的态度。谷歌将这些技术视为商业机密。与苹果一样,谷歌非常重视核心技术的保密工作。然而在不少情况下,一些技术在谷歌内部使用数年后,谷歌又会开放相关技术。霍尔泽说:“我们希望能够在不失去自身竞争力前提下,尽可能向外部开放一些技术。我们会与外界就某些创意进行交流,但不会提供具体实施方案。”
2003年到2004年期间,谷歌发表了有关GFS文件系统和MapReduce技术的论文。谷歌让这些论文自己来说话。不久以后,一位名为道格·卡廷(Doug Cutting)的开发者利用这些论文资料,而组建了一种名为“Nutch”的索引系统,该系统可用于开源搜索引擎。卡廷后来加盟谷歌主要竞争对手雅虎后,该项目又被修改成为“Hadoop”。
随着互联网服务器处理数据规模的增长,Hadoop技术此前已被大量网络服务巨头所使用,其中包括Facebook、Twitter和微软等,目前又在向其他商业用户拓展。美国市场研究公司IDC此前发布预测报告称,到2016年时,Hadoop项目所引发的软件市场规模将高达8.13亿美元。
而BigTable技术又在重复这一举动。2006年期间,谷歌发表了有关其数据库技术的论文,而亚马逊也公布了Dynamo数据存储技术的相关资料。这些举措引发了NoSQL运动,目的是借此组建规模达数千台机器的数据库。
Joyent的霍夫曼表示:“如果你仔细研究一下每一种NoSQL解决方案,其实任何一种都将回溯到亚马逊Dynamo或谷歌BigTable论文资料。如果谷歌或亚马逊不公布这些学术论文,情况将会怎样?”
谷歌的硬件运营情况则稍有不同。对于谷歌数据中心所使用的硬件设备详细情况,我们还知之甚少。但谷歌的这些硬件举措,无疑已经被其他科技及其他产业所效仿。在亚洲硬件代工商的帮助下,Facebook也在设计自家服务器、服务器机架和存储器等硬件设备。知情人士透露,亚马逊和微软也在这样做。而随着Facebook以开源计算基金会的名义对其设计采取“开源”措施,其他公司也纷纷加入到自行设计硬件的行列。
更为重要的是,模块数据中心已成为网络服务的主流,如微软、eBay及其他数不清的科技公司都在使用此类模块。微软数据中心业务前主管迈克·曼诺斯(Mike Manos)曾表示,数据中心模块的创意并非来自谷歌,类似模块创意在上个世纪60年代就已经提出。但无论如何,谷歌是将该模块付诸实践的首家公司。就像Cloudant的米勒指出的那样,谷歌GFS文件系统和MapReduce技术也是从以往技术中获得灵感,但谷歌却能利用以往创意来解决新问题。
方兴未艾
The building that once housed DEC’s Systems Research Center. It’s now home to an Amazon.com research operation called A9. Photo: Ariel Zambelich/Wired
颇具讽刺意义的是,谷歌此前已采取相应措施来取代上述基础技术。过去数年中,谷歌放弃了GFS文件系统,而代之以名为“Colossus”的新平台。在搜索引擎算法事宜上,谷歌已使用了名为“Caffeine”的新系统。该系统包含了MapReduce的一些技术成份,但运营方式有很大不同,并能实现实时索引,而不是从抓取数据中重新建立索引。
谷歌达尔斯数据中心或许将继续使用,但估计该中心不会安装谷歌的最新硬件设备。对于谷歌数据中心所使用的最新硬件,我们了解还不多。但考虑到谷歌一直致力于硬件设计创新的历史,我们有理由相信,谷歌在其他数据中心仍在测试最新款硬件。
近年以来,谷歌发表了有关Caffeine及其他两个软件平台的学术论文。这两个平台分别为Pregel和Dremel,前者涉及“图谱”数据库技术,即能分析两种数据之间的关系;而Dremel则能分析和处理数据。此前已有大量基于Pregel技术的开源项目诞生,至少已出现一个源于Dremel技术的项目。Cloudant的米勒表示,Caffein论文资料公布后,已开始对Hadoop和NoSQL市场带来影响。
前述各种技术,只是谷歌曾投入使用技术的小部分。可以肯定的是,谷歌尚有大量技术并未被外界所了解。但无论谷歌正在使用何种新技术,该公司肯定不久后又会加以更新。去年5月,加州大学伯克利分校教授布鲁尔(Eric Brewer)宣布,他将加盟正在开发“下一代架构”的谷歌技术团队。布鲁尔当时说道:“云计算产业尚处于初期发展阶段,因此还有很大改进提高的空间。”
分布式计算专家布鲁尔加盟谷歌,也从一个侧面证实,谷歌就是施乐PARC研究中心的当代继承者。只是谷歌在PARC理念基础上迈出了更远步伐。
从谷歌的研发运营管理模式中,你总能够看到DEC的痕迹,而DEC又要回溯到PARC研究中心的早期阶段。DEC的系统研究中心(src)实验室由罗伯特·泰勒(Robert Taylor)创建,正是他曾在PARC创建了计算机科学实验室。
泰勒之所以要创建src实验室,原因是在80年代初,泰勒认为PARC已迷失了方向。泰勒说:“我在PARC的大量同事已对该研究中心不再抱任何希望,因此他们就到了我这儿。”他以PARC计算机科学研究室为原型,而创建了src实验室。从某种程度上讲,泰勒这一举措也取得了成功。
但与大量其他企业所运营的研究机构一样,src实验室也有其弱点。该实验室的最新技术研发成果,需要很长时间才能转化为投放市场的产品。这种情况也适用于DEC旗下的Western实验室。正是这种原因,最终迫使曾在Western实验室工作的迪恩加盟谷歌。迪恩说:“技术与真实用户的分离,也是我最终考虑加盟一家科技创业公司的原因。”
只是谷歌并不是寻常意义上的科技创业公司。谷歌所制定的管理措施,能够使该公司在完成技术开发后迅速投入使用。谷歌既可说是研究型机构,也可以说并非如此。格马瓦特说:“谷歌架构工作并不是当成研究项目,这些工作让我们能够解决产品中遇到的问题。”
对某些谷歌员工而言,谷歌核心架构技术开发工作的缺点是:你不得告诉任何人你正从事的工作。这也是谷歌工程师阿米尔·迈克尔(Amir Michael)选择从谷歌离职并加盟Facebook的原因之一。尽管如此,谷歌有时也允许这些员工发表自己的研究成果甚至公开讨论相关问题。
对谷歌而言,这无疑是一种平衡手段。虽然仍有不少人对这种方式颇有微辞,但不能不说该手段很有效。不可否认的是,谷歌的这些方式已推动了整个互联网产业向前发展,而施乐PARC研究中心从未有过这样的佳绩。
转至:http://blog.sina.com.cn/s/blog_5c57b5190102e0dx.html
英文:http://www.wired.com/wiredenterprise/2012/08/google-as-xerox-parc/
google Caffeine && Pregel && Dreme
http://www.csdn.net/article/2012-08-21/2808870-Google-Hadoop-versus-Dremel
发表评论
-
google_new VS apache
2012-11-19 10:34 814Google后Hadoop时代的新“三驾马车”——Caffei ... -
存储空间大小
2012-11-02 10:51 1039[align=left][/align].MegaByte ( ... -
python
2012-10-29 21:23 1029tar -xvzf Python-2.7.3.tgz ./c ... -
杂七杂八
2012-09-05 14:37 947******************************* ... -
"hello world.." 生命周期
2010-09-26 11:05 0pelase wait...
相关推荐
第一级是指2015年3月份以BAT(百度、阿里巴巴、腾讯)、谷歌和苹果等科技巨头掀起的智能汽车产业浪潮;第二级则是在资本的推动下,亚太股份、金固股份、均胜电子等企业进行的大规模并购,预示着行业整合的浪潮即将...
谷歌地球6.1.0.4738通过不断的技术迭代和完善,为用户提供了一个直观、互动的地球探索平台,让每个人都能够跨越地域限制,随时随地感受世界的多样性和美丽。这款软件不仅改变了我们查看世界的方式,也为我们打开了...
这些项目展示了谷歌如何通过技术创新改变世界,并持续引领行业趋势。 此外,书中的内容可能还涉及谷歌的全球扩张策略、市场定位以及与竞争对手的博弈,例如与微软的较量,或者在隐私保护和用户数据方面的争议。这将...
使用Google意味着你需要不断地拓展令人震惊的新技术。在Google地图刚刚在互联网环境中测试时,我简直不敢相信我自己的眼睛。地图本身的高娱乐性、高可用性具有超越的技术,带你进入一个魔幻王国。我可以在计算机的...
总之,谷歌作为全球领先的科技公司之一,其对中国市场的影响不仅体现在商业层面,更重要的是通过推广开源文化、提供免费服务等方式深刻改变了互联网行业的生态和发展方向。尽管面临着各种挑战,谷歌仍然在全球范围内...
在语言处理方面,谷歌Assistant通过深度神经网络改进语音识别和理解,而谷歌翻译则利用谷歌神经机器翻译技术,将整个翻译过程集成到深度学习环境中,提高翻译质量。 在YouTube上,深度学习也发挥了关键作用。通过...
Google,这个全球知名的搜索引擎巨头,以其独特的创新技术和强大的市场影响力,改变了互联网的格局。本案例分析将深入探讨Google的成功之道,以及其所面临的挑战,通过对宏观环境的PEST分析、行业竞争的波特五力模型...
Magic Leap的愿景是通过这种技术改变人们感知和互动世界的方式,为用户提供超越传统视觉体验的新奇感受。然而,尽管Magic Leap的创意令人兴奋,但目前它还没有实际的产品上市,其高达20亿美元的估值主要基于对未来...
在互联网技术日新月异的今天,浏览器成为了我们访问网络世界的重要窗口。然而,由于历史原因,Internet Explorer(IE)浏览器在某些方面,尤其是在对现代Web标准的支持上,相对落后。为了解决这个问题,谷歌推出了名...
GIS(Geographic Information System,地理信息系统)是一种集成了计算机硬件、软件和地理数据的系统,用于获取、存储、管理...随着技术的不断进步,我们可以期待更多创新的应用出现,改变我们对世界的认知和互动方式。
- 虚拟现实技术正在改变我们交互和体验世界的方式。 3. **网络浏览和资源检索**: - 常见的网页浏览器包括Internet Explorer、Maxthon、Firefox、360浏览器以及迅雷看看浏览器。 - 搜索引擎如百度和Google是获取...
总的来说,大数据技术的研究和应用不仅改变了数据的处理方式,也正在深刻影响着商业模式和社会运行的方方面面。随着技术的不断演进,我们可以预见大数据将在未来的信息时代发挥更大的作用,引领我们进入一个更加智能...
信息技术是当今世界发展的重要驱动力,它涉及到信息的获取、处理、存储、传播以及管理等多个环节。本章主要探讨了信息的基本概念和特征,以及信息技术的发展历程和未来趋势。 首先,信息是事物运动状态和变化方式的...
知识图谱是一种结构化的知识表示方法,用于描述和组织现实世界中的实体(如人、地点、事物)及其相互关系。这种技术的兴起源于互联网数据的快速增长,尤其是Linking Open Data项目推动的语义Web数据源的增加。知识...
AR(增强现实)和VR(虚拟现实)是两种在当今技术领域备受关注的技术,它们正在逐步改变我们的生活方式和工作方式。AR技术通过将数字信息叠加到现实世界中,创造了一个混合现实的体验,而VR则通过模拟一个完全的虚拟...
谷歌考虑在美国生产这种汽车,利用其先进的导航和信息技术,甚至可能在乘客游戏时推送定向广告。 5. **机器人技术**:Google X实验室在机器人领域的研究尤为突出,包括自动化家庭助手、远程办公助手等,目标是让...
【谷歌的运营剖析】 ...这种模式使得谷歌能够持续引领科技创新,不断推出改变世界的产品和服务。通过深入剖析谷歌的运营,我们可以看到一个成功企业如何通过创新思维和独特的企业文化,实现长期稳定的发展。