`
xpp02
  • 浏览: 1048250 次
社区版块
存档分类
最新评论

揭秘Microsoft Bing与Google搜索背后的故事

 
阅读更多

导读:Google搜索引擎已经赢得全球范围的赞誉,而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。

Harry Shum已经在Microsoft研究院工作了11年,现在他负责研发Microsoft Bing搜索引擎,以对抗Google 搜索。(图片来自Microsoft)

在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为“Caffeine”。Caffeine是Google出自自身的设计,Caffeine使Google能够更迅速的添加新的链接(包括新闻报道以及博客文章等)到自身大规模的网站索引系统中,相比于以往的系统,新系统可提供“50%新生”的搜索结果。

而这一切都要归功于Google开创性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后台支持Google算法的基础设施才是真正的幕后英雄,其基础设施可快速的索引链接成千上万台普通服务器。MapReduce的成功也直接推动了Hadoop的发展。现今从Facebook、Twitter、eBay、LinkedIn以及eBay都受其影响,而为了适应大数据时代的浪潮他们必须有进一步的举措。

Google在基于Web的分布式计算系统领域已经赢得了赞誉。而Microsoft Bing搜索引擎的负责人Harry Shum认为Microsoft虽然没有“Caffeine”的支持,但Bing搜索(利用数以万计的服务器软件平台处理数据)的能力丝毫不输给Google。Google Caffeine的优势在于快速抓取、编制索引和服务器文档。而Bing在这方面也是非常出色的。但这一切都需要基础设施的支持。

Harry Shum于2007年加入Bing团队,Harry Shum已经在Microsoft研究院工作了11年。Harry Shum的目标就是让Bing在搜索引擎领域技术赶上Google。在过去五年中,Google仍旧是全球最出色的搜索引擎,有人预计其市场占有率可能高达85%或90%。但Harry Shum深信Bing终将在技术水平上赶超Google。多年来,我们一直在努力完善,在经过持之以恒的努力后,Bing的搜索质量已经接近Google的水平。Harry Shum说到。

毫无疑问,Google不会赞同Harry Shum的说法,Google的工程师认为Caffeine是非常重要的。Caffeine索引覆盖1亿GB数据。Caffeine可在几秒或几分钟的时间从新闻网站或博客中添加内容。

Harry Shum认为Bing索引系统与Caffeine不同。他表示虽然Google声称他们一些重大的技术是最新的。但Caffeine的一些功能Bing已经在内部运行了。但同时我们也要构建新的技术,以完善我们的系统,我们也在这样做着。

当讨论软件时,无论是Google还是Microsoft都避而不谈支撑他们搜索引擎和其他Web服务的技术。但Harry Shum表示驱动Bing的专有软件平台被称之为Cosmos。这在Microsoft研究院发布研究论文有所提及。Cosmos类似于Google构建与MapReduce之上的GFS(Google File System)。Harry Shum同时表示Microsoft正在设法完善并扩大Cosmos平台,以便使之能够帮助Bing搜索引擎达到实时收录的地步。

在Google采用Caffeine之前,Google使用MapReduce和分布式文件系统(如GFS)来构建搜索索引(从已知的Web页面索引中)。MapReduce是一种处理大型及超大型数据集并生成相关的执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。MapReduce将整个任务分解成成百甚至上千块小任务,然后发送到计算机集群中。

Google的网络爬虫会从整个网络中抓取相关的文件信息。然后将信息分发到Google全球配置了GFS的网络服务器中。而MapReduce负责在服务器协调数据处理的任务,以便可以将处理好的所有数据分配到人们实际搜索的页面索引中。在Google刚刚推出搜索引擎时,MapReduce每个月都会建立新的索引。后来,Google改善了系统,并逐步减少re-crunch索引所需的时间。但当需求达到新的高度时,就需要动态的方式来更新索引。于是Google进入了Caffeine时代。

Goolge的技术使得系统可以很快的抓取页面并添加到索引之中。在过去,因为在每次更新索引要分析整个Web,这导致Google需要处理大量的索引页(数十亿的文档)。但自从Google采用Caffeine后,Google只需从Web中分析其中的一小部分,所以Google可以持续不断的更新索引。

在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。Bigtable的出现也彻底改变了Google的索引机制。Google正在构建新版本的GFS,其被称为GFS2,但在Google内部GFS2被称为Colossus。

Hortonworks CEO Baldeschwieler认为Google将Caffeine用于搜索中是非常令人信服的创意。当Baldeschwieler还在Yahoo工作时,公司曾考虑过这样的平台,但因为昂贵的成本最终决心走Hadoop路线。

Microsoft的Harry Shum表示相对于Google Caffeine,Microsoft选择了不同的道路和发展方向。虽然他并没有透露过多的细节,但Harry Shum表示Microsoft目前基于Cosmos平台是更多并行的数据库。

Dryad在微软软体系结构中的位置

去年,微软曾公布了建立与Cosmos之上的Dryad框架,这个类似MapReduce的框架一直驱动着Bing。但目前无法得知Dryad在Bing搜索引擎中占据怎样的角色。其实Dryad也并非微软的新产品,Dryad和DryadLINQ早在微软收购Powerset之前就已经存在。微软于2007年首度揭晓了关于技术的研究成果,并于2009年向学术界推出了非商业版Dryad和DryadLINQ。但与MapReduce不同的是,Dryad是针对运行Windows HPC Server的集群计算设计的,而非Linux。

Mike Olsen表示Dryad在许多方面都优于Hadoop,Dryad是经过精心设计的。但Microsoft已经在去年决定Hortonworks合作提供Windows平台之上的Hadoop,目前还不清楚Microsoft是否还会继续研究Dryad。然而Harry Shum表示Microsoft将继续经营Cosmos以及其周边的平台和基础设施项目。

Hortonworks CEO Eric Baldeschwieler表示不会使用Cosmos和其他的Microsoft搜索平台的基础设施工具。在大多数情况下,那些技术仅用于Microsoft内部。同时Baldeschwieler也证实了Cosmos和Dryad确实类似GFS和MapReduce,但他表示他并不了解Cosmos上并行数据库的讯息。

Mike Olsen表示”当MapReduce刚刚出现时,世界领先的数据库设计人员都对它嗤之以鼻,在数据库领域的所有人(包括我自己)都认为这是一个笑话。但Mike Olsen最终意识到MapReduce不应该只是一个数据库,它的目的与众不同,他们从未打算将它作为数据库使用。大数据时代数据呈现不同的类型并需要不同的分析方法,而MapReduce正是为了解决这一问题的方案。

对MapReduce的全新认识也改变了Mike Olsen的想法,后来Mike Olsen创建名称为Cloudera的公司,公司业务全部围绕Hadoop展开。Cloudera提供的服务不仅提供给网络公司,还跨越了众多的行业。

Google与Microsoft在搜索领域的游戏还会继续下去,双方都意识到快速的更新索引已经变得非常重要。Google与Microsoft都在想一个新的方向发展(分布式数据库)。存储数据的设备分布在全球的服务器之中将成为未来趋势,但这同时需要更有效的组织方式。但这绝不是终点,搜索引擎技术的演进还会继续下去。(李智/编译)

原文链接:Wired


分享到:
评论

相关推荐

    jQuery微软Bing搜索引擎

    jQuery微软Bing搜索引擎是将流行的JavaScript库jQuery与微软的Bing搜索引擎API相结合,以实现高效、用户友好的网页搜索功能。这个应用实例旨在提供一种方式,让开发者能够轻松地在自己的网页应用中集成强大的Bing...

    卢松松:Bing与Google搜索排名因素研究.docx

    《Bing与Google搜索排名因素研究》 在SEO(搜索引擎优化)领域,了解各大搜索引擎的排名因素至关重要。本文主要探讨了Bing和Google这两大主流搜索引擎的排名算法,并揭示了一些重要的变化趋势。 首先,传统的HTML...

    google,baidu,bing网页搜索(java实现)

    bing搜索需要一个微软的appid,可以用我的,也可以自己去免费申请。bing会限制每个appid的每天查询次数。 google和baidu的结果很好,bing的服务器好像常常连不上去。。。 google实现的时候尤其需要一个user-agent域...

    bing、baidu搜索引擎爬虫 python3.6 and scrapy

    本项目主要关注的是使用Python3.6和Scrapy框架构建针对Bing和百度这两个主流搜索引擎的爬虫。下面将详细介绍这两个搜索引擎爬虫的相关知识。 首先,Python3.6是Python编程语言的一个版本,它具有强大的标准库,尤其...

    抓取Bing 搜索引擎的搜索结果的python 脚本

    本篇文章将深入探讨如何使用Python编写一个脚本来抓取Bing搜索引擎的搜索结果,这涉及到网络爬虫的基本原理、Python的相关库以及如何处理抓取的数据。 首先,我们需要了解Python中的网络请求库,如`requests`。`...

    Google Bing 搜索脚本

    Google Bing 搜索脚本,#keyword 是关键字,page是搜索引擎的页码,一般需要做个循环跑n个页面,engine 可以选择 GOOGLE 或者 BING, 国家可以选择 按照搜索引擎的规则一般ID = Indonesia ,#Start_data 和end_data...

    搜索链接集合,集百度Bing谷歌搜狗360搜索于一体,无广告,可在同一界面使用多种搜索引擎进行搜索

    标题中的“搜索链接集合”指的是一个工具或者平台,它整合了多个搜索引擎的功能,包括百度、Bing、谷歌和搜狗,以及360搜索。这样的工具通常是为了方便用户在不切换不同网页或应用的情况下,一站式地获取来自多个...

    爬虫用于爬取Bing搜索引擎的n页标题,可以改进后作为一个小的搜索api

    标题中的“爬虫用于爬取Bing搜索引擎的n页标题,可以改进后作为一个小的搜索api”揭示了这个项目的核心内容。它是一个Python爬虫程序,设计用来抓取Bing搜索引擎的结果页面,提取每一页上的搜索结果标题。这样的爬虫...

    使用Jqery和Bing搜索来实现自定义搜索功能的Demo

    Bing搜索API则允许开发者在自己的应用中嵌入Bing的搜索功能,以获取和展示与用户查询相关的数据。 首先,`presentation.css`和`core.css`是样式表文件,用于定义页面的布局和视觉样式。CSS(Cascading Style Sheets...

    基于PHP的必应bing网页搜索php程序v1.0源码.zip

    【标题】"基于PHP的必应Bing网页搜索php程序v1.0源码"是一个使用PHP编程语言实现的Web应用程序,它允许开发者通过API与微软的Bing搜索引擎进行交互,实现网页搜索功能。这个程序可能包含了一系列PHP脚本,用于发送...

    仿bing搜索首页图片效果

    本项目主要关注的是如何使用JavaScript实现一个类似于Bing搜索引擎首页的图片效果,特别是在鼠标悬停时显示文字说明框的功能。这一效果可以增强用户对图像内容的理解,使得网站更具吸引力。 首先,我们要理解Bing...

    Firefox: 将Bing搜索默认设置为英文

    标题“Firefox: 将Bing搜索默认设置为英文”指的是在Mozilla Firefox浏览器中更改默认搜索引擎为Bing的英文版本。这个操作可能对于那些希望在Firefox中使用Bing进行英文搜索的用户来说非常有用,因为默认情况下,...

    调用bing搜索api 本地网站实现搜索功能

    调用bing搜索api 本地网站实现搜索功能 并借用fiddler软件 解决跨域问题 伪装服务器 本地实现该搜索功能

    微软Bing突然爆炸级更新!无需等待人人可用

    在互联网行业中,"爆炸级更新"通常意味着产品在功能、性能或用户体验方面有了显著的改进,这可能使得Bing在与Google等其他搜索引擎的竞争中更具优势。 描述中的“无需等待人人可用”意味着这次更新对所有用户开放,...

    关闭或删除IE8浏览器自带Bing搜索器的方法与步骤

    ### 关闭或删除IE8浏览器自带Bing搜索器的方法与步骤 #### 背景介绍 在使用Internet Explorer 8(简称IE8)浏览器时,可能会遇到一个令人头疼的问题:当你在地址栏输入一个已知的网址并点击搜索按钮时,并没有直接...

    微软Bing突然无需等待人人可用.zip

    8. **持续迭代与竞争**:在Google等竞争对手的压力下,微软Bing的更新展示了搜索引擎市场的激烈竞争,以及科技公司不断推动创新以保持市场竞争力的态势。 综上所述,微软Bing的这次变化体现了AI技术在搜索引擎领域...

    微软Bing突然无需等待人人可用

    标题中的“微软Bing突然无需等待人人可用”指的是微软的搜索引擎Bing最近进行了重大更新,使得全球用户可以更轻松地访问并使用其服务,不再受到特定区域或等待名单的限制。这一变化可能与微软在人工智能领域的最新...

Global site tag (gtag.js) - Google Analytics