`

图解Google搜索技术

阅读更多

原文 http://server.51cto.com/NGDC-221158.htm

 

谷歌(Google),一个非常成功,但又十分神秘,而且带有几分理想化色彩的互 联网搜索巨人,它还是一家相当了不起的广告公司,谷歌首页上的那个搜索按钮是其年赢利200亿美元的杀手级应用,也是Internet首屈一指的商业和技 术神话。近日国外一家网站(PPCblog)精心绘制了一张谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在 那不到1秒的响应时间内所进行的处理。

在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内,它做了什么?互联网上的内容如何被谷歌找到?什么样的内容会被收录?想必大家一定都想知道谷歌搜索按钮背后的秘密吧。别急,开始之前我们先来看一下神秘的谷歌数据中心。

谷歌自家设计服务器

谷歌的数据中心高度机密,我们所能得到的信息十分有限。我们先来看几个数据:谷歌在美国本土的数据中心有19个以上,另有17个分布在美国以外的世 界各地;每个数据中心有50万平方英尺(46450平方米),建造一个数据中心要花费约6亿美元;谷歌的数据中心是世界上最高效的设施之一,非常环保;数 据中心使用50-100兆瓦的电力,考虑到冷却问题,通常建在便于用水的地方;谷歌的服务器被安置在标准的海运集装箱中,每个集装箱可容纳1160台服务 器。关于谷歌的数据中心,我们就只知道这么多了。

神秘的谷歌数据中心
图1 谷歌自家设计的服务器 

神秘的谷歌数据中心
图2服务器自备电池

谷歌拥有的数十万台服务器都是自己设计的,它们认为这是公司的核心技术之一(51CTO推荐文章:Google要出服务器?英特尔要小心了 )。每台服务器都配有一颗12伏电池,确保万一主电源断电时还可持续供电。

至于为什么为每台服务器配备电池,谷歌的回答是成本。一般数据中心多依赖UPS(不间断电源系统),这基本上算是大电池,会在主电力失效而发电机还 来不及启动时暂时协助供电。而谷歌认为直接把电力内建到服务器更便宜,而且成本能直接跟服务器数量相符合,如此便不会浪费多余的容量。另一个原因是效率, 大型UPS可达92-95%的效率,这意味着许多电力还是被浪费掉了,但谷歌采用的内建电池作法效率超过99.9%。

神秘的谷歌数据中心
图3 谷歌的服务器被安装在集装箱中,每个集装箱容纳1160台

神秘的谷歌数据中心
图4工作中的谷歌员工

 

谷歌如何找到并收录你上传的内容?

谷歌如何找到并收录你上传的内容?
图5发生在用户搜索之前

谷歌使用它的"爬虫"工具在一刻不停地周游互联网世界的每一个角落。上图中间的6个步骤依次描绘了从内容出现在互联网上到内容被收录进谷歌的数据库 供用户检索这一过程,其中第2、3、5步又有许多分支,所有这些都是为了建立一个信息"集汇池",这是第一个阶段的工作,第二个阶段才是从这个"池"中为 用户筛选他们所需要的内容。接下来我们一步步看谷歌是如何搜集并整合信息的。

1、网友上传内容,比如博客、微博或其它类型的WEB内容被更新到网上。

2、Google的"爬虫"发现了这一更新。在这一步,谷歌加入了许多判断机制,主要包括以下几点:

2.1、Google的"爬虫"沿着链接路径(URL)周游互联网,但如果没有URL指向某一站点,则这一站点将不会被索引。

2.2、如果你在robots.txt中设置了不许索引(部分或全部),Google的"爬虫"将不会抓取你站点上的相应内容。

2.3、如果指向你站点的连接上有nofollow标签,Google的"爬虫"将不会从这些URL路径来到你的站点。如下图:

谷歌如何找到并收录你上传的内容?谷歌如何找到并收录你上传的内容?
图6 图7 网页原代码中的nofollow标签

URL就像是Google"爬虫"周游互联网时的路标,谷歌当然希望收录有价值的网页,所以必须采取一种机制分辨哪些URL是垃圾信 息,nofollow标签正是谷歌所倡导的方法之一。网站的合法更新人员几乎不会上传垃圾URL,但它们往往大量出现在评论跟帖和论坛中,就像上图中的例 子,这些URL对于谷歌来讲是没有意义的,为了防止"爬虫"经由这些URL到达某一站点,在源代码中它们都会自动被加上nofollow标签。

2.4、Google也能通过blog软件或xml站点地图找到你的网站。

2.5、从权威性越高的网站链接到你网站的URL越多,你的网站的权威性也就越高,但Google"爬虫"始终会忽略被加上了nofollow标签的URL。

上面这几点大概就是谷歌在收录信息时对内容提出的"准入"要求,看来在一些开放的地方(比如论坛)大量发布URL以求让谷歌关注,这一小伎俩是没有什么效果的。以上是信息被谷歌收录之前所发生的事,一旦信息被谷歌收录了会发生什么呢?请往下看:

谷歌如何找到并收录你上传的内容?
图8信息"素材"的存储

3、信息被谷歌收录之后当然也要进行加工处理,主要包括两个步骤,一是信息"素材"的存储,二是对收录的信息按要求进行优化,上图描绘了"素材"的 存储方式,主要包括两部分:网页标题和链接数据被保存在一个索引中,用于广度优先搜索(可见文章标题是多么的重要,做编辑的一定要有驾驭标题党的觉悟); 网页内容保存在另一个索引中,以用于检索频率不高的长尾、个性化、深度优先搜索。

此时可能你已经明白了,当你用谷歌搜索时,你并没有在检索时时更新的互联网,而是在检索谷歌的缓存,只是谷歌更新的速度非常快,以让其缓存尽量与互联网上的内容同步。

谷歌如何找到并收录你上传的内容?
图9优化已收录的信息

4、谷歌基于URL评估域名和网页的总体权威性。

5、检查网页以防止作 弊行为,包括以下几点:

5.1、谷歌的搜索质量和反垃圾信息审查。

5.2、1万多远程测试用户评价搜索结果的质量。

5.3、谷歌征请用户对有PageRank讹诈嫌疑的垃圾信息进行举报。

5.4、谷歌根据数字千年版权法(DMCA)去除盗版内容。

6、在对页面进行分析之后,每个页面都被附加上很多用于辅助用户搜索的数据片。

从信息出现在互联网上到被谷歌收录,然后谷歌对这些数据进行分析优化,至此,一个实时更新的互联网信息"集汇池"就建立起来了,可以说谷歌存储着整 个互联网的快照。以上就是我们在按谷歌搜索按钮之前它所做的事情,接下来我们看一下谷歌如何响应用户的搜索请求,另外谷歌的广告是如何来到我们面前的,不 要忘记,谷歌可是靠广告营生的。

只要有人用谷歌的服务它就能从中赚钱,就怕像安卓(Android)手机系统那样,有些流氓厂家把安卓装在了自己的智能手机中,但是把其上谷歌的各种服务全部抹掉,改用自己的服务,这样谷歌当然不干了,所以安卓一更新,这些流氓手机厂家就紧张。

 

谷歌如何帮助用户进行搜索?

谷歌如何帮助用户进行搜索?
图10从用户开始检索到生成初步结果

从用户开始检索到生成初步结果(这时的结果并不会直接呈现给用户),经历了4个步骤:

1、用户发出搜索请求。谷歌搜索质量工程师PatrickRiley说:在大多数搜索中,你的搜索处于多个并行的控制过程或谷歌实验室的创新项目组过程中,可以说每一个查询请求都会参与一些谷歌的创意实验。我们都是小白鼠?

2、谷歌会对用户输入的关键词提供一些建议。

3、谷歌会用同义词匹配与你的搜索关键词语义相近的查询结果。

4、生成初步的查询结果,虽然谷歌宣称可以找到成千上万的相关结果,但一般只显示不到1000条,同时查询结果将被进行本地化处理,本土站点在查询结果中优先出现。

分享到:
评论

相关推荐

    复杂的1秒图解Google搜索技术

    **标题:“复杂的1秒图解Google搜索技术”** 在当今信息爆炸的时代,搜索引擎扮演着至关重要的角色,而Google作为全球最知名的搜索引擎,其搜索技术无疑是业界的翘楚。本篇文章将深入探讨Google如何在短短1秒钟内...

    图解网站分析

    4. 搜索引擎优化(SEO)分析:网站的搜索引擎排名对流量有直接影响,因此SEO分析对于提升网站可见性非常重要。分析的关键因素包括关键词选择、内容质量、网站结构、反向链接等。 5. 内容分析:内容是吸引和留住用户...

    Python-使用图解卷积网络和引导树搜索的组合优化

    在IT领域,特别是机器学习和优化算法的应用中,"Python-使用图解卷积网络和引导树搜索的组合优化"是一个前沿的研究主题。这个项目利用了深度学习与传统搜索算法的结合来解决复杂的计算问题,具体是最大独立集问题。...

    bios设置图解教程

    遇到困难时,不应立刻求助他人,而是要学会利用搜索引擎(如百度、Google)查找答案,了解问题背后的原因。这不仅能提升自我解决问题的能力,也有助于从菜鸟成长为高手。 总之,BIOS设置并非高深莫测,只需了解基本...

    图解电子商务.pptx

    《图解电子商务》第六章详述了电子商务的交易流程,主要涵盖了信息搜索、商务谈判与协议签订、资金流和物流的处理。以下是本章的核心知识点: 1. **电子商务信息搜索**: - **主题指南**:这是一种人工创建的、...

    图解生命保险2009-2010版目录图解生命保险目录Part3

    4. 图像处理技术:这些.jpg图片可能需要进行数字化处理,例如OCR(光学字符识别)技术,将图像中的文本转换为可编辑和搜索的数据,便于进一步分析。 5. 云存储与备份:在IT领域,存储和备份如此大量的图像文件通常...

    Web2.0的生动图解

    如今我们经常说起Web2.0,那么,什么是 Web2.0?它与Web1.0有什么不同?...在Google或百度搜索一下Web2.0会找到一些详细的Web2.0解释,与其看这些解释 何不“看图识字”呢?这篇文章从图片出发解释什么是Web2.0。

    seo关键词研究图解

    SEO(搜索引擎优化)是提升网站在搜索引擎结果页中排名的关键技术。关键词研究是SEO工作的核心环节,它决定了网站内容的定位、优化策略以及潜在访问者的吸引力。本文将深入探讨SEO关键词研究的过程,帮助你理解如何...

    SQL2005安装图解.pdf

    面对这些问题,除了查阅官方文档,利用Google、百度等搜索引擎寻求解决方案也是一种高效的方法。 - **终极解决方案**:当遇到难以解决的技术难题时,重装系统虽然看似极端,但在某些情况下却是最有效的解决手段。...

    AMI系列的BIOS设置图解教程

    - **建议**:利用搜索引擎(如百度、Google)查找解决方案,培养独立解决问题的能力。 #### 四、AMI BIOS设置详解 ##### 1. 进入BIOS设置界面 - 开机过程中迅速按下指定按键(通常是Delete或F2键),进入BIOS设置...

    BIOS设置图解教程文件

    遇到问题时,不应过分依赖他人帮助,而应学会利用网络资源,如百度、Google等搜索引擎查找解决方案。独立解决问题是提升技能的关键,正如从菜鸟成长为高手的过程。 在BIOS设置过程中,了解每个选项的作用并实践操作...

    BIOS设置图解教程.doc

    高手倾向于自己寻找答案,使用搜索引擎如百度或Google搜索错误提示,从而找到解决方案。因此,当你遇到问题时,不要急于求人,而是要学会主动学习和解决问题,这将使你更快地成长为计算机高手。 总的来说,BIOS设置...

    8个基本笔画运笔图解全集图.doc

    "8个基本笔画运笔图解全集图.doc"更倾向于属于书法或艺术教育领域,主要涉及的是汉字书写的基础元素。然而,您要求的是IT行业的详细知识点。因此,我将尝试从“文档”这一标签出发,探讨在IT行业中与处理、编辑和...

    Android 开发环境搭建步骤详细图解

    ### Android开发环境搭建步骤详细图解 #### 一、背景与准备 1. **Android简介** Android是由Google在2007年11月5日宣布推出的一个基于Linux平台的开源手机操作系统。该系统包括操作系统层、中间件、用户界面以及...

    清华:人工智能知识图谱.pdf

    知识图谱的概念最早由谷歌提出,并在2012年被成功应用于其搜索引擎中。它不仅为互联网提供了一种新的组织和理解海量信息的方式,而且在语义搜索和智能问答等领域发挥着关键作用,成为了互联网知识驱动的智能应用的...

    领带的十种打法图解

    7. **搜索引擎优化**:网站为了让用户能轻易找到“领带的十种打法图解”,可能进行了SEO(搜索引擎优化)工作,如关键词选取、元标签设置和内容优化,这些都是网络营销策略的一部分。 尽管这些内容与原始主题“领带...

    BIOS设置图解过程(装系统自己搞定).docx

    遇到问题时,可以借助互联网资源,如百度、Google搜索解决方案。 7. **BIOS设置流程**: - 开机时按特定键(通常是F2、Delete或Esc)进入BIOS。 - 通过方向键选择各设置项,Enter键进入子菜单,F10通常用于保存并...

Global site tag (gtag.js) - Google Analytics