阅读更多
作为全球使用最广泛的搜索引擎,谷歌算法一直有一层神秘面纱。近日谷歌工程总监斯科特·霍夫曼讲述了谷歌算法的幕后故事,称2011年有520多项改进,自2003年到现在,Google搜索已解决4500亿个搜索请求。


谷歌搜索演进


斯科特还透露,谷歌一个搜索请求平均往返于电脑和数据中心单程距离是750英里,这也意味着一次搜索请求平均往返需要1500英里,约合2400公里。

据了解,斯科特•霍夫曼加入谷歌已逾5年,负责领导搜索质量评估和移动搜索团队,还撰写数十篇学术论文,内容涵盖信息检索、机器学习和信息提取领域,专注搜索领域已超过15年,对谷歌算法有很高发言权。斯科特说,十年前搜索可能只是针对于关键词进行意思和上下文匹配,现在谷歌更了解用户想干什么,而不是表面字词匹配。搜索引擎呈现结果给用户看起来比较简单,但实际背后有一系列复杂流程,并在1秒钟内完成。“谷歌通常只需0.25秒便可对搜索请求做出回应,而人平均每眨一次眼睛需0.1秒。”


谷歌算法原理


谈及谷歌算法原理,斯科特说最基本的概念是索引,即谷歌搜索机器人扫描或搜索几十亿网页后建立索引,再把索引库分成几部分,放在几千台计算机上,再复制到全球各地数据中心去,这样谷歌就可以在全球各地完成搜索任务。

谷歌算法的流程是用户提交搜索请求,根据用户具体地理位置,谷歌将搜索请求发送到全球各地数据中心,数据中心再把需求散发到几千个计算机上去,根据目录和用户提交请求的关键词匹配,找到正确邮件或网页。谷歌从中挑选相关性最高且最新的一些数据,或搜索结果,再把这些搜索结果根据不同属性和指标排名,确定最合理搜索引擎结果相匹配。平均来说,谷歌每一个搜索请求,往返于电脑和数据中心单程距离是750英里。

谷歌每年会对一些新构思进行必要性评估,如果评估后认为合理就会做一些小规模试验,主要是请一些独立评估员,针对几百个搜索请求做两组结果来进行对比,一种是使用普通搜索方法做基本组,另一个是对比组,采用新构思。比较这两组搜索结果哪个相关性和搜索质量更高。之后在通过在线实时实验随机挑选用户参与新构思的体验。

“如果你是一个谷歌用户,而且经常使用谷歌搜索,可能在不知不觉间,已参与在线实施的试验,你所得到的搜索结果,也许就是用新构思方法得到的搜索结果。谷歌在任一时刻都在进行200多项在线实时试验。”


谷歌算法搜索体验提升的三部曲


通过这些实验,谷歌可以不断提升用户搜索体验,诸如在搜索结果中剔除垃圾信息;根据用户需求改变搜索界面呈现的结果数量;相同词在不同地域搜索,呈现的结果不同。斯科特透露,谷歌在2011年进行了41931次必要性评估、9250次小规模试验、7363项在线实时实验,最终完成了520多项改进。


谷歌搜索排名


斯科特指出,谷歌对不同搜索请求的衡量指标不同,比如查某一个疾病问题,用户最重视的是网页权威性有多高,而不是呈现某一个博客谈到这种疾病。在这样搜索情况下,网页权威性权重最高。此外,搜索的相关性还与区域位置和时间相关,比如用户人在北京,搜索上海餐馆的价值就不大。再如搜索一个重大事件,会发现这个重大事件发生的后一天得到的搜索结果和前一天搜索结果完全不同。

据斯科特介绍,谷歌搜索算法进行了一系列重大改进,包括新鲜度算法调整、优质网站算法调整、页面布局算法调整等部分,其中,新鲜度算法调整是指在某些情况下,Google需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索“奥运会”,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于1984年奥运会的陈旧信息。

优质网站算法调整对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名。页面布局算法调整这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度 ,提高信息容易被搜索到的网页的排名。

斯科特称,随着Facebook、Twitter这些社交化网站发展,个人化的搜索结果会越来越重要。谷歌近年来推出Google+等产品,在搜索中也融入了社交化的因素。从谷歌来说,会不断把社交媒体信息整合进来。

  • 大小: 38 KB
  • 大小: 31.2 KB
  • 大小: 33.6 KB
  • 大小: 43.8 KB
  • 大小: 54.1 KB
来自: 腾讯科技
16
0
评论 共 19 条 请登录后发表评论
19 楼 liningjustsoso 2012-03-14 12:45
以前挺喜欢用谷歌的,后来被国家和谐的太厉害了,就慢慢用百度了,虽然搜索到的结果不尽人意,但能保证最起码的访问。
18 楼 object_object 2012-03-13 22:21
强烈支持google,坚决抵制垃圾百度
17 楼 yidao620c 2012-03-13 21:58
onlyonce 写道
aa87963014 写道
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了


是能搜,不过还是不能打开相关网页的

可以打开的。我的没问题。太强悍了,太恐怖了。
16 楼 onlyonce 2012-03-13 17:35
aa87963014 写道
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了


是能搜,不过还是不能打开相关网页的
15 楼 aa87963014 2012-03-13 11:29
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了
14 楼 神之小丑 2012-03-13 10:33
lioncin 写道
神之小丑 写道
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样

我很好奇 这个原理是什么

会不会是因为 https 是加密传输,使gfw过滤不到了
13 楼 lioncin 2012-03-13 10:23
神之小丑 写道
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样

我很好奇 这个原理是什么
12 楼 神之小丑 2012-03-13 09:17
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样
11 楼 yawei 2012-03-13 01:01
hebe5467 写道
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字

你说你姓什么不好,非要姓吴。
10 楼 don43 2012-03-12 22:49
用 https://www.google.com.hk/   https可以搜
9 楼 jzl_root 2012-03-12 18:59
hebe5467 写道
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字

正确
8 楼 xpf7622 2012-03-12 17:50
Google被和谐了。
7 楼 hebe5467 2012-03-12 16:35
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字
6 楼 tommet 2012-03-12 15:19
真刺激
5 楼 xiaoxin5230 2012-03-12 13:51
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧
4 楼 12345678 2012-03-12 12:52
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?
3 楼 ini_always 2012-03-12 12:26
dieslrae 写道
aa87963014 写道
在当今,无论搜索什么内容google会间歇性访问不了

搜胡萝卜一定访问不了


这是为神马,因为有“胡”字?
2 楼 dieslrae 2012-03-12 11:35
aa87963014 写道
在当今,无论搜索什么内容google会间歇性访问不了

搜胡萝卜一定访问不了
1 楼 aa87963014 2012-03-12 10:56
在当今,无论搜索什么内容google会间歇性访问不了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 淘宝仲明:揭秘阿里运维部的故障响应机制

    虽然这一场被安排在了下午5点以后,但现场的观众们仍然很热情,同时很多场外的观众们也大呼可惜,感叹自己没能请假来跟台上的讲师交流一番。 《购物狂欢节的运维故事》,站在台上的讲述者是刘勇,花名仲明,阿里...

  • 专访淘宝仲明:揭秘阿里运维部的故障响应机制(

    虽然这一场被安排在了下午5点以后,但现场的观众们仍然很热情,同时很多场外的观众们也大呼可惜,感叹自己没能请假来跟台上的讲师交流一番。 《购物狂欢节的运维故事》,站在台上的讲述者是刘勇,花名仲明,阿里...

  • 一个初级程序员通过4个月的学习,完全就能搞定大数据实战项目

    谷歌算法揭秘:一次搜索请求平均往返2400公里 谷歌搜索演进 作为全球使用最广泛的搜索引擎,谷歌算法一直有一层神秘面纱。近日谷歌工程总监斯科特·霍夫曼向腾讯科技讲述谷歌算法幕后故事,称2011年有520多...

  • 分布式事务之底层原理揭秘

    , hi 大家好,今天分享一这篇文章,让大家彻底了解分布式原理,这个是后台开发必须掌握技能。刚性事务柔性事务本地事务分布式事务单阶段原子提交协议两阶段提交协议定义原理性能恢复缺陷XA...

  • Linux I/O 原理和 Zero-copy 技术全面揭秘

    TLB),也叫快表,是用来加速虚拟地址映射的,因为虚拟内存的分页机制,页表一般是保存内存中的一块固定的存储区,导致进程通过 MMU 访问内存比直接访问内存多了一次内存访问,性能至少下降一半,因此需要引入加速...

  • 2018春招前端面试: 闯关记(精排精校) | 掘金技术征文

    “拉勾上吊一百年不匹配!!!”,”BOSS直聘日夜没反应!!!” 题目范围涵盖我最近遇到的笔试题和面谈的(CSS/JS/HTTP/Node/Hybrid/Vue/NG/React) emm…..这里不列举哪些公司了, 若是你完整的阅读一...

  • Linux I/O原理和零拷贝Zero-copy技术全面揭秘

    如果页表项的 "在/不在" 位是 0,则表示该页面并没有映射到真实的物理页框,则会引发一个缺页中断,CPU 陷入操作系统内核,接着操作系统就会通过页面置换算法选择一个页面将其换出 (swap),以便为即将调入的新页面...

  • 2019春招前端面试: 闯关记(精排精校)

    拉勾上吊一百年不匹配!!!","BOSS直聘日夜没反应!!!" 题目范围涵盖我最近遇到的笔试题和面谈的(CSS/JS/HTTP/Node/Hybrid/Vue/NG/React) emm.....这里不列举哪些公司了, 若是你完整的阅读一遍,相信你...

  • TiDB 5.0 跨中心部署能力初探 | 中心化还是去中心化?揭秘 TiDB 5.0 事务分布式授时模块

    TiDB 5.0 发布在即,在这个大版本更新中提升 TiDB 集群的跨中心部署能力是我们重要的一个着力点。其中,新的分布式本地事务能力及其对应的授时服务改造是基础且又重要的一环。本文将会从 TiDB 现有的授时服务出发,...

  • Python Web 深度学习实用指南:第一、二部分

    AI 试图通过赋予我们一些规则来综合我们所谓的智能并将其灌输到机器中的能力,来实现这一目标。这里提到的机器可以是任何可以计算的东西。例如,它可以是软件或机器人。实际上,有几种类型的 AI。模糊系统专家系统...

  • iOS 网络优化: 使你的 App 网络交互更流畅

    大咖揭秘Java人都栽在了哪?点击免费领取《大厂面试清单》,攻克面试难关~>>> 作者:Tom, QQMailApp 创始团队成员之一,经历了 QQMailApp 从0到亿的过程。2017年加入字节跳动,现在负责字节跳动广州...

  • 一线大厂的分布式唯一ID生成方案是什么样的?

    作者:老顾聊技术链接:toutiao.com/i6682672464708764174一、前言分布式系统中我们会对一些数据量大的业务进行分拆,如:用户表,订单表。因为数据...

  • 一零四、前端性能优化详解

    毕竟,如果您的网页加载速度很慢,那么您会立即增加客户开始在其他地方搜索信息,而不是坚持下去的风险。 这也是为什么很多公司去找专门的技术人员来做SEO(Search Engine Optimization),即搜索引擎优化。 因为,...

  • 数据库1_五大主流数据库模型

    谷歌算法揭秘:一次搜索请求平均往返2400公里 谷歌搜索演进 作为全球使用最广泛的搜索引擎,谷歌算法一直有一层神秘面纱。近日谷歌工程总监斯科特·霍夫曼向腾讯科技讲述谷歌算法幕后故事,称2011年...

  • 五大主流数据库模型

    谷歌算法揭秘:一次搜索请求平均往返2400公里 谷歌搜索演进 作为全球使用最广泛的搜索引擎,谷歌算法一直有一层神秘面纱。近日谷歌工程总监斯科特·霍夫曼向腾讯科技讲述谷歌算法幕后故事,称2011年有520多项...

  • 计算机术语.pdf

    计算机术语.pdf

  • 包括缺陷和有限视场效应的Etalon模型 matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

  • 基于PLC和组态软件的智能停车场收费系统:电气控制与梯形图程序详解

    内容概要:本文详细介绍了基于PLC(可编程逻辑控制器)和组态软件的智能停车场收费系统的实现方法和技术细节。首先,文章概述了系统的总体架构,指出PLC用于控制停车场的电气设备,而组态软件则提供直观的操作界面。接着,深入解析了PLC梯形图程序的具体逻辑,包括车辆检测、闸门控制、收费计算等功能模块。此外,文章还讨论了接线图的设计原则和注意事项,如防止电磁干扰、确保系统稳定性的措施。最后,介绍了组态画面的设计思路及其优化方法,如动态显示车位状态、实时更新收费信息等。通过这些内容,读者能够全面了解智能停车场收费系统的内部运作机制。 适合人群:从事自动化控制、工业物联网、智能交通等领域的工作技术人员,尤其是对PLC编程和组态软件应用感兴趣的工程师。 使用场景及目标:适用于新建或改造停车场项目的规划与实施阶段,帮助工程师理解和设计类似的自动化控制系统,提高停车场管理效率和服务质量。 其他说明:文中提供了大量实际案例和技术细节,有助于读者更好地掌握相关技术和应对实际工程中的挑战。

  • MATLAB实现电-气-热综合能源系统耦合优化调度模型

    内容概要:本文详细介绍了利用MATLAB及其工具箱YALMIP和求解器CPLEX/Gurobi构建电-气-热综合能源系统耦合优化调度模型的方法。首先,文章描述了电网部分采用39节点系统进行直流潮流建模,气网部分则使用比利时20节点配气网,并对Weymouth方程进行了线性化处理,将非线性问题转化为线性规划问题。热网部分引入了热电联产(CHP)和电转气(P2G)设备,实现了热电耦合。通过模块化设计,代码能够灵活地添加新的能量存储或转换设备。实验结果显示,相比单一网络优化,三网耦合优化降低了12.6%的系统总成本,并显著改善了负荷峰谷差。 适合人群:从事能源系统优化研究的专业人士,尤其是熟悉MATLAB编程和优化理论的研究人员和技术人员。 使用场景及目标:适用于希望深入了解综合能源系统耦合优化调度机制的研究人员和技术人员。主要目标是掌握如何使用MATLAB搭建电-气-热耦合优化模型,理解各个子系统的数学建模方法以及它们之间的相互作用。 其他说明:文中提供了详细的代码片段和解释,帮助读者更好地理解和复现模型。此外,还讨论了一些实际应用中的注意事项,如求解器的选择、参数调优等。

  • 计算机三级网络机试考试试题及答案(下).pdf

    计算机三级网络机试考试试题及答案(下).pdf

Global site tag (gtag.js) - Google Analytics