阅读更多
作为全球使用最广泛的搜索引擎,谷歌算法一直有一层神秘面纱。近日谷歌工程总监斯科特·霍夫曼讲述了谷歌算法的幕后故事,称2011年有520多项改进,自2003年到现在,Google搜索已解决4500亿个搜索请求。


谷歌搜索演进


斯科特还透露,谷歌一个搜索请求平均往返于电脑和数据中心单程距离是750英里,这也意味着一次搜索请求平均往返需要1500英里,约合2400公里。

据了解,斯科特•霍夫曼加入谷歌已逾5年,负责领导搜索质量评估和移动搜索团队,还撰写数十篇学术论文,内容涵盖信息检索、机器学习和信息提取领域,专注搜索领域已超过15年,对谷歌算法有很高发言权。斯科特说,十年前搜索可能只是针对于关键词进行意思和上下文匹配,现在谷歌更了解用户想干什么,而不是表面字词匹配。搜索引擎呈现结果给用户看起来比较简单,但实际背后有一系列复杂流程,并在1秒钟内完成。“谷歌通常只需0.25秒便可对搜索请求做出回应,而人平均每眨一次眼睛需0.1秒。”


谷歌算法原理


谈及谷歌算法原理,斯科特说最基本的概念是索引,即谷歌搜索机器人扫描或搜索几十亿网页后建立索引,再把索引库分成几部分,放在几千台计算机上,再复制到全球各地数据中心去,这样谷歌就可以在全球各地完成搜索任务。

谷歌算法的流程是用户提交搜索请求,根据用户具体地理位置,谷歌将搜索请求发送到全球各地数据中心,数据中心再把需求散发到几千个计算机上去,根据目录和用户提交请求的关键词匹配,找到正确邮件或网页。谷歌从中挑选相关性最高且最新的一些数据,或搜索结果,再把这些搜索结果根据不同属性和指标排名,确定最合理搜索引擎结果相匹配。平均来说,谷歌每一个搜索请求,往返于电脑和数据中心单程距离是750英里。

谷歌每年会对一些新构思进行必要性评估,如果评估后认为合理就会做一些小规模试验,主要是请一些独立评估员,针对几百个搜索请求做两组结果来进行对比,一种是使用普通搜索方法做基本组,另一个是对比组,采用新构思。比较这两组搜索结果哪个相关性和搜索质量更高。之后在通过在线实时实验随机挑选用户参与新构思的体验。

“如果你是一个谷歌用户,而且经常使用谷歌搜索,可能在不知不觉间,已参与在线实施的试验,你所得到的搜索结果,也许就是用新构思方法得到的搜索结果。谷歌在任一时刻都在进行200多项在线实时试验。”


谷歌算法搜索体验提升的三部曲


通过这些实验,谷歌可以不断提升用户搜索体验,诸如在搜索结果中剔除垃圾信息;根据用户需求改变搜索界面呈现的结果数量;相同词在不同地域搜索,呈现的结果不同。斯科特透露,谷歌在2011年进行了41931次必要性评估、9250次小规模试验、7363项在线实时实验,最终完成了520多项改进。


谷歌搜索排名


斯科特指出,谷歌对不同搜索请求的衡量指标不同,比如查某一个疾病问题,用户最重视的是网页权威性有多高,而不是呈现某一个博客谈到这种疾病。在这样搜索情况下,网页权威性权重最高。此外,搜索的相关性还与区域位置和时间相关,比如用户人在北京,搜索上海餐馆的价值就不大。再如搜索一个重大事件,会发现这个重大事件发生的后一天得到的搜索结果和前一天搜索结果完全不同。

据斯科特介绍,谷歌搜索算法进行了一系列重大改进,包括新鲜度算法调整、优质网站算法调整、页面布局算法调整等部分,其中,新鲜度算法调整是指在某些情况下,Google需要为用户提供最新搜索结果,比如即时新闻、定期发生的重大事件以及内容频繁更新的话题等。如果搜索“奥运会”,用户会得到与即将举办的伦敦奥运会相关的最新搜索结果,而非关于1984年奥运会的陈旧信息。

优质网站算法调整对包含原始信息、研究调查、深度报道、精准分析等内容的高质量网站十分有利,提高了它们在搜索结果中的排名。页面布局算法调整这一改进关注用户在点击搜索结果后所看到的网页布局,提升网页信息的丰富程度 ,提高信息容易被搜索到的网页的排名。

斯科特称,随着Facebook、Twitter这些社交化网站发展,个人化的搜索结果会越来越重要。谷歌近年来推出Google+等产品,在搜索中也融入了社交化的因素。从谷歌来说,会不断把社交媒体信息整合进来。

  • 大小: 38 KB
  • 大小: 31.2 KB
  • 大小: 33.6 KB
  • 大小: 43.8 KB
  • 大小: 54.1 KB
来自: 腾讯科技
16
0
评论 共 19 条 请登录后发表评论
19 楼 liningjustsoso 2012-03-14 12:45
以前挺喜欢用谷歌的,后来被国家和谐的太厉害了,就慢慢用百度了,虽然搜索到的结果不尽人意,但能保证最起码的访问。
18 楼 object_object 2012-03-13 22:21
强烈支持google,坚决抵制垃圾百度
17 楼 yidao620c 2012-03-13 21:58
onlyonce 写道
aa87963014 写道
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了


是能搜,不过还是不能打开相关网页的

可以打开的。我的没问题。太强悍了,太恐怖了。
16 楼 onlyonce 2012-03-13 17:35
aa87963014 写道
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了


是能搜,不过还是不能打开相关网页的
15 楼 aa87963014 2012-03-13 11:29
don43 写道
用 https://www.google.com.hk/   https可以搜


太不和谐了 太恐怖了
14 楼 神之小丑 2012-03-13 10:33
lioncin 写道
神之小丑 写道
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样

我很好奇 这个原理是什么

会不会是因为 https 是加密传输,使gfw过滤不到了
13 楼 lioncin 2012-03-13 10:23
神之小丑 写道
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样

我很好奇 这个原理是什么
12 楼 神之小丑 2012-03-13 09:17
don43 写道
用 https://www.google.com.hk/   https可以搜

强悍,果然是这样
11 楼 yawei 2012-03-13 01:01
hebe5467 写道
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字

你说你姓什么不好,非要姓吴。
10 楼 don43 2012-03-12 22:49
用 https://www.google.com.hk/   https可以搜
9 楼 jzl_root 2012-03-12 18:59
hebe5467 写道
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字

正确
8 楼 xpf7622 2012-03-12 17:50
Google被和谐了。
7 楼 hebe5467 2012-03-12 16:35
xiaoxin5230 写道
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧

因为有吴字
6 楼 tommet 2012-03-12 15:19
真刺激
5 楼 xiaoxin5230 2012-03-12 13:51
12345678 写道
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?

跟谷歌没关系,是被长城了,估计这个什么吴亚辉是什么被河蟹人物吧
4 楼 12345678 2012-03-12 12:52
搜索 吴亚辉,都访问不了!!神奇~~难道google知道我的大名?
3 楼 ini_always 2012-03-12 12:26
dieslrae 写道
aa87963014 写道
在当今,无论搜索什么内容google会间歇性访问不了

搜胡萝卜一定访问不了


这是为神马,因为有“胡”字?
2 楼 dieslrae 2012-03-12 11:35
aa87963014 写道
在当今,无论搜索什么内容google会间歇性访问不了

搜胡萝卜一定访问不了
1 楼 aa87963014 2012-03-12 10:56
在当今,无论搜索什么内容google会间歇性访问不了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Global site tag (gtag.js) - Google Analytics