`
zhangxiang390
  • 浏览: 216713 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

个人对当代搜索引擎的一点看法

阅读更多

搜索历史的回顾

第一代搜索

以Altavista、YAHOO和Infoseek为代表的第一代搜索出现于1994年前后,采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。其主要的缺点是:(1)无法针对网页内容进行全文搜索;(2)必须由网页制作者自行将自己的网站加入搜索引擎的资料库中,并用数行文字描述自己的网站。搜索引擎就是根据这些描述将此网站归纳到某个类别中。第一代搜索的评判标准主要是看资料库的规模,也就是说,第一代搜索引擎“求全”。

第二代搜索

1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,相比于第一代搜索引擎的“由网页制作者自行键入资料”,第二代搜索采取的基本方法是使用一个Robot 程序(如果将网络比作一张大网,则这些robot就如同蜘蛛spider一样,在网络上爬来爬去,故也称其为网络爬虫或蜘蛛),让它在网络上攫取资料,并自动将爬行到的网页存入资料库中。第二代搜索最大的优势在于它是依据网页内容进行搜索。相比第一代搜索,其查准率有很大提高。伴随着信息过载,第二代搜索的缺点日益暴露出来:搜索的结果太多,且重复性大,用户难以找到真正需要的信息。

第三代搜索的孕育

互联网实验室高级研究员梁春晓认为:“第三代互联网搜索目前还处于一个模糊不清的孕育时代,但是,第三代搜索的核心元素已经显现出来了,那就是个性化、智能化”。雅虎中国的张勤也曾表态:“(搜索的)第三个阶段就是社区化、社会化的阶段,更多的是考虑和用户参与的结合”。可以看出,第三代搜索的两个发展趋势就是:社会化搜索和智能搜索。

 

 

第二代搜索的分析

糟糕的用户体验

查准率低一直是当前搜索的一大通病。究其原因,个人认为:(1)入口方面,关键字搜索提供的查询模式(关键字+相当“非人性化”的逻辑运算函数)使用户无法确切表达自己的问题。也就是说,搜索引擎连要回答的问题都搞不清楚,更不要谈什么搜索结果的准确度。(2)出口方面,当前盛行的page rank排序算法存在的种种弊端,导致大量重复的且不大相关的结果将真正的结果掩盖,导致搜索结果无法真正反映广大网民的需求,用户体验极差。
据艾瑞市场咨询的数据显示,中国搜索引擎用户不满意的因素中,有50%的用户对搜索结果重复表示不满(就连以技术主打的google也摆脱不了这个噩梦)。同时,搜索结果排序欠佳、搜索结果太杂乱、搜索结果不合时宜的比例分别为43%、37%和36%。

第二代搜索的核心技术 – 爬虫,关键词,page rank

爬虫程序
据统计,由于技术等原因的限制,当前最好的爬虫其爬行的范围不足整个互联网的40%。可见,过半的资料在爬虫的眼皮底下“石沉大海”,无法得到利用。
关键词搜索
关键词搜索的弊病主要有两个:(1)仅支持单个关键词或者一组关键词及逻辑运算符组成的提问。(2)结果呈现的方式单一、呆板。多数搜索引擎只返回长长的搜索结果列表,其中有数以万计的包含关键词的网页,但这些网页是否能真正与用户的搜索意图相关,无法得知。
Page Rank排名算法
使Google一鸣惊人的Page rank,其核心思想是:如果一个网页被很多其它的网页所链接,则说明它受到普遍的承认和信赖,那么在搜索结果中它的排名就应当靠前。
Page rank 存在两个重大缺陷:(1)page rank认为“网站和网站的链接,网页与网页的链接”都不是恶意的,这恰好给了spam可趁之机。(2)从根本上来说,page rank是基于站长和网页制作者的判断。因为他们决定了本网站所链接的其他网站或网页。这导致了当前的互联网是网站制作者的互联网,而不是广大网民的互联网。

 

 

第二代搜索的出路
个人感觉,spider爬行能力的提高要依赖软硬件技术的不断进步与提高。对于关键词搜索,应该会被渐渐看好的语义搜索所取代,但这期间还有很长的路要走。而逐渐被认可的社会化搜索将会在很大程度上解决page rank的先天性缺陷。社区搜索通过对注册用户的行为进行记录,渐渐完善个人资料库,然后在搜索结果中介入个人因素,获得相对准确的搜索结果。雅虎在05年后就逐步确立了社区化搜索的策略,其一系列的收购行为足可以表示其重视程度。雅虎技术开发总监Bradley Horowitz说:“现在使用的搜索技术是网络管理员来决定什么对搜索者重要,而社会化搜索是把这种决定民主化了,让社区里的成员来决定什么是重要的”。国内的百度也一直在探索社会化搜索的策略,早在03年12月即推出了百度贴吧,紧随其后的百度知道,百度百科,百度空间也表明了百度发展社区搜索的坚定决心。虽然google一开始对social search并不看好,声称依赖其强大的计算能力,可以很好地分析用户的需求,给出个性化的搜索。但07年google与天涯社区的合作也足以说明google也抵抗不了social search的大趋势。
搜索引擎社区化的一个极端产品就是垂直搜索,垂直搜索是定位于一个特定行业,服务于一群特定需求的人群的专业搜索。相比通用搜索来讲,垂直搜索的优势在于:搜索范围的定位较准确,这直接避免了一部分不相关的垃圾结果的产生,使得搜索效率相对较高。这也是垂直搜索能够不断崛起,与几大搜索巨头共享搜索市场这块大蛋糕的原因吧。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics