搜索历史的回顾
第一代搜索
以Altavista、YAHOO和Infoseek为代表的第一代搜索出现于1994年前后,采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。其主要的缺点是:(1)无法针对网页内容进行全文搜索;(2)必须由网页制作者自行将自己的网站加入搜索引擎的资料库中,并用数行文字描述自己的网站。搜索引擎就是根据这些描述将此网站归纳到某个类别中。第一代搜索的评判标准主要是看资料库的规模,也就是说,第一代搜索引擎“求全”。
第二代搜索
1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,相比于第一代搜索引擎的“由网页制作者自行键入资料”,第二代搜索采取的基本方法是使用一个Robot 程序(如果将网络比作一张大网,则这些robot就如同蜘蛛spider一样,在网络上爬来爬去,故也称其为网络爬虫或蜘蛛),让它在网络上攫取资料,并自动将爬行到的网页存入资料库中。第二代搜索最大的优势在于它是依据网页内容进行搜索。相比第一代搜索,其查准率有很大提高。伴随着信息过载,第二代搜索的缺点日益暴露出来:搜索的结果太多,且重复性大,用户难以找到真正需要的信息。
第三代搜索的孕育
互联网实验室高级研究员梁春晓认为:“第三代互联网搜索目前还处于一个模糊不清的孕育时代,但是,第三代搜索的核心元素已经显现出来了,那就是个性化、智能化”。雅虎中国的张勤也曾表态:“(搜索的)第三个阶段就是社区化、社会化的阶段,更多的是考虑和用户参与的结合”。可以看出,第三代搜索的两个发展趋势就是:社会化搜索和智能搜索。
第二代搜索的分析
糟糕的用户体验
查准率低一直是当前搜索的一大通病。究其原因,个人认为:(1)入口方面,关键字搜索提供的查询模式(关键字+相当“非人性化”的逻辑运算函数)使用户无法确切表达自己的问题。也就是说,搜索引擎连要回答的问题都搞不清楚,更不要谈什么搜索结果的准确度。(2)出口方面,当前盛行的page rank排序算法存在的种种弊端,导致大量重复的且不大相关的结果将真正的结果掩盖,导致搜索结果无法真正反映广大网民的需求,用户体验极差。
据艾瑞市场咨询的数据显示,中国搜索引擎用户不满意的因素中,有50%的用户对搜索结果重复表示不满(就连以技术主打的google也摆脱不了这个噩梦)。同时,搜索结果排序欠佳、搜索结果太杂乱、搜索结果不合时宜的比例分别为43%、37%和36%。
第二代搜索的核心技术 – 爬虫,关键词,page rank
爬虫程序
据统计,由于技术等原因的限制,当前最好的爬虫其爬行的范围不足整个互联网的40%。可见,过半的资料在爬虫的眼皮底下“石沉大海”,无法得到利用。
关键词搜索
关键词搜索的弊病主要有两个:(1)仅支持单个关键词或者一组关键词及逻辑运算符组成的提问。(2)结果呈现的方式单一、呆板。多数搜索引擎只返回长长的搜索结果列表,其中有数以万计的包含关键词的网页,但这些网页是否能真正与用户的搜索意图相关,无法得知。
Page Rank排名算法
使Google一鸣惊人的Page rank,其核心思想是:如果一个网页被很多其它的网页所链接,则说明它受到普遍的承认和信赖,那么在搜索结果中它的排名就应当靠前。
Page rank 存在两个重大缺陷:(1)page rank认为“网站和网站的链接,网页与网页的链接”都不是恶意的,这恰好给了spam可趁之机。(2)从根本上来说,page rank是基于站长和网页制作者的判断。因为他们决定了本网站所链接的其他网站或网页。这导致了当前的互联网是网站制作者的互联网,而不是广大网民的互联网。
第二代搜索的出路
个人感觉,spider爬行能力的提高要依赖软硬件技术的不断进步与提高。对于关键词搜索,应该会被渐渐看好的语义搜索所取代,但这期间还有很长的路要走。而逐渐被认可的社会化搜索将会在很大程度上解决page rank的先天性缺陷。社区搜索通过对注册用户的行为进行记录,渐渐完善个人资料库,然后在搜索结果中介入个人因素,获得相对准确的搜索结果。雅虎在05年后就逐步确立了社区化搜索的策略,其一系列的收购行为足可以表示其重视程度。雅虎技术开发总监Bradley Horowitz说:“现在使用的搜索技术是网络管理员来决定什么对搜索者重要,而社会化搜索是把这种决定民主化了,让社区里的成员来决定什么是重要的”。国内的百度也一直在探索社会化搜索的策略,早在03年12月即推出了百度贴吧,紧随其后的百度知道,百度百科,百度空间也表明了百度发展社区搜索的坚定决心。虽然google一开始对social search并不看好,声称依赖其强大的计算能力,可以很好地分析用户的需求,给出个性化的搜索。但07年google与天涯社区的合作也足以说明google也抵抗不了social search的大趋势。
搜索引擎社区化的一个极端产品就是垂直搜索,垂直搜索是定位于一个特定行业,服务于一群特定需求的人群的专业搜索。相比通用搜索来讲,垂直搜索的优势在于:搜索范围的定位较准确,这直接避免了一部分不相关的垃圾结果的产生,使得搜索效率相对较高。这也是垂直搜索能够不断崛起,与几大搜索巨头共享搜索市场这块大蛋糕的原因吧。
分享到:
相关推荐
mmseg是中文分词搜索引擎的重要组件,用于对中文文本进行分词和索引。mmseg可以与Sphinx集成,提供高效的中文搜索功能。 五、总结 本资源提供了Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词搜索引擎架构的搭建过程,...
王阳明,明代著名的思想家、教育家,其教育理念在《传习录》中得以体现,对当代高校思想政治教育有着深远的启示。王阳明的教育思想在程朱理学盛行的时代背景下产生,反对空谈理论,主张知行合一,强调实践与道德修养...
礼仪教育对当代大学生成长成才的作用研究.doc
在分析人工智能对当代大学生就业影响的背景下,首先需要明确的是人工智能技术的迅猛发展不仅给社会带来了机遇,同时也提出了挑战。这一技术的应用正在改变多个行业的运作模式,从而影响到劳动力市场,尤其是大学生这...
6. 当代中国社会阶层分化的四个主要特性是职业因素对社会阶层分化的影响,制度因素对社会阶层分化的影响,生产资料所有权对社会阶层分化的影响,和文化技术资源的掌握情况对社会阶层分化的影响。
大学生在规划个人职业生涯时,必须考虑到这些外部环境的变化,因为社会经济的发展对人才素质的要求不断提升,对大学生的职业发展提出了新的标准。 【大学生择业观】择业观是大学生世界观、人生观、价值观在就业问题...
这项研究调查了在当代美国工作场所中受雇者对种族隔离的看法。 2016年收集的一般社会调查(GSS)信息用于关注对当前正在工作的个人的看法。 控制变量包括年龄,性别,种族,受教育程度,个人收入和工作状态等各种...
【当代礼仪】是社会交往中不...综上所述,当代礼仪涵盖了日常生活和工作的各个方面,是建立良好人际关系、展现个人素养的关键。通过学习和实践这些礼仪规范,我们可以更有效地沟通交流,提升个人魅力,增强社会适应性。
总的来说,江南大学现当代文学考研真题是考生备考的重要工具,它不仅涵盖了丰富的文学知识,还体现了对分析能力和批判思考的高要求。考生应充分利用这样的资源,全面提升自己的学术素养和应试能力。
请理论联系实际,谈一谈你对当代资本主义新变化的认识.pdf
中国当代诗歌精选.pdf
网络对当代大学生的影响及对策.pdf网络对当代大学生的影响及对策.pdf网络对当代大学生的影响及对策.pdf网络对当代大学生的影响及对策.pdf网络对当代大学生的影响及对策.pdf网络对当代大学生的影响及对策.pdf网络对...
浅谈网络对当代大学生的影响.docx浅谈网络对当代大学生的影响.docx浅谈网络对当代大学生的影响.docx浅谈网络对当代大学生的影响.docx浅谈网络对当代大学生的影响.docx浅谈网络对当代大学生的影响.docx浅谈网络对当代...
《当代西方文学思潮评析》马工程课件
当代大学生面对互联网发展应当树立什么样的价值观.docx当代大学生面对互联网发展应当树立什么样的价值观.docx当代大学生面对互联网发展应当树立什么样的价值观.docx当代大学生面对互联网发展应当树立什么样的价值观....
【当代会计个人述职报告】 会计工作是企业财务管理的重要组成部分,要求从业人员具备严谨、细致、高效的专业素质。以下将从几个方面详细阐述会计个人在工作中所体现的知识点。 一、持续学习与技能提升 会计人员...
这篇资料《儒家德育思想对当代道德教育的启示》深入挖掘了儒家思想中的教育理念,为现代道德教育提供了宝贵的启示。 儒家德育的核心是“仁、义、礼、智、信”,这五个字概括了儒家对于个体品德修养和社会伦理的要求...
研究采用了大数据技术,特别是利用百度搜索引擎中“焦虑”相关词汇的搜索热度数据,构建了省份“社会焦虑”指数。在此基础上,研究者结合宏观社会经济变量,建立了面板数据模型,以探究影响社会焦虑的各种因素。 ...
《当代西方文学思潮评析》中的第一章详细探讨了20世纪的重要文学思潮——存在主义文学。存在主义,源于19世纪末的丹麦哲学家索伦·克尔凯郭尔的思想,是一种强调个体存在先于本质的哲学观念。这种思潮在20世纪的文学...