`
touchmm
  • 浏览: 1036808 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

搜索2.0:利用用户点击记录改善搜索结果

阅读更多

/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/

搜索2.0:利用用户点击记录改善搜索结果

Author:张俊林

timestamp:20077

现在是WEB2.0时代了(据真实传言好像已经快4.0了,比微软升级还快,我估计年底前会出现web5.0的说法,大家赶紧想想应该是什么,争取第一个提出这个概念,为中国争光),大家都在讲UGC(用户产生内容。My definition of UGC2.0:Used Garbage Content(come on,just a joke)),如果从利用用户产生的内容来提高网站效果这个角度看,其实搜索引擎早几年前已经迈入WEB2.0的行列了,因为搜索引擎会记录用户发出的查询以及用户点击记录,然后利用这些用户产生的搜索记录来进一步改善其他用户的搜索结果。

尽管我们没有察觉,其实每次用户向搜索引擎发送的查询以及之后的用户行为都已经记录在案了(个人隐私问题?其实这个很好解决,以后把“个人隐私”这个词汇从人类语言中剔除,自然也就不会有个人隐私问题),比如一个用户是“快男”(注:是快乐男声,不是快枪手男人)的粉丝(一个疑问:为什么所有选秀节目的狂热粉丝<personname productid="都是" w:st="on">都是</personname>女士?),那么发出搜索“快男”,搜索引擎返回结果后,用户点击了搜索结果前三项的URL(广告时间,请不要转台,后面结果更精彩)

陈楚生夺快男冠军 苏醒称亚军不输冠军

印记【79】快乐男声尘埃落定:五强点评

湖南台工作人员自爆快男三进二种种黑幕

搜索引擎会在后台记录如下:

<159.226.200.1,快男,(http://www.onejoo.com/story/80502/1),

http://www.onejoo.com/story/80485/2,)(http://www.onejoo.com/story/80429/3>

其含义是:159.226.200.1这个用户在搜索快男的时候点击了后面这三项URL,每个URL在搜索结果中的排名分别是123名。

也就是说,用户向搜索引擎发出一个查询,搜索引擎返回搜索结果,记录用户针对这个查询点击过哪些网页,点击过的网页会被认为在某种程度上是和这个查询相关的网页,在下次另外一个用户发出同一查询的时候,可能会提高(boost)这些用户点击过的网页的排名。(其实,搜索引擎也可以利用这些信息来进行个性化搜索的工作)

为了正式真实证实这是真事(这个绕口令一点都不拗口吧:),我们看看百度和GOOGLE是否有这个过程。

我们先看百度。向百度提交查询“玩聚”,然后查看搜索结果的页面源代码,可以看到第一条搜索记录的源代码片段为:

<td class=f><a onclick="return c('b4d6',this.innerHTML,this.href,1)" href="http://www.onejoo.com/" target="_blank">

用户行为记录就是这个onclick了,(<a onclick="return c('b4d6',this.innerHTML,this.href,1)),用户点击的时候会激发onclick行为,其中this.href应该是代表href=http://www.onejoo.com/这个URL,数字1代表是本次搜索排在第一位的结果。诸如此类。

再看看GOOGLE,同样的查询,可以看到第四项搜索结果的源代码:

<a href="http://www.onejoo.com:8000/" target=_blank class=l onmousedown="return clk(0,'','','res','4','')"><font color=CC0033>玩聚</font>(OneJoo) - 微内容聚合

这个onmousedown做的就是类似的事情了。(onmousedown="return clk(0,'','','res','4','')

这个方法无疑会在某种程度上改善用户的搜索体验,但是它依赖于一个基本假设:用户点击过的URL是和当前查询相关的页面。其实很明显这个假设是容易遭受理智的以及不理智的攻击的,也就是说这个方法存在着问题,而且不是一个问题,也不是三个问题,是两个问题:

问题1:即使用户在某次搜索结果里面点击了某个网页,但是并不代表这个网页一定是和用户发出的查询相关的,完全有可能用户点击进去以后才发现其实这个网页不是他想要的。所以如果把无关点击记录下来以后向其他用户推荐,这些信息可能是噪音,会导致下次的结果更不准确,所以如何去除这种噪音是一个研究点。

问题2:从另外一个角度,即使有些没有点击过的搜索结果也有可能是相关的,但是这些信息没有被利用起来,所以如何识别那些没有点击过但是也是很相关的网页也是其中一个研究点。

问题3UGC,你来提。

其实其实今天才发现我挺爱用“其实”这个词的,这是一个坏习惯,以后一定要避免滥用这个词汇,其实这应该不难做到),记录用户的点击行为除了做以上用途外,还有很多可以探索的用途,比如个性化搜索,比如以下的用途:

1.查询-查询关系:这个可以用来进行用户查询推荐(query suggestion)用户想搜索引擎提交查询,可以利用查询之间的相似关系来向用户推荐其它可能的查询;(欲知详情,请转台到 搜索引擎设计实用教程(4)-以百度为例 之四:相关提示功能

2.查询-相关文档关系:

可以利用用户行为记录推理出有趣的结论,比如假设两个不同查询的用户点击文档集合,如果两个点击文档集合很大程度是重合的,那么说明两个查询是语义上类似的或者等价的;

3.文档-查询关系

从某篇被点击过的网页来说,可能有不同的查询都导致某个网页被点击,那么可以把这些查询和这个网页绑定起来,说明他们之间有相关关系;

分享到:
评论

相关推荐

    Web2.0:企业信息化发展新趋势

    本文将深入探讨Web2.0对企业信息化的影响,以及如何利用Web2.0的关键技术如RSS、Ajax、网摘等提升企业信息化水平。 #### Web2.0:从概念到实践 Web2.0的概念首次提出于2004年,旨在描述互联网的一次重大革新,它...

    MiSalon2.0:Codigo fuente插件

    通过分析和理解MiSalon2.0的源代码,不仅可以学习到软件开发的最佳实践,还可以根据业务需求进行定制化开发,如添加新的功能、优化性能或改善用户体验。这对于希望深度参与系统开发的IT专业人士来说,是一项宝贵的...

    NutraCoach-2.0:项目的最后一部分。 完成!!

    此外,应用程序可能还包含一个食物数据库,用户可以记录他们的饮食摄入,以便分析其营养成分是否均衡。 为了提供更全面的服务,NutraCoach-2.0与第三方网站集成,将用户引导至专业平台获取更深入的营养咨询和健康...

    web2.0 & CRM

    例如,利用数据分析工具跟踪用户的网站浏览记录可以帮助企业识别潜在买家,并向他们推送定制化广告。 ##### 4. 社区建设和品牌忠诚度 在Web2.0环境中,企业可以通过建立在线社区来促进用户之间的交流和分享经验。...

    搜索引擎蜘蛛来访记录系统 v2.0-ASP源码.zip

    【标题】"搜索引擎蜘蛛来访记录系统 v2.0-ASP源码.zip"是一个基于ASP(Active Server Pages)技术开发的网站应用,旨在记录并分析搜索引擎爬虫的访问行为。这个系统能够帮助网站管理员了解哪些搜索引擎的蜘蛛正在...

    基于PHP的东方标准网络营销内部SEO记录系统php版v2.0源码.zip

    2. SEO(搜索引擎优化):SEO是提升网站在搜索引擎自然搜索结果中的排名的一系列技术策略。此系统专注于内部SEO,这包括元标签优化、URL结构设计、网站结构优化、内容质量提升等,以帮助网站更符合搜索引擎的抓取和...

    asp.net2.0 大数据量分页

    为了更好地实现自定义分页,Microsoft SQL Server 2005 引入了一个新的关键字来帮助排序结果,这使得我们可以编写更高效的查询语句来精确获取所需的子集记录。 ##### 查询设计 自定义分页的核心在于设计能够准确...

    监控 CMS 2.0

    3. **提高用户体验**:通过监控应用性能,改善响应速度,提升用户满意度。 4. **合规性管理**:符合行业规定和内部审计需求,提供详细的监控记录和报告。 **四、总结** CMS 2.0监控软件是现代IT环境中不可或缺的...

    深入挖掘ASP.NET 2.0系列课程(8):建立安全的ASP.NET 2.0网站

    本系列课程深入探讨了如何利用ASP.NET 2.0创建一个安全的网站,以下是其中的关键知识点: 1. **身份验证与授权**: ASP.NET 2.0提供了多种身份验证机制,如窗体身份验证(Forms Authentication)和Windows身份验证...

    深入挖掘ASP.NET 2.0系列课程(5):全面优化ASP.NET 2.0

    9. **错误和日志管理**:有效的错误处理和日志记录可以快速定位性能问题,而不会影响用户体验。使用如ELMAH这样的开源库可以帮助实现这一目标。 10. **代码审查和性能测试**:定期进行代码审查,使用性能分析工具...

    2018区块链项目图谱2.0

    通过以上分析,我们可以看出,“2018区块链项目图谱2.0”不仅是一份记录当时区块链行业状况的文档,更是一个对未来发展趋势进行预测的重要参考资料。随着技术的进步和社会认知的加深,区块链将在更多领域展现出其...

    适用于.net framework2.0对集合分页

    5. **UI集成**:最后,确保你的前端界面能够正确显示分页信息,包括当前页、总页数、每页显示记录数等,并处理用户交互,如点击页码或导航按钮。 在实际项目中,可以根据具体需求选择合适的方法来实现.NET ...

    ADIsimRF-V1.8+ADIsimRF-V2.0

    5. **用户体验改善**:可能对用户界面进行了优化,使其更加易用,或者增加了自定义选项。 在压缩包文件"ADIsimRF-V1.8-v2.0"中,包含了这两个版本的安装程序和其他相关文件,用户可以通过安装这些文件来获取和使用...

    IBM Redbook - WebSphere Commerce Best Practices in Web 2.0 Store

    《IBM Redbook - WebSphere Commerce Best Practices in Web 2.0 Store》是一份由IBM官方出版的技术指南,主要介绍了如何利用WebSphere Commerce在Web 2.0环境下构建高效、用户友好的电子商务网站。本书不仅深入探讨...

    工程地质钻孔岩芯照片批量编2.0

    然而,随着“工程地质钻孔岩芯照片批量编辑2.0”版本的推出,这一情况得到了显著改善。 批量编辑工具的出现,标志着地质工作者可以更加便捷地处理钻孔岩芯照片。这款2.0版软件特别优化了照片编辑方式,提高了处理...

    Creo 2.0入门基础到精通视频教程

    - **用户界面介绍**:深入解析Creo 2.0的用户界面布局,包括菜单栏、工具栏、模型树等组成部分及其功能。 - **基本命令教学**:涵盖创建新文件、打开文件、保存文件、关闭文件等基础操作;同时介绍如何使用Creo进行...

    百度众测UAQPageTest_2.0客户端

    【标题】:“百度众测UAQPageTest_2.0客户端”是百度众测平台推出的一款性能测试工具,主要用于网页应用的用户体验质量(User Experience Quality,简称UEQ)评估。这款客户端工具允许用户对网页进行多维度的测试,...

    iis url rewrite 2.0

    这个工具为Windows Server环境提供了强大的URL管理和优化功能,帮助开发者和管理员改善网站的可访问性、SEO(搜索引擎优化)性能以及整体架构。 在IIS URL Rewrite 2.0中,主要包含以下几个关键知识点: 1. **URL...

Global site tag (gtag.js) - Google Analytics