一篇改了81次的最佳学生论文
今年(注:2008年)7月在新加坡举行的第31届国际信息检索大会(SIGIR)上,微软亚洲研究院的一篇论文《BrowseRank: Letting Web Users Vote for Page Importance》获得了最佳学生论文奖(Best Student Paper Award)。这个奖项是在大会晚宴上颁发的,而晚宴是在新加坡著名的旅游景点圣淘沙小岛的海滩上露天举行的。
国际信息检索大会(SIGIR)是国际互联网搜索和信息检索领域的顶级会议,在每年500多篇的投稿中,学术长论文(full paper)的接收率一般在百分之十几左右。在今年的85篇长文中,有8篇来自微软亚洲研究院。我所在的Ranking Team,是研究院里专门负责排序相关问题研究的团队,SIGIR一直以来就是我们非常关注并且积极参与的会议,每年都会精选最好的论文投稿。在本次大会上我们团队一共有4篇论文入选,其中BrowseRank获奖。每篇论文的背后都少不了夜以继日的实验和反反复复的修改,其中有的论文还有着一些曲折有趣的故事,这次获奖的BrowseRank就是一例。
千锤百炼出深山
论文最初的想法来自我们关于网页重要性计算方法的一次讨论。谈到这个问题,在互联网搜索领域里的人大都会想起PageRank算法,但是这个算法经常会被做网页排名欺诈(spam)的人利用,他们建立大量的链接场(link farm)网站并链接到需要提升重要性排名的网页上,通过欺骗搜索引擎来获得较高的排名。经过大家的激烈讨论,我们发现问题出在看待网页重要性的立场上了。PageRank算法运行在网络链接图(link graph)上,这张图基本上是由各个网站的建造者建立的,里面的链接所反应的重要性也是源自这些网站建造者,如果他们当中有人想做欺诈排名简直易如反掌。然而,互联网毕竟还是要服务于广大网络用户的,如果我们站在用户的立场上来看待网页的重要性,或许会更加合理。于是,一个崭新的想法逐渐浮现在我们眼前:利用大量用户访问网页的信息来估计网页的重要性,一个网页访问的用户数量越大,并且用户在这个网页上停留的时间越长,这个网页的重要性就越高。换句话说,就是让广大的互联网用户在无形中来“投票”决定网页的重要性,我们称之为BrowseRank算法。通过反复论证,我们发现随机过程中的连续时间马氏链(continuous-time Markov chain)理论可以很好地对这个问题进行建模。作为我们团队的一个传统,对于每项研究工作,从选题、建模到实验,我们都会进行多次内部评审,大家找问题挑毛病(俗称拍砖),更重要的是提出建设性意见,目的是让更多的问题暴露在文章投稿之前,并且把这些问题及时有效地解决。在一次评审讨论会上,有人指出用户在网页上停留的时间很难精确估计,因为网速的差别、用户习惯、以及是否突发事件的打扰都会影响用户的停留时间。为此,我们重新调查审视这个问题,通过查阅大量资料文献和小规模模拟实验终于找到了大家都能认可的一个去噪声方案,从而避免这些因素对算法有效性的影响。我们感觉到大家的这种严格筛选在很多时候比会议的审稿人来的更严格和全面,也使得我们的论文在投稿之前已经经过了千锤百炼。在建立了基本模型以后,我们又对这个算法的理论基础进行了深入地探讨。后来,经过实习生刘玉婷的努力,我们最终证明这个模型在理论上是合理可行的。接下来的任务就是要做大规模模拟实验,实验数据来自产品部门。这里还有一个小插曲,由于数据量十分庞大,网络传送不方便,需要用多块大容量移动硬盘来运送。我们请一个出差的同事顺便带回,没想到这位同事早就在行李箱里装好了给他的宝宝买的大量婴儿用品,再加上这些大砖块一样的硬盘,行李严重超重。到了机场,航空公司要加收行李费用,但当他们打开行李检查的时候,发现这么多婴儿用品,竟然善心大发,说:”Wow! You are a good father. Then, we will not charge you. Good luck!” 后来我们开玩笑说,以后行李超重了,就再往里塞点奶粉、纸尿布之类的东西,说不定人家发了善心就不收超重费了。几个月的实验下来,结果表明BrowseRank算法能够计算出比PageRank更好的网页重要性排名,并且能够有效地抵制网页排名欺诈行为。有了好的实验结果,接下来就是论文的写作。在一个多月的时间里,从初稿到最终稿,我们一共写了82个版本。一共有四人参与写作,平均每人改了20版。经理李航、研究主管刘铁岩虽然很忙,但是他们对于文章的投入丝毫不减,大到文章的框架结构,经过多次重构,显得更加清晰合理;小到字词文法,反复推敲,力图使文章优美易读,避免晦涩。一字一句都凝结着大家辛勤的汗水。一位同事开玩笑说,唐僧师徒四人取经历经九九八十一难,终成正果,而这篇论文从第一版写出来以后恰好改了81次成最终稿,也刚好是四个人写,那你们四个谁是唐僧谁是八戒啊?这个……
崭露头脚亮海滩
新加坡的圣淘沙岛上有一处景色怡人的海滩,据说是整个狮城最好的海滩之一,所有的沙子都是从马来西亚运来的。SIGIR的晚宴就在这个海滩上举行,天色渐晚,品尝了新加坡特有烹饪方式制作的海鲜美食和当地自酿的啤酒,不胜酒力的我感觉有点头晕。这时,大会chairman宣布最佳学生论文奖。当听到是我们的论文获此殊荣的那一刻确实感到十分意外,大家顿时激动得击掌相庆。这个意外的惊喜也冲走了些许醉意。当然,不免俗套地,我也要说,那时候,感觉到,圣淘沙海滩的夜晚,很美,月亮,很圆。美的回味毕竟短暂,接下来就是有些紧张和担心。刘玉婷第二天就要在大会上演讲我们的论文,这回拿了奖,听众一定少不了,而且很有可能会被问到一些比较尖锐的问题。对于第一次在国际会议上做英文演讲的刘玉婷,压力之大可想而知,我们也担心她因为太紧张而出差错。但是,我们毕竟是有备而来。在来开会之前,我们已经对精心制作的演讲幻灯片多次修改,而刘玉婷经过数次模拟练习也早已能够熟练地演讲。来到新加坡以后,我们又把演讲内容做了一些调整,避免大量枯燥的数学推导,使其易于理解,力求把我们的观点简洁而清晰地展现给听众。第二天,刘玉婷做了一个非常完美的报告,听众的问题也被大家一一化解。会后,我们得到了与会者很好的反馈,他们普遍对我们的工作给予认可和较高的评价。此外,这篇论文还在互联网搜索工业界引起广泛的关注和讨论,美国知名IT技术网站CNET也对这篇论文进行了报道并被广泛转载。近年来,微软亚洲研究院在国际顶级学术会议上发表的文章频频获奖,这说明研究院学术水平不断地更攀高枝,也更加被学术届认可和重视。其实,获奖论文的诞生过程并没有什么独到之处,BrowseRank论文只是一个研究院众多论文的一个代表,并且比较幸运地获了奖。在微软亚洲研究院,每篇论文的背后都有着很多的精妙构想和缜密论证,都离不开研究员和实习生们辛勤的工作,更离不开团队的密切合作。正是这些努力,这些背后的故事,使MSRA“世界上最火的研究院”的称号实至名归。
本文来自:http://blog.sina.com.cn/s/blog_4caedc7a0100b1ay.html
分享到:
相关推荐
【个人专业发展规划】 ...高斌期望通过这样的个人发展规划,成为一名与时俱进的好老师,关注每一个学生的点滴成长,努力完善自身的知识、理论和人格修养,以期成为一名学生喜爱、家长满意的教师。
基于各类EMD-深度神经网络的高频金融数据预测研究_高斌.caj
市面上最好的oracle RAC原理书,由oracle原厂工程师编写。
该文档主要介绍了一个基于OpenGL的3D模型渲染项目,作者高斌通过一系列步骤将SolidWorks设计的三维模型导入并显示在C++程序中。以下是详细的知识点解析: 1. **3D模型转换**:首先使用SolidWorks2018创建三维零件...
高斌_大作业1设计说明书1 本资源主要介绍了使用Visual Studio 2017和vcpkg管理工具来配置OpenGL环境,并使用GLUT库创建菜单和实现动画的过程。下面是对标题、描述、标签和部分内容的详细解释和知识点总结: 一、...
河南鹿邑地区户用沼气经济性分析,王浦,艾高斌,本文通过对河南鹿邑地区户用沼气的调查,运用定性和定量分析的方法,以建立经济模型的方式,对河南鹿邑地区户用沼气社会效益、环
Oracle数据库是全球广泛使用的大型关系型数据库管理系统之一,其核心技术涉及数据存储、查询优化、并发控制、事务处理等多个方面。这篇读书笔记主要涵盖了Oracle数据库的一些核心概念和关键特性。 一、Oracle数据...
- 项目团队包括:组长赵健清以及成员王飞、王梦璐、俞一恒、高斌。 - 该项目的目标是开发一款面向安卓平台的应用程序,用于提供超市导航和信息查询服务。 - 目前市场上尚缺乏此类专门服务于超市导航的应用。 ###...
- 第一季度:市场铺垫和推动市场认知度。 - 第二季度:利用节假日效应开发相关产品广告。 - 第三季度:迎接“十一”、“中秋”双节带来的广告机会。 - 第四季度:准备年底的广告高峰期,特别是婚礼相关产品的...
Oracle RAC,全称为Real Application Clusters,是Oracle数据库的一项高级特性,用于构建高可用性和高性能的数据库系统。Oracle RAC允许多个实例同时访问同一个物理数据库,提供了故障切换和负载均衡的能力,确保...
随机存取存储器 A R iemannianřank-甲daptive中号ethod为低秩矩阵完成 请注意,此程序包基于第三方公共代码。 版权由保留 参考:高斌和P.-A。 低秩矩阵完成的Absil,Riemannian秩自适应方法。 ...
在研究方法上,作者吴次彬和高斌通过采集校园内女贞树上的白蜡虫雄虫样本,并用卡诺固定液进行固定。卡诺固定液具有溶解和固定组织外的白蜡的作用。之后,研究者对样本进行了石蜡切片,并用改良品红染色、压片观察,...
忆阻器是被蔡少棠于1971年预测存在的电路基本单元,它是一种两端器件,具有非易失性,结构简单,可实现大规模集成,具有较低的操作电压和快速的开关速度。忆阻器的这些特性使其成为解决存算分离架构瓶颈的理想选择。...
该论文在[IEEE Trans。 图像处理(TIP),2017年]。 您可以从Scratch训练Deep ConvNets,或在样本数量有限且标签不明确的数据集中训练预先训练的模型。 此存储库由 )创建。 目录 面部年龄估算 步骤1:将下载到./...
Oracle RAC,全称为Real Application Clusters,是Oracle数据库的一项高级特性,旨在提供高可用性和可伸缩性。Oracle RAC允许多个数据库实例共享同一份物理数据库,从而实现数据访问的负载均衡和故障切换能力。这项...
4. **数据库优化**:数据库是系统的瓶颈之一,优化包括:使用索引、分区、读写分离、主从复制、分库分表等策略。此外,还可以采用NoSQL数据库如MongoDB,处理非结构化数据。 5. **异步处理**:对于耗时的操作,如...
哈尔滨工业大学(深圳)机电工程与自动化学院的张近民、王颖和高斌三位学者,致力于机器人实践教学的改革与创新,旨在提升应用型硕士研究生的工程实践能力。通过对“机器人实践教学”课程的教学体系、教学目的、实验...
在1987年,高斌教授在《江西冶金学院学报》上发表了题为“运用PDCA循环于教学管理中并指导期中质量检查及分析的尝试”的论文。文章探讨了将PDCA循环应用于教学管理中,以及如何指导期中质量检查和分析的过程。PDCA...
主要起草单位包括洛阳轴承研究所,参与起草单位有洛阳LYC轴承有限公司、瓦房店轴承集团公司、洛阳市磁星探伤机制造有限公司,主要起草人包括仇亚军、雷建中、高元安、高斌、赵普民、宗守国等。 通过阅读本标准,...