`
wbj0110
  • 浏览: 1646761 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论
阅读更多

Reddit是个社交新闻站点,其口号是“提前于新闻发生,来自互联网的声音”。用户(也叫redditors)能够浏览并且可以提交互联网上内容的链接或发布自己的原创帖子。其他的用户可对发布的链接进行高分或低分的投票,得分突出的链接会被放到首页。另外,用户可对发布的链接进行评论以及回复其他评论者。 

本文将跟大家探讨一下Reddit的文章排名算法和评论排名算法的工作原理。Reddit使用的算法也是很简单,容易理解和实现。这篇文章里我将会对其进行深入分析。 

首先我们关注的是文章排名算法。第二部分将重点介绍评论排名算法,Reddit的评论排名跟文章排名使用的不是同一种算法(这点跟Hacker News不一样),Reddit的评论排名算法非常有趣,它是由xkcd的作者Randall Munroe发明的。 

深入研究文章排名算法代码 

Reddit的源代码是开源的,你可以下载它的任意代码。它是用Python写成的,代码放在这里。里面的排名算法部分是用Pyrex实现的,这是一种开发Python的C语言扩展的编程语言。这里用Pyrex主要是出于速度的考虑。我用纯Python重写了他们的Pyrex实现,这样更容易阅读。 

Reddit缺省的排名是“热门”排名,实现代码如下: 

Python代码 
  1. #Rewritten code from /r2/r2/lib/db/_sorts.pyx  
  2.   
  3. from datetime import datetime, timedelta  
  4. from math import log  
  5.   
  6. epoch = datetime(197011)  
  7.   
  8. def epoch_seconds(date):  
  9.     """Returns the number of seconds from the epoch to date."""  
  10.     td = date - epoch  
  11.     return td.days * 86400 + td.seconds + (float(td.microseconds) / 1000000)  
  12.   
  13. def score(ups, downs):  
  14.     return ups - downs  
  15.   
  16. def hot(ups, downs, date):  
  17.     """The hot formula. Should match the equivalent function in postgres."""  
  18.     s = score(ups, downs)  
  19.     order = log(max(abs(s), 1), 10)  
  20.     sign = 1 if s > 0 else -1 if s < 0 else 0  
  21.     seconds = epoch_seconds(date) - 1134028003  
  22. return round(order + sign * seconds / 450007)  



这个“热门“排名算法用数学公式表达是下面这个样子(我从SEOmoz找到了它): 



文章提交时间对排名的影响 

文章提交时间对排名的影响可以总结为以下几点: 

  • 提交时间对排名影响巨大,越新的文章排名会越高
  • 文章排名得分不会随时间的流逝而降低,但新文章会比老文章获得更高的分。这跟Hacker News的排名算法有很大区别,它的得分会随时间流逝而降低。

下面是一个图片,表现的是具有相同支持和反对的票数,但时间不同的文章的排名得分情况: 



对数加强 

Reddit在‘热门’排名中使用了对数函数来强化前几票的份量。基本是这个原理: 

  • 前10个赞成票的份量和后面100个的份量,以及再后面1000票的份量是相同的,以此类推

下面是效果图: 



如果不使用对数加强,则分数会是这样: 



反对票对排名的影响 

Reddit是少数几个能投反对票的网站之一。就像你从代码里看到的,一篇文章的的’得分‘定义如下: 

  • up_votes – down_votes

这就是说,我们可以把它表现为下图: 



这种计算方式会对既有很的赞成票,又有很多反对票的文章(比如很有争议的文章)带来重大影响,它们可能会比那些只有很少赞成票的文章获得更低的分数。这也就说明了为什么小猫小狗之类的帖子(以及其它无争议的文章)会获得如此高的评分。 

对Reddit文章排名算法的总结 

  • 提交时间是一项非常重要的指标,新文章比老文章得分更高
  • 头10个赞成票的份量和后100个的份量相同。获得10个赞成票和获得50个赞成票的排名很接近
  • 具有相近赞成票和反对票数的有争议文章会比只获得赞成票的排名低。

Reddit评论排名算法工作原理 

xkcd网站的Randall Munroe是Reddit网站上的‘最佳文章’排名算法的发明者。他写了一篇很好的文章来解释它。 

你应该读一读这篇文章,它以很通俗的语言解释了这个算法。这篇的文章的重点是: 

  • ‘热门‘排名算法对评论进行排名不是很有效,它会显得对早期的评论过于偏爱。
  • 在一个评论系统中,我们的目的是找出最佳评论,不论它是什么时间提交的。
  • 1927年Edwin B. Wilson找到了一种很好的算法,被叫做”Wilson score interval”,它可以被用于“信任排序(the confidence sort)”
  • 信任排序把文章的获得的票数当作全体读者的一个抽样统计——就像一次民意测验。
  • 《How Not To Sort By Average Rating》这篇文章对这种信任评级算法做了详细的解释,绝对值得一读!

深入分析评论排序代码 

Reddit里的信任排序算法是在_sorts.pyx这个文件里实现的,我用纯Python重写了它们的Pyrex实现(同时去掉了其中的缓存优化代码): 

Python代码 
  1. #Rewritten code from /r2/r2/lib/db/_sorts.pyx  
  2.   
  3. from math import sqrt  
  4.   
  5. def _confidence(ups, downs):  
  6.     n = ups + downs  
  7.   
  8.     if n == 0:  
  9.         return 0  
  10.   
  11.     z = 1.0 #1.0 = 85%, 1.6 = 95%  
  12.     phat = float(ups) / n  
  13.     return sqrt(phat+z*z/(2*n)-z*((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)  
  14.   
  15. def confidence(ups, downs):  
  16.     if ups + downs == 0:  
  17.         return 0  
  18.     else:  
  19.         return _confidence(ups, downs)  



信任排序使用Wilson score interval算法,它的数学表达式是这样的: 



在上面的公式中,各个参数的定义如下: 

  • p是支持票的百分比
  • n总票数
  • zα/2是正态分布(1-α/2)分位数

我们对上面的介绍做一些总结: 

  • 信任排序是把票数看作一次全体读者的抽样调查
  • 信任排序会给一条评论一个临时评级,认为它有85%的可信度
  • 票数越多,可信度越高
  • Wilson’s interval算法能很好的处理票数很少和低端概率情况

Randall在他的文章里对信任排序的工作原理给了一个很好的例子: 

如果一条评论只有一个赞成票和0个反对票,它有100%的支持率,但因为投票数太少,系统将会把它放在排名底部。但如果它有10个赞成票,而其只有1个反对票,那系统将会把它放到比具有40个赞成票和20个反对票的评论更高的排名上——可以推断出,当这个评论获得40个赞成票时,它极有可能获得的反对票会少于20。这种算法最好的部分是,如果推断错了,那它会很快的获得更多的数据来证明,因为它已经被排到了顶部。 

发表时间对排名的影响:没有! 

信任排序一个优点是评论发表时间是不产生影响作用的(这跟‘热门排序’和Hacker News的排名算法是不一样的)。评论是通过信任评级,通过数据取样计算,一条评论获得的票数越多,它能获得的评级越接近他的真实的得分。

图表视图 

让我们把信任排序做成图表,看一看它是如何影响评论排序的。我们使用Randall的例子: 



可以看到,信任排序并不在意一条评论获得了多少票数,它关注的是它的支持率和数据采样规模! 

排序之外的应用 

正像Evan Miller所说的,Wilson’s score interval算法可以在非排名应用里使用,他列举了3个例子: 

  • 检查垃圾信息:看过这条信息的人中有多大比例认为它是垃圾信息?
  • 制作“最优”排名:看过这条信息的人中有多大比例认为它是“最好的….”?
  • 制作“邮件转发”排名:看过条信息这的人中有多大比例点击了‘Email’按钮?

使用这个算法你只需要两个数据: 

  • 取样总数
  • 支持数

这个算法是如此有效,但很奇怪很多的网站如今仍然是最原始的评级方法,这包括著名的亚马逊,它仍然使用“得分 = 支持票 / 总票数”。 

英文原文:How Reddit ranking algorithms work / 译:外刊IT评论

分享到:
评论
2 楼 yujiaao 2013-09-24  
google了一下,好象是这个:https://github.com/reddit
1 楼 yujiaao 2013-09-24  
源代码在哪里,是网站将链接去掉了么?

相关推荐

    从豆瓣电影评分算法说起.pdf

    从给定的文件内容中我们可以提炼出以下知识点: 1. 豆瓣电影评分算法:该算法的简化版是将用户的五星评分转换为0到...通过了解和学习各种投票排名算法,可以更加深入地理解在线评分系统的工作原理以及它们面临的挑战。

    Algorithm-go-rate.zip

    为了理解这个算法的工作原理,我们需要了解以下几个关键概念: 1. **得分计算**:Reddit评分算法的基础是每个帖子的得分,这由“赞同”和“反对”两个指标决定。每当用户对一个帖子给予“赞同”,帖子的得分就会...

    基于MATLAB GUI与CNN的模糊车牌识别系统:从图像预处理到字符识别全流程解析

    内容概要:本文详细介绍了基于MATLAB GUI界面和卷积神经网络(CNN)的模糊车牌识别系统。该系统旨在解决现实中车牌因模糊不清导致识别困难的问题。文中阐述了整个流程的关键步骤,包括图像的模糊还原、灰度化、阈值化、边缘检测、孔洞填充、形态学操作、滤波操作、车牌定位、字符分割以及最终的字符识别。通过使用维纳滤波或最小二乘法约束滤波进行模糊还原,再利用CNN的强大特征提取能力完成字符分类。此外,还特别强调了MATLAB GUI界面的设计,使得用户能直观便捷地操作整个系统。 适合人群:对图像处理和深度学习感兴趣的科研人员、高校学生及从事相关领域的工程师。 使用场景及目标:适用于交通管理、智能停车场等领域,用于提升车牌识别的准确性和效率,特别是在面对模糊车牌时的表现。 其他说明:文中提供了部分关键代码片段作为参考,并对实验结果进行了详细的分析,展示了系统在不同环境下的表现情况及其潜在的应用前景。

    嵌入式八股文面试题库资料知识宝典-计算机专业试题.zip

    嵌入式八股文面试题库资料知识宝典-计算机专业试题.zip

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_3.zip

    嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_3.zip

    开关磁阻电机技术参数与建模技术深度解析:4kW电机性能详述

    内容概要:本文深入探讨了一款额定功率为4kW的开关磁阻电机,详细介绍了其性能参数如额定功率、转速、效率、输出转矩和脉动率等。同时,文章还展示了利用RMxprt、Maxwell 2D和3D模型对该电机进行仿真的方法和技术,通过外电路分析进一步研究其电气性能和动态响应特性。最后,文章提供了基于RMxprt模型的MATLAB仿真代码示例,帮助读者理解电机的工作原理及其性能特点。 适合人群:从事电机设计、工业自动化领域的工程师和技术人员,尤其是对开关磁阻电机感兴趣的科研工作者。 使用场景及目标:适用于希望深入了解开关磁阻电机特性和建模技术的研究人员,在新产品开发或现有产品改进时作为参考资料。 其他说明:文中提供的代码示例仅用于演示目的,实际操作时需根据所用软件的具体情况进行适当修改。

    少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip

    少儿编程scratch项目源代码文件案例素材-剑客冲刺.zip

    少儿编程scratch项目源代码文件案例素材-几何冲刺 转瞬即逝.zip

    少儿编程scratch项目源代码文件案例素材-几何冲刺 转瞬即逝.zip

    四象限直流电机速度驱动控制系统PID控制仿真模型设计与实现

    内容概要:本文详细介绍了基于PID控制器的四象限直流电机速度驱动控制系统仿真模型及其永磁直流电机(PMDC)转速控制模型。首先阐述了PID控制器的工作原理,即通过对系统误差的比例、积分和微分运算来调整电机的驱动信号,从而实现转速的精确控制。接着讨论了如何利用PID控制器使有刷PMDC电机在四个象限中精确跟踪参考速度,并展示了仿真模型在应对快速负载扰动时的有效性和稳定性。最后,提供了Simulink仿真模型和详细的Word模型说明文档,帮助读者理解和调整PID控制器参数,以达到最佳控制效果。 适合人群:从事电力电子与电机控制领域的研究人员和技术人员,尤其是对四象限直流电机速度驱动控制系统感兴趣的读者。 使用场景及目标:适用于需要深入了解和掌握四象限直流电机速度驱动控制系统设计与实现的研究人员和技术人员。目标是在实际项目中能够运用PID控制器实现电机转速的精确控制,并提高系统的稳定性和抗干扰能力。 其他说明:文中引用了多篇相关领域的权威文献,确保了理论依据的可靠性和实用性。此外,提供的Simulink模型和Word文档有助于读者更好地理解和实践所介绍的内容。

    嵌入式八股文面试题库资料知识宝典-2013年海康威视校园招聘嵌入式开发笔试题.zip

    嵌入式八股文面试题库资料知识宝典-2013年海康威视校园招聘嵌入式开发笔试题.zip

    少儿编程scratch项目源代码文件案例素材-驾驶通关.zip

    少儿编程scratch项目源代码文件案例素材-驾驶通关.zip

    小区开放对周边道路通行能力影响的研究.pdf

    小区开放对周边道路通行能力影响的研究.pdf

    冷链物流路径优化:基于NSGA-2遗传算法与软硬时间窗策略的研究

    内容概要:本文探讨了冷链物流车辆路径优化问题,特别是如何通过NSGA-2遗传算法和软硬时间窗策略来实现高效、环保和高客户满意度的路径规划。文中介绍了冷链物流的特点及其重要性,提出了软时间窗概念,允许一定的配送时间弹性,同时考虑碳排放成本,以达到绿色物流的目的。此外,还讨论了如何将客户满意度作为路径优化的重要评价标准之一。最后,通过一段简化的Python代码展示了遗传算法的应用。 适合人群:从事物流管理、冷链物流运营的专业人士,以及对遗传算法和路径优化感兴趣的科研人员和技术开发者。 使用场景及目标:适用于冷链物流企业,旨在优化配送路线,降低运营成本,减少碳排放,提升客户满意度。目标是帮助企业实现绿色、高效的物流配送系统。 其他说明:文中提供的代码仅为示意,实际应用需根据具体情况调整参数设置和模型构建。

    少儿编程scratch项目源代码文件案例素材-恐怖矿井.zip

    少儿编程scratch项目源代码文件案例素材-恐怖矿井.zip

    基于STM32F030的无刷电机高压FOC控制方案:滑膜无感FOC技术及保护机制

    内容概要:本文详细介绍了基于STM32F030的无刷电机控制方案,重点在于高压FOC(磁场定向控制)技术和滑膜无感FOC的应用。该方案实现了过载、过欠压、堵转等多种保护机制,并提供了完整的源码、原理图和PCB设计。文中展示了关键代码片段,如滑膜观测器和电流环处理,以及保护机制的具体实现方法。此外,还提到了方案的移植要点和实际测试效果,确保系统的稳定性和高效性。 适合人群:嵌入式系统开发者、电机控制系统工程师、硬件工程师。 使用场景及目标:适用于需要高性能无刷电机控制的应用场景,如工业自动化设备、无人机、电动工具等。目标是提供一种成熟的、经过验证的无刷电机控制方案,帮助开发者快速实现并优化电机控制性能。 其他说明:提供的资料包括详细的原理图、PCB设计文件、源码及测试视频,方便开发者进行学习和应用。

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    嵌入式八股文面试题库资料知识宝典-CC++笔试题-深圳有为(2019.2.28)1.zip

    嵌入式八股文面试题库资料知识宝典-CC++笔试题-深圳有为(2019.2.28)1.zip

    少儿编程scratch项目源代码文件案例素材-几何冲刺 V1.5.zip

    少儿编程scratch项目源代码文件案例素材-几何冲刺 V1.5.zip

    Android系统开发_Linux内核配置_USB-HID设备模拟_通过root权限将Android设备转换为全功能USB键盘的项目实现_该项目需要内核支持configFS文件系统.zip

    Android系统开发_Linux内核配置_USB-HID设备模拟_通过root权限将Android设备转换为全功能USB键盘的项目实现_该项目需要内核支持configFS文件系统

Global site tag (gtag.js) - Google Analytics