最 近这两年推荐系统特别火,本文搜集整理了一些比较好的开源推荐系统,即有轻量级的适用于做研究的SVDFeature、LibMF、LibFM等,也有重 量级的适用于工业系统的 Mahout、Oryx、EasyRecd等,供大家参考。PS:这里的top 10仅代表个人观点。
#1.SVDFeature
主页:http://svdfeature.apexlab.org/wiki/Main_Page 语言:C++
一个feature-based协同过滤和排序工具,由上海交大Apex实验室开发,代码质量较高。在KDD Cup 2012中获得第一名,KDD Cup 2011中获得第三名,相关论文 发表在2012的JMLR中,这足以说明它的高大上。
SVDFeature 包含一个很灵活的Matrix Factorization推荐框架,能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼,可以用 相对较少的内存实现较大规模的单机版矩阵分解运算。另外含有Logistic regression的model,可以很方便的用来进行ensemble。
#2.LibMF
主页:http://www.csie.ntu.edu.tw/~cjlin/libmf/ 语言:C++
作者Chih-Jen Lin来自大名鼎鼎的台湾国立大学,他们在机器学习领域享有盛名,近年连续多届KDD Cup竞赛上均 获得优异成绩,并曾连续多年获得冠军。台湾大学的风格非常务实,业界常用的LibSVM, Liblinear等都是他们开发的,开源代码的效率和质量都非常高。
LibMF 在矩阵分解的并行化方面作出了很好的贡献,针对SGD(随即梯度下降)优化方法在并行计算中存在的locking problem和memory discontinuity问题,提出了一种 矩阵分解的高效算法FPSGD(Fast Parallel SGD),根据计算节点的个数来划分评分矩阵block,并分配计算节点。系统介绍可以见这篇 论文(ACM Recsys 2013的 Best paper Award)。
#3.LibFM
主页:http://www.libfm.org/ 语言:C++
作者是德国Konstanz大学的Steffen Rendle,他用LibFM同时玩转KDD Cup 2012 Track1和Track2两个子竞赛单元,都取得了很好的成绩,说明LibFM是非常管用的利器。
LibFM 是专门用于矩阵分解的利器,尤其是其中实现了MCMC(Markov Chain Monte Carlo)优化算法,比常见的SGD优化方法精度要高,但运算速度要慢一些。当然LibFM中还 实现了SGD、SGDA(Adaptive SGD)、ALS(Alternating Least Squares)等算法。
#4.Lenskit
主页:http://lenskit.grouplens.org/ 语言Java
这个Java开发的开源推荐系统,来自美国的明尼苏达大学的GroupLens团队,也是推荐领域知名的测试数据集Movielens的作者。
该源码托管在GitHub上,https://github.com/grouplens/lenskit。 主要包含lenskit-api,lenskit-core, lenskit-knn,lenskit-svd,lenskit-slopone,lenskit-parent,lenskit-data- structures,lenskit-eval,lenskit-test等模块,主要实现了k-NN,SVD,Slope-One等 典型的推荐系统算法。
#5.GraphLab
主页:GraphLab - Collaborative Filtering 语言:C++
Graphlab 是基于C++开发的一个高性能分布式graph处理挖掘系统,特点是对迭代的并行计算处理能力强(这方面是hadoop的弱项),由于功能独 到,GraphLab在业界名声很响。 用GraphLab来进行大数据量的random walk或graph-based的推荐算法非常有效。Graphlab虽然名气比较响亮(CMU开发),但是对一般数据量的应用来说可能还用不上。
GraphLab 主要实现了ALS,CCD++,SGD,Bias-SGD,SVD++,Weighted-ALS,Sparse-ALS,Non-negative Matrix Factorization,Restarted Lanczos Algorithm等算法。
#6.Mahout
主页:http://mahout.apache.org/ 语言:Java
Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费 使用。Mahout项目是由 Apache Lucene社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于 聚类和分类的机器学习算法。该社区最初基于 Ngetal. 的文章 “Map-Reduce for Machine Learning on Multicore”,但此后在发展中又并入了更多广泛的机器学习 方法,包括Collaborative Filtering(CF),Dimensionality Reduction,Topic Models等。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
在Mahout的Recommendation类算法中,主要有User-Based CF,Item-Based CF,ALS,ALS on Implicit Feedback,Weighted MF,SVD++,Parallel SGD等。
#7.Myrrix
主页:http://myrrix.com/ 语言:Java
Myrrix 最初是Mahout的作者之一Sean Owen基于Mahout开发的一个试验性质的推荐系统。目前Myrrix已经是一个完整的、实时的、可扩展的集群和推荐系统,主要 架构分为两部分:服务层:在线服务,响应请求、数据读入、提供实时推荐;计算层:用于分布式离线计算,在后台使用分布式机器学习算法为服务层更新机器学 习 模型。Myrrix使用这两个层构建了一个完整的推荐系统,服务层是一个HTTP服务器,能够接收更新,并在毫秒级别内计算出更新结果。服务层可以单独使 用,无需 计算层,它会在本地运行机器学习算法。计算层也可以单独使用,其本质是一系列的Hadoop jobs。目前Myrrix以被 Cloudera 并入Oryx项目。
#8.EasyRec
主页:http://easyrec.org/ 语言:Java
EasyRec 是一个易集成、易扩展、功能强大且具有可视化管理的推荐系统,更像一个完整的推荐产品,包括了数据录入模块、管理模块、推荐挖掘、离线分析等。 EasyRec可以同时给多个不同的网站提供推荐服务,通过tenant来区分不同的网站。架设EasyRec服务器,为网站申请tenant,通过 tenant就可以很方便的集成到 网站中。通过各种不同的数据收集(view,buy.rating)API收集到网站的用户行为,EasyRec通过离线分析,就可以产生推荐信息,您 的 网站就可以通过 Recommendations和Community Rankings来进行推荐业务的实现。
#9.Waffles
主页:http://waffles.sourceforge.net/ 语言:C++
Waffles 英文原意是蜂蜜甜饼,在这里却指代一个非常强大的机器学习的开源工具包。Waffles里包含的算法特别多,涉及机器学习的方方面面,推荐系统位于 其中的Waffles_recommend tool,大概只占整个Waffles的1/10的内容,其它还有分类、聚类、采样、降维、数据可视化、音频处理等许许多多工具包,估计 能与之媲美的也就数Weka了。
#10.RapidMiner
主页:http://rapidminer.com/ 语言:Java
RapidMiner(前 身是Yale)是一个比较成熟的数据挖掘解决方案,包括常见的机器学习、NLP、推荐、预测等方法(推荐只占其中很小一部分),而且带有GUI的 数据分析环境,数据ETL、预处理、可视化、评估、部署等整套系统都有。另外RapidMiner提供commercial license,提供R语言接口,感觉在向着一个商用的 数据挖掘公司的方向在前进。
======================================分割线======================================
开 源的推荐系统大大小小的还有很多,以上只是介绍了一些在学术界和工业界比较流行的TOP 10,而且基本上都是用C++/Java实现的,在参考资料[1]、[2]中还提 到的有Crab(Python)、CofiRank(C++)、MyMediaLite(.NET/C#)、PREA(Java)、Python- recsys(Python)、Recommendable(Ruby)、Recommenderlab(R)、 Oryx(Java)、recommendify(Ruby)、RecDB(SQL)等等,当然GitHub上还有更多。。。即有适合单机运行的,也有 适 合集群的。虽然使用的编程语言不同,但实现 的算法都大同小异,主要是SVD、SGD、ALS、MF、CF及其改进算法等。
参考资料
[1]推荐系统开源软件列表汇总和点评
[2]开源中国社区 - 搜索:推荐系统
Original Link: http://ibillxia.github.io/blog/2014/03/10/top-10-open-source-recommendation-systems/
Attribution - NON-Commercial - ShareAlike - Copyright © Bill Xia
原文出处:@Cheedoong
http://my.oschina.net/Yamazaki/blog/228671
相关推荐
- **简介**:Nagios是一款广受欢迎的开源监控系统,能够对网络中的主机和服务进行主动或被动监控。 - **最新版本**:NagiosPlugins 2.1.3,此版本为两个月前发布的最新插件集。 - **功能**: - 主动和被动监控; -...
OWASP Top 10是开源网络应用安全项目,旨在帮助开发者和安全专业人士了解和防止常见的网络应用安全风险。2021年版OWASP Top 10发布,带来了许多变化和改进。本文将对OWASP Top 10的重要知识点进行详细解释。 项目...
Linux中的`top`命令是系统监控工具,它实时显示系统中各个进程的资源占用状况,如CPU使用率、内存使用量、虚拟内存、进程状态等。`top`命令的源代码解析可以帮助我们深入理解其工作原理,对于系统管理员和开发者来说...
【OWASP Top 10 2017 v1.3中文最新版】是一个重要的网络安全文档,它详细列出了Web应用程序面临的十种最严重的安全风险。OWASP(开源Web应用程序安全项目)是一个专注于提高应用程序安全性的全球性社区,提供免费和...
DVWA(Damn Vulnerable Web Application)是一个开源的Web应用程序,专为网络安全专业人士设计,用于学习和测试各种Web安全漏洞。这个靶场集成了OWASP(Open Web Application Security Project)的Top 10漏洞,这些...
【标题】:“首届电子商务AI算法大赛TOP2开源代码” 这个标题揭示了我们即将探讨的主题——一个与电子商务领域相关的AI算法大赛。"首届"表明这是该类比赛的第一次举办,这通常意味着参赛者需要在没有历史数据或经验...
大学生参加学科竞赛有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关...
自2013年以来,针对这一问题的改进已经取得成效,表现在开源与商业软件生态系统的建立,以及开源组件在各种编程语言中的广泛应用。 OWASP Top 10还包括了对于CSRF(跨站请求伪造)漏洞的认识提高,CSRF曾是广泛存在...
淘宝开放平台JAVA版SDK top4java 设计原则 容易维护扩展(不需要修改主类就可以添加新的API支持) 注入型解释器(依据不同的返回格式注入相应的解释器) 集中管理请求参数与参数映射 以运行时异常的方式来管理错误的...
#### 2009年Top 10 Hosted CRM供应商简介 尽管具体的供应商名单会随时间变化而有所不同,但以下是一些2009年时被广泛认可的领先CRM供应商: 1. **Salesforce**:作为全球最大的CRM解决方案提供商之一,以其全面的...
这个过程可能涉及到Top-N推荐,即选取评分最高的N个物品推荐给用户。 9. **实时推荐** 如果源码包含实时推荐功能,那么可能会使用Spark Streaming处理实时数据流,快速更新用户的兴趣模型并生成新的推荐。 10. **...
- **开发语言**:通常开源项目会采用Java、Python或Go等跨平台语言开发,`J/Top` 用的是Java,这使得它能在任何安装了Java运行环境的系统上运行。 - **网络通信**:`J/Top` 可能采用了SSH(Secure Shell)或其他...
【开源PHP留言反馈管理系统 v2.0】是一个专为中小企业和个人网站设计的高效且便捷的留言反馈管理解决方案。由开发者avenjan进行二次开发,该系统充分利用了PHP编程语言的灵活性和MySQL数据库的强大功能,结合...
Easyrec作为一个开源推荐系统,致力于帮助各种网站实现这一功能,从而提升用户体验,增加用户粘性,促进业务增长。 Easyrec的核心特性包括: 1. **易用性与可扩展性**:Easyrec的设计目标是简单快速地集成到任何...
2. **Top.aspx**:顶部菜单或头部信息页面,可能包含公司Logo、用户登录信息、系统设置等元素,为用户提供全局操作入口。 3. **Main.aspx**:主页面,整个系统的中心,通常用于展示工作台、待办事项、通知公告等...
用户兴趣建模大赛top10开源代码 下面分别列出了这三部分对应的代码文件,依次每个代码文件的功能,输入,输出进行了详细说明。 1.预处理 merge_smallfiles.py 功能:将视觉特征的小文件合并;输入:视觉特征,存放于...
OWASP Top 10项目强调,无论应用系统多么复杂,都应遵循最佳实践以防止应用的安全缺陷。开发和部署安全应用需要整个组织的承诺,包括管理层、开发人员、系统管理员和用户。而OWASP Top 10项目则为所有参与者提供了一...
### 开源操作系统处理机管理研究与分析 #### 一、Linux操作系统概述 **Linux**是一种自由和开放源码的类Unix操作系统,它以其强大的稳定性和灵活性而闻名于世。Linux的核心部分被称为**Linux内核**,它是由芬兰...
OWASP(Open Web Application Security Project)是全球知名的开源安全项目,致力于提高软件的安全性,特别是Web应用程序的安全。其最著名的就是“OWASP Top 10”列表,这是一份定期更新的报告,列出了Web应用面临的...