2012届KDD Cup
Track1任务:社交网络中的个性化推荐系统
根据腾讯微博中的用户属性(User Profile)、SNS社交关系、在社交网络中的互动记录(retweet、comment、at)等,以及过去30天内的历史item推荐记录,来预测接下来最有可能被用户接受的推荐item列表
Track2任务:搜索广告系统的pTCR点击率预估
提供用户在腾讯搜索的查询词(query)、展现的广告信息(包括广告标题、描述、url等),以及广告的相对位置(多条广告中的排名)和用户点击情况,以及广告主和用户的属性信息,来预测后续时间用户对广告的点击情况
数据集:http://www.kddcup2012.org/c/kddcup2012-track1/data
论文:http://www.kddcup2012.org/workshop
Track1任务:音乐评分预测
根据用户在雅虎音乐上item的历史评分记录,来预测用户对其他item(包括歌曲、专辑等)的评分和实际评分之间的差异RMSE(最小均方误差)。同时提供的还有歌曲所属的专辑、歌手、曲风等信息
Track2任务:识别音乐是否被用户评分
每个用户提供6首候选的歌曲,其中3首为用户已评分数据,另3首是该用户未评分,但是出自用户中整体评分较高的歌曲。歌曲的属性信息(专辑、歌手、曲风等)也同样提供。参赛者给出二分分类结果(0/1分类),并根据整体准确率计算最终排名
数据集:http://kddcup.yahoo.com/datasets.php#
论文:http://kddcup.yahoo.com/workshop.php
法国电信运营商Orange的大规模数据中,积累了大量客户的行为记录。竞赛者需要设计一个良好的客户关系管理系统(CRM),用快速、稳定的方法,预测客户三个维度的属性,包括:1、忠诚度:用户切换运营商的可能性(Churn);2、购买欲:购买新服务的可能性(Appetency);3、增值性:客户升级或追加购买高利润产品的可能性(Up-selling)。结果用AUC曲线来评估
相关推荐
3、源代码Handle_data.py是kdd99数据集预处理源代码,kddcup.data_10_percent_corrected.xls是预处理后的数据集。 4、源代码:Kdd_dnn.py是基于DNN神经网络对入侵检测数据集进行分类;kdd_cnn.py是基于CNN神经网络对...
为了提高异常检测的效率,提出了一种基于...以KDDCUP 99数据源进行实验,先将数据从40维约简为15维,22维约简为5维,训练与检测的实验结果表明,该检测方法具有良好的准确度和泛化性能,训练时间和检测时间显著减少。
KDD'99数据集按原样使用,并且已作为项目源的一部分进行了预处理。 最终精度为0.97833。 单个模型的个体精度为: KNN:0.976835 CNN + LSTM:0.9667878 随机森林:0.96381378 主要思想是在相同的数据上训练3个...
我们开发了一种用于CC的正则化非负矩阵分解(RNMF)算法,以通过利用此问题集中可用的各种数据源(包括属性特征,潜图和未标记的数据信息)来进行蛋白质功能特性预测。 在RNMF中,将标签矩阵分解项和网络正则化项...
实验结果基于KDDCUP2012的真实数据,显示相较于传统协作过滤系统,该系统在推荐准确性和解决冷启动问题方面具有明显优势。 关键词包括社交推荐系统、文本相似性、协作网络和过滤技术。在引言部分,文章阐述了大数据...