就拿刚上线的“蚂蚁”来说吧,打开《引爆流行》的页面,稍微滚动两下鼠标,你就可以看到这个了——“喜欢此宝贝的会员还喜欢”。豆瓣上也有类似的形式,还看《引爆流行》,豆瓣的是——“喜欢引爆流行的人也喜欢”。是不是很像?但别被形式迷惑了,这两个用的是完全不同的技术实现。豆瓣的之前我说过了,他是 Item-Based 方法;蚂蚁的这个应该就是关联规则方法了。当然我是猜的,不过也不是乱猜。有兴趣的可以刷刷上面那两个《引爆流行》的页面,看一下两个推荐区域的内容会有什么不同。
关联规则起源于数据挖掘领域,人们用它来发现大量数据中项集之间(有趣/有用)的关联。它本身是数据挖掘领域中一个重要的研究课题,近些年来更是由于被业界广泛应用而倍受重视。Rakesh Agrawal 是关联规则领域的大牛,他于 1993 年发表的一篇 paper,《Mining Association Rules between Sets of Items in Large Databases》,是被引用最多的一篇大作。不过让 google fans 们失望的是,他目前就职于 microsoft 的搜索实验室!^_^
关联规则的最典型例子就是购物篮分析。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。这个故事听起来是不是很酷?没错,这就是技术的力量!
但是,和任何其他经典的故事一样——这事儿听起来带劲儿,做起来很难!真正做过关联规则挖掘的人,一定都有这样的体会:想从浩瀚的记录集里,挖掘一条带劲儿的关联规则出来,简直太难了。(什么,你问有多难?请参照朱广沪~~~)
对于挖掘得到的关联规则,都会制定一些指标来衡量它们的有效程度,最经典的包括,支持度和置信度。简单来讲,
- 支持度是指,商品A、商品B在全部销售订单中所占的比例。
- 置信度是指,购买商品A并且同时购买了商品B的订单,在所有包含商品A的订单中所占的比例。
当然,这里的商品和订单是个泛化的概念,具体指代是的什么,就得具体问题具体分析了。
相关推荐
人工智能和机器学习之关联规则学习算法:R-Apriori算法:关联规则在推荐系统中的应用.docx
人工智能和机器学习之关联规则学习算法:Multi-Level Association:关联规则在推荐系统中的应用.docx
基于关联规则的推荐系统的目标是在特定情境下提高推荐的有效性。比如,当用户将A(例如尿布)添加到购物车时,推荐系统将B(例如啤酒)作为附加商品推荐给用户,这样往往能比单纯推荐B获得更好的效果。 #### 二、...
关联规则挖掘算法是数据挖掘领域的重要技术之一,它主要用于发现不同项之间存在的有趣关系,通常用于市场篮子分析、库存管理、推荐系统等多个领域。在推荐系统的背景下,关联规则挖掘算法能够揭示用户购买或选择行为...
人工智能和机器学习之关联规则学习算法:Graph-Based Association:图关联规则在推荐系统中的应用.pdf
人工智能和机器学习之关联规则学习算法:Graph-Based Association:图关联规则在推荐系统中的应用.docx
10. 关联规则挖掘的应用:关联规则挖掘有广泛的应用,如推荐系统、市场营销、客户关系管理等。 11. 数据挖掘:数据挖掘是指从大量数据中发现有价值的知识或模式的过程。关联规则挖掘是数据挖掘的一种重要技术。 12...
5. 智能推荐:结合关联规则,我们可以构建一个简单的推荐系统。当用户购买了某个商品时,系统可以基于已发现的关联规则推荐其他可能感兴趣的商品。 6. 示例和测试:压缩包可能还包括一些示例数据和测试用例,以验证...
《毕业设计:关联规则与决策树组合算法在学生成绩分析中的研究》 在这个毕业设计项目中,我们探讨了如何运用关联规则和决策树这两种数据分析技术来深入理解并预测学生的学习成绩。这两种算法在数据挖掘领域有着广泛...
在这个“数据挖掘关联规则分析数据集”中,我们有两个合成的数据集,它们旨在帮助研究者和分析师探索不同项目之间的潜在关联,从而可能为业务决策、市场篮子分析或商品推荐系统提供依据。 关联规则通常由两部分组成...
### 分布式关联规则挖掘系统实现 #### 一、引言 随着信息技术的快速发展,海量数据的处理成为了当今社会的一项重要任务。数据挖掘作为一种从大量数据中提取有价值信息的技术,在商业决策、科学研究等多个领域得到...
关联规则挖掘是数据挖掘领域中的一个关键方法,用于发现大量数据集中的有趣关系。Apriori算法是关联规则挖掘中最经典、最广泛使用的算法之一,由Rakesh Agrawal和Ramakrishnan Srikant在1994年提出。这个算法主要...
关联规则是一种在大型数据库中发现有价值模式的统计方法,它主要应用于市场篮子分析、推荐系统和模式识别等领域。在C++中实现关联规则通常涉及数据预处理、Apriori算法或FP-Growth算法等核心步骤。下面我们将深入...
人工智能和机器学习之关联规则学习算法:QuantitativeAssociation:8.关联规则在推荐系统中的应用.docx
### 分布式系统下挖掘关联规则的两种方案 #### 一、引言 自1993年,Agrawal等人提出了关联规则的概念以来,关联规则挖掘成为了数据挖掘领域内的一个重要研究方向。传统的数据挖掘算法如Apriori算法、抽样算法、DIC...
Apriori算法是一种挖掘布尔关联规则频繁项集的经典算法,它通过迭代方式,即先找出频繁1项集,然后是频繁2项集,以此类推,直到不能发现更多的频繁k项集为止。在飞机系统故障关联规则挖掘过程中,确定最小支持度和...
《基于Hadoop实现的关联规则挖掘在图书数据分析推荐系统中的应用》 图书数据分析推荐系统是当前数字图书馆和在线书店中广泛应用的技术,它旨在通过分析用户的阅读习惯和偏好,为用户提供个性化的图书推荐。本项目...
在实际应用中,关联规则可以用于市场篮子分析、推荐系统、医疗诊断等多个领域。 “大数据论文”标签表明这篇研究不仅限于理论介绍,可能还包含了对实际大数据案例的分析和实验结果,展示Apriori算法在实际场景中的...