关联规则算法 Apriori
表明 ,
当蕴含式
A->B
满足最小支持度阈值 min_support
和最小置信度阈值 min_confidence
时,则 A->B
属于强关联规则,规则中包含用户感兴趣的知识。
但真的是这样吗?让我们先看个例子。
假设某家商场只卖两种商品: CD
机和 Mp3
两种音乐播放器,每天的交易量有 10000
单,其中 6000
单中包含 CD
机, 7000
单中包含 Mp3
, 3000
单中既包含 CD
又包含 Mp3
。 min_support=0.2, min_confidence=0.4
则规则 CD->Mp3
的支持度和置信度分别为
support=6000/10000=0.6> min_support
Confidence=3000/6000=0.5> min_confidence
因此
CD->Mp3
属于强关联规则,按照 Apriori
算法的思路可以推导出购买 CD
机的顾客通常愿意再购买 Mp3
。
但实际上真的是这样吗?我们尝试做这样一个假设,如果该商店中如果不卖 CD
机的话,那么 mp3
的交易量会不会下降,如果下降说明 CD
机的销售会促进 mp3
的交易量;如果持平,则认为 Mp3
的销售和 CD
机的销售是两个独立事件,互不影响;如果上升,则认为 CD
机的的销售阻碍 Mp3
的交易量。
在概率论中,假如两个事件 A
和 B
相互独立,那么 A
和 B
同时发生的概率应该等于 A
事件发生的概率乘以 B
事件发生的概率,即 P(AB)=P(A)P(B)
,A
事件和B
事件的存在互不影响。
如果
P(AB)>P(A)P(B),
说明 A
和 B
同时发生的概率大于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)>P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会大于 A
单独发生时的概率,这就是所谓的 A
事件的发生会促进 B
事件的发生 。
如果
P(AB)<P(A)P(B),
说明 A
和 B
同时发生的概率小于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)<P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会小于 A
单独发生时的概率,这就是所谓的 A
事件的发生会阻碍 B
事件的发生 。
回到刚才的例子,我们可以发现
P(CD&Mp3)=3000/10000=0.3,P(CD)P(Mp3)=(6000/10000)*(7000/10000)=0.42,
即 P(CD&Mp3)< P(CD)P(Mp3)
,CD
机的交易其实会阻碍 Mp3
的交易量。
所以说,只凭支持度和置信度去衡量规则之间的关联关系是具有欺骗性的。因此,在前面两种度量标准的前提下还引入了第三种度量概念,称为提升度,
用来体现规则 A->B
中 A
和 B
的相关性:
Lift(A,B)=P(AB)/P(A)P(B)
如果
Lift(A,B)<1,
则 A
的出现和 B
的出现是负相关的,即相互阻碍;如果 Lift(A,B)>1,
则 A
和 B
是正相关,意味着一个的出现蕴含另一个的出现;如果 Lift(A,B)=1
,说明 A
和 B
是相互独立。
当然,还有其他一些度量概念可以用于衡量相关性,比如 X2
,全置信度和余弦度量,有兴趣的同学可以进一步了解下。
分享到:
相关推荐
这种技术在电商领域尤为常见,用于分析用户的购买行为,进而推荐可能感兴趣的商品。一个经典的例子就是“啤酒与尿布”的故事——当顾客购买尿布时,有很大可能性也会购买啤酒。在这个例子中,如果我们将购买尿布记作...
Apriori算法的基本思想是通过迭代生成不同支持度的频繁项集,然后基于这些频繁项集生成强关联规则。首先,我们需要理解几个关键概念: 1. **项集**:一个或多个项目的集合,例如{"牛奶", "面包"}。 2. **支持度**:...
交叉销售是一种常见的应用,它利用顾客已购买商品的信息来推荐其他可能感兴趣的商品。邮购目录设计则通过分析顾客购买习惯,将经常一起购买的商品放置在一起,以促进销售。商品摆放策略会影响顾客的购物路径,从而...
当用户购买了某个商品时,系统可以基于已发现的关联规则推荐其他可能感兴趣的商品。 6. 示例和测试:压缩包可能还包括一些示例数据和测试用例,以验证算法的正确性和效率。 总的来说,通过理解和应用Apriori算法,...
在推荐系统中,关联规则算法被用来发现用户行为的关联模式,并据此来推荐用户可能感兴趣的商品或服务。 FP-growth算法是一种高效的关联规则挖掘算法,相较于传统的Apriori算法,FP-growth算法具有更高的执行效率,...
此外,电子商务平台也可以通过分析用户的浏览记录和购买历史,推荐用户可能感兴趣的商品,提升用户体验。 **3.2 其他领域的应用** 除了商业领域外,关联规则还在医疗健康、教育等领域有着广泛的应用。例如,在医疗...
通过改进Apriori算法挖掘用户兴趣信息,建立用户行为模型,并为用户推荐其感兴趣的商品,提高用户的购买体验。 一、电子商务与个性化推荐 随着我国电子商务事业的发展,传统的电子商务服务模式已经不能满足人们的...
- 若关联规则`X => Y`的支持度和支持度均不低于用户指定的最小支持度(minsupport)和最小置信度(minconfidence),则称此规则为强规则(Strong Rule),否则为弱规则(Weak Rule)。 - **置信度**(Confidence):...
关联规则挖掘的应用非常广泛,例如,在推荐系统中,可以使用关联规则挖掘来推荐用户可能感兴趣的商品或服务;在医疗健康领域,可以使用关联规则挖掘来发现疾病之间的相关性;在金融领域,可以使用关联规则挖掘来预测...
本文将关联规则应用于股票K线趋势的挖掘模式。 普通投资者感兴趣的模式被定义为T-RG(三红卫兵)。 在采矿过程中,我们以A股市场的K线为对象。 通过分析,投资者可以选择合适的买卖点。 在T-RG的帮助下,投资者可以...
在互联网领域,推荐系统利用关联规则来推荐用户可能感兴趣的商品或服务。在医学领域,关联规则可以帮助医生发现疾病之间的关联,辅助诊断和治疗决策。 未来,关联规则挖掘技术的发展趋势将更加注重实际应用的针对性...
5. 推荐生成:基于挖掘出的规则,为用户推荐他们可能感兴趣但尚未购买的商品。 五、实际案例 在电商场景中,假设我们发现“购买尿布”的用户中有很大比例的人也会购买“啤酒”,那么可以设置关联规则为:“如果用户...
此外,关联规则还可以用于推荐系统,根据用户的购买历史推荐可能感兴趣的商品。 在数据挖掘工具方面,有多种软件可供选择,如WEKA,这是一个开源的数据挖掘工具,提供了多种数据预处理、分类、聚类以及关联规则挖掘...