`
fufeng
  • 浏览: 75672 次
社区版块
存档分类
最新评论

关联规则(二)强关联规则一定就是用户感兴趣的规则吗

阅读更多

关联规则算法 Apriori 表明 , 当蕴含式 A->B 满足最小支持度阈值 min_support 和最小置信度阈值 min_confidence 时,则 A->B 属于强关联规则,规则中包含用户感兴趣的知识。

 

但真的是这样吗?让我们先看个例子。

假设某家商场只卖两种商品: CD 机和 Mp3 两种音乐播放器,每天的交易量有 10000 单,其中 6000 单中包含 CD 机, 7000 单中包含 Mp3 3000 单中既包含 CD 又包含 Mp3 min_support=0.2, min_confidence=0.4

则规则 CD->Mp3 的支持度和置信度分别为

support=6000/10000=0.6> min_support

Confidence=3000/6000=0.5> min_confidence

因此 CD->Mp3 属于强关联规则,按照 Apriori 算法的思路可以推导出购买 CD 机的顾客通常愿意再购买 Mp3

 

但实际上真的是这样吗?我们尝试做这样一个假设,如果该商店中如果不卖 CD 机的话,那么 mp3 的交易量会不会下降,如果下降说明 CD 机的销售会促进 mp3 的交易量;如果持平,则认为 Mp3 的销售和 CD 机的销售是两个独立事件,互不影响;如果上升,则认为 CD 机的的销售阻碍 Mp3 的交易量。

 

在概率论中,假如两个事件 A B 相互独立,那么 A B 同时发生的概率应该等于 A 事件发生的概率乘以 B 事件发生的概率,即 P(AB)=P(A)P(B)A 事件和B 事件的存在互不影响。

 

如果 P(AB)>P(A)P(B), 说明 A B 同时发生的概率大于 A B 单独发生概率的乘积,那么 P A|B = P(AB)/P(B)>P(A)P(B)/P(B)=P(A), 也就是说当 B 发生时, A 发生的概率会大于 A 单独发生时的概率,这就是所谓的 A 事件的发生会促进 B 事件的发生 。

 

如果 P(AB)<P(A)P(B), 说明 A B 同时发生的概率小于 A B 单独发生概率的乘积,那么 P A|B = P(AB)/P(B)<P(A)P(B)/P(B)=P(A), 也就是说当 B 发生时, A 发生的概率会小于 A 单独发生时的概率,这就是所谓的 A 事件的发生会阻碍 B 事件的发生 。

 

回到刚才的例子,我们可以发现 P(CD&Mp3)=3000/10000=0.3,P(CD)P(Mp3)=(6000/10000)*(7000/10000)=0.42, P(CD&Mp3)< P(CD)P(Mp3)CD 机的交易其实会阻碍 Mp3 的交易量。

所以说,只凭支持度和置信度去衡量规则之间的关联关系是具有欺骗性的。因此,在前面两种度量标准的前提下还引入了第三种度量概念,称为提升度, 用来体现规则 A->B A B 的相关性:

 

Lift(A,B)=P(AB)/P(A)P(B)

如果 Lift(A,B)<1, A 的出现和 B 的出现是负相关的,即相互阻碍;如果 Lift(A,B)>1, A B 是正相关,意味着一个的出现蕴含另一个的出现;如果 Lift(A,B)=1 ,说明 A B 是相互独立。

 

当然,还有其他一些度量概念可以用于衡量相关性,比如 X2 ,全置信度和余弦度量,有兴趣的同学可以进一步了解下。

 

分享到:
评论

相关推荐

    了解“关联规则”推荐

    这种技术在电商领域尤为常见,用于分析用户的购买行为,进而推荐可能感兴趣的商品。一个经典的例子就是“啤酒与尿布”的故事——当顾客购买尿布时,有很大可能性也会购买啤酒。在这个例子中,如果我们将购买尿布记作...

    使用Apriori算法进行关联规则挖掘的实验报告与代码实现

    Apriori算法的基本思想是通过迭代生成不同支持度的频繁项集,然后基于这些频繁项集生成强关联规则。首先,我们需要理解几个关键概念: 1. **项集**:一个或多个项目的集合,例如{"牛奶", "面包"}。 2. **支持度**:...

    关联规则算法

    交叉销售是一种常见的应用,它利用顾客已购买商品的信息来推荐其他可能感兴趣的商品。邮购目录设计则通过分析顾客购买习惯,将经常一起购买的商品放置在一起,以促进销售。商品摆放策略会影响顾客的购物路径,从而...

    python源码集锦-基于关联规则 Apriori 算法的智能推荐

    当用户购买了某个商品时,系统可以基于已发现的关联规则推荐其他可能感兴趣的商品。 6. 示例和测试:压缩包可能还包括一些示例数据和测试用例,以验证算法的正确性和效率。 总的来说,通过理解和应用Apriori算法,...

    基于Python的关联规则算法在推荐领域的应用研究.pdf

    在推荐系统中,关联规则算法被用来发现用户行为的关联模式,并据此来推荐用户可能感兴趣的商品或服务。 FP-growth算法是一种高效的关联规则挖掘算法,相较于传统的Apriori算法,FP-growth算法具有更高的执行效率,...

    数据挖掘中的关联规则

    此外,电子商务平台也可以通过分析用户的浏览记录和购买历史,推荐用户可能感兴趣的商品,提升用户体验。 **3.2 其他领域的应用** 除了商业领域外,关联规则还在医疗健康、教育等领域有着广泛的应用。例如,在医疗...

    基于关联规则的客户行为建模与商品推荐研究.pdf

    通过改进Apriori算法挖掘用户兴趣信息,建立用户行为模型,并为用户推荐其感兴趣的商品,提高用户的购买体验。 一、电子商务与个性化推荐 随着我国电子商务事业的发展,传统的电子商务服务模式已经不能满足人们的...

    数据挖掘的关联规则

    - 若关联规则`X =&gt; Y`的支持度和支持度均不低于用户指定的最小支持度(minsupport)和最小置信度(minconfidence),则称此规则为强规则(Strong Rule),否则为弱规则(Weak Rule)。 - **置信度**(Confidence):...

    关联规则之Apriori算法的一种改进算法[借鉴].pdf

    关联规则挖掘的应用非常广泛,例如,在推荐系统中,可以使用关联规则挖掘来推荐用户可能感兴趣的商品或服务;在医疗健康领域,可以使用关联规则挖掘来发现疾病之间的相关性;在金融领域,可以使用关联规则挖掘来预测...

    基于关联规则的股票模式挖掘与对应分析

    本文将关联规则应用于股票K线趋势的挖掘模式。 普通投资者感兴趣的模式被定义为T-RG(三红卫兵)。 在采矿过程中,我们以A股市场的K线为对象。 通过分析,投资者可以选择合适的买卖点。 在T-RG的帮助下,投资者可以...

    关联规则挖掘综述.docx

    在互联网领域,推荐系统利用关联规则来推荐用户可能感兴趣的商品或服务。在医学领域,关联规则可以帮助医生发现疾病之间的关联,辅助诊断和治疗决策。 未来,关联规则挖掘技术的发展趋势将更加注重实际应用的针对性...

    基于Python的关联规则算法在推荐领域的应用研究.zip

    5. 推荐生成:基于挖掘出的规则,为用户推荐他们可能感兴趣但尚未购买的商品。 五、实际案例 在电商场景中,假设我们发现“购买尿布”的用户中有很大比例的人也会购买“啤酒”,那么可以设置关联规则为:“如果用户...

Global site tag (gtag.js) - Google Analytics