关联规则算法 Apriori
表明 ,
当蕴含式
A->B
满足最小支持度阈值 min_support
和最小置信度阈值 min_confidence
时,则 A->B
属于强关联规则,规则中包含用户感兴趣的知识。
但真的是这样吗?让我们先看个例子。
假设某家商场只卖两种商品: CD
机和 Mp3
两种音乐播放器,每天的交易量有 10000
单,其中 6000
单中包含 CD
机, 7000
单中包含 Mp3
, 3000
单中既包含 CD
又包含 Mp3
。 min_support=0.2, min_confidence=0.4
则规则 CD->Mp3
的支持度和置信度分别为
support=6000/10000=0.6> min_support
Confidence=3000/6000=0.5> min_confidence
因此
CD->Mp3
属于强关联规则,按照 Apriori
算法的思路可以推导出购买 CD
机的顾客通常愿意再购买 Mp3
。
但实际上真的是这样吗?我们尝试做这样一个假设,如果该商店中如果不卖 CD
机的话,那么 mp3
的交易量会不会下降,如果下降说明 CD
机的销售会促进 mp3
的交易量;如果持平,则认为 Mp3
的销售和 CD
机的销售是两个独立事件,互不影响;如果上升,则认为 CD
机的的销售阻碍 Mp3
的交易量。
在概率论中,假如两个事件 A
和 B
相互独立,那么 A
和 B
同时发生的概率应该等于 A
事件发生的概率乘以 B
事件发生的概率,即 P(AB)=P(A)P(B)
,A
事件和B
事件的存在互不影响。
如果
P(AB)>P(A)P(B),
说明 A
和 B
同时发生的概率大于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)>P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会大于 A
单独发生时的概率,这就是所谓的 A
事件的发生会促进 B
事件的发生 。
如果
P(AB)<P(A)P(B),
说明 A
和 B
同时发生的概率小于 A
和 B
单独发生概率的乘积,那么
P
( A|B
) =
P(AB)/P(B)<P(A)P(B)/P(B)=P(A),
也就是说当 B
发生时, A
发生的概率会小于 A
单独发生时的概率,这就是所谓的 A
事件的发生会阻碍 B
事件的发生 。
回到刚才的例子,我们可以发现
P(CD&Mp3)=3000/10000=0.3,P(CD)P(Mp3)=(6000/10000)*(7000/10000)=0.42,
即 P(CD&Mp3)< P(CD)P(Mp3)
,CD
机的交易其实会阻碍 Mp3
的交易量。
所以说,只凭支持度和置信度去衡量规则之间的关联关系是具有欺骗性的。因此,在前面两种度量标准的前提下还引入了第三种度量概念,称为提升度,
用来体现规则 A->B
中 A
和 B
的相关性:
Lift(A,B)=P(AB)/P(A)P(B)
如果
Lift(A,B)<1,
则 A
的出现和 B
的出现是负相关的,即相互阻碍;如果 Lift(A,B)>1,
则 A
和 B
是正相关,意味着一个的出现蕴含另一个的出现;如果 Lift(A,B)=1
,说明 A
和 B
是相互独立。
当然,还有其他一些度量概念可以用于衡量相关性,比如 X2
,全置信度和余弦度量,有兴趣的同学可以进一步了解下。
分享到:
相关推荐
基于主观兴趣度的关联规则优化算法是一种数据挖掘技术,旨在帮助用户发现其最感兴趣的规则。该算法通过整合用户领域知识,对规则进行了精简和优化,计算每条规则的兴趣度,并对其进行排序,以供用户参考。 关联规则...
这种技术在电商领域尤为常见,用于分析用户的购买行为,进而推荐可能感兴趣的商品。一个经典的例子就是“啤酒与尿布”的故事——当顾客购买尿布时,有很大可能性也会购买啤酒。在这个例子中,如果我们将购买尿布记作...
Apriori算法的基本思想是通过迭代生成不同支持度的频繁项集,然后基于这些频繁项集生成强关联规则。首先,我们需要理解几个关键概念: 1. **项集**:一个或多个项目的集合,例如{"牛奶", "面包"}。 2. **支持度**:...
在推荐系统中,关联规则用于发现用户可能感兴趣的项目,从而提供个性化推荐,提高用户体验。 总结来说,关联规则挖掘作为一种数据挖掘技术,其在揭示数据间关联性方面的独特价值不可小觑。随着数据仓库技术的不断...
交叉销售是一种常见的应用,它利用顾客已购买商品的信息来推荐其他可能感兴趣的商品。邮购目录设计则通过分析顾客购买习惯,将经常一起购买的商品放置在一起,以促进销售。商品摆放策略会影响顾客的购物路径,从而...
当用户购买了某个商品时,系统可以基于已发现的关联规则推荐其他可能感兴趣的商品。 6. 示例和测试:压缩包可能还包括一些示例数据和测试用例,以验证算法的正确性和效率。 总的来说,通过理解和应用Apriori算法,...
在推荐系统中,关联规则算法被用来发现用户行为的关联模式,并据此来推荐用户可能感兴趣的商品或服务。 FP-growth算法是一种高效的关联规则挖掘算法,相较于传统的Apriori算法,FP-growth算法具有更高的执行效率,...
此外,电子商务平台也可以通过分析用户的浏览记录和购买历史,推荐用户可能感兴趣的商品,提升用户体验。 **3.2 其他领域的应用** 除了商业领域外,关联规则还在医疗健康、教育等领域有着广泛的应用。例如,在医疗...
例如,电子商务网站可以通过用户浏览和购买历史记录分析用户偏好,并根据这些关联规则向用户推荐可能感兴趣的商品。 关联规则分析还被应用于生物信息学领域,在基因数据分析、蛋白质相互作用研究等方面,帮助科学家...
通过改进Apriori算法挖掘用户兴趣信息,建立用户行为模型,并为用户推荐其感兴趣的商品,提高用户的购买体验。 一、电子商务与个性化推荐 随着我国电子商务事业的发展,传统的电子商务服务模式已经不能满足人们的...
而在众多机器学习的应用场景中,智能推荐系统则是备受关注的一个,它能够依据用户的兴趣和历史行为,推荐给用户感兴趣的内容或商品,极大地提升了用户体验和商业价值。 关联规则挖掘是数据挖掘领域中的一种重要技术...
- 若关联规则`X => Y`的支持度和支持度均不低于用户指定的最小支持度(minsupport)和最小置信度(minconfidence),则称此规则为强规则(Strong Rule),否则为弱规则(Weak Rule)。 - **置信度**(Confidence):...
2. 交叉销售和 upselling:发现产品间的关联性,有助于推荐系统的设计,向客户推荐他们可能感兴趣但尚未购买的其他产品,提高销售额。 3. 营销策略优化:关联规则可以帮助确定哪些促销活动最有效,以及何时、何地、...
关联规则挖掘的应用非常广泛,例如,在推荐系统中,可以使用关联规则挖掘来推荐用户可能感兴趣的商品或服务;在医疗健康领域,可以使用关联规则挖掘来发现疾病之间的相关性;在金融领域,可以使用关联规则挖掘来预测...
在推荐系统中,关联规则学习通过对用户历史行为和偏好的分析,向用户推荐其可能感兴趣的商品或内容,从而提升用户体验和满意度。在金融领域,关联规则学习被应用于欺诈检测,通过识别交易数据中的异常模式,帮助金融...
本文将关联规则应用于股票K线趋势的挖掘模式。 普通投资者感兴趣的模式被定义为T-RG(三红卫兵)。 在采矿过程中,我们以A股市场的K线为对象。 通过分析,投资者可以选择合适的买卖点。 在T-RG的帮助下,投资者可以...