数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

liyonghui160com

浏览: 780462 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

jerry830518

zhutiehan

liang3yibo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

推荐&统计系统

关联度置信度提升度关联规则挖掘(Association Rule)（购物篮分析）

1.置信度(confidence)

定义：设W中支持物品集A的事务中，有c ％的事务同时也支持物品集B，c ％称为关联规则A→B 的可信度。

通俗解释：简单地说，可信度就是指在出现了物品集A 的事务T 中，物品集B 也同时出现的概率有多大。

实例说明：上面所举的圆珠笔和笔记本的例子，该关联规则的可信度就回答了这样一个问题：如果一个顾客购买了圆珠笔，那么他也购买笔记本的可能性有多大呢？在上述例子中，购买圆珠笔的顾客中有65％的人购买了笔记本, 置信度是65％。

概率描述：物品集A对物品集B的置信度confidence（A==>B）=P（B|A）=N（AB）/N(A)

2.支持度(support)

定义：设W 中有s ％的事务同时支持物品集A 和B，s ％称为关联规则A→B 的支持度。支持度描述了A 和B 这两个物品集的并集C 在所有的事务中出现的概率有多大。

通俗解释：简单地说，A==>B的支持度就是指物品集A和物品集B同时出现的概率。

实例说明：某天共有1000 个顾客到商场购买物品，其中有150个顾客同时购买了圆珠笔和笔记本，那么上述的关联规则的支持度就是15％。

概率描述：物品集A对物品集B的支持度support（A==>B）=P（A n B）=N(AB)/N()

3.期望置信度（Expected confidence）

定义：设W 中有e ％的事务支持物品集B，e ％称为关联规则A→B 的期望可信度度。

通俗解释：期望可信度描述了在没有任何条件影响时，物品集B 在所有事务中出现的概率有多大。

实例说明：如果某天共有1000 个顾客到商场购买物品，其中有250 个顾客购买了圆珠笔，则上述的关联规则的期望可信度就是25 ％。

概率描述：物品集A对物品集B的期望置信度为support（B）=P（B）

4.提升度（lift）

定义：提升度是可信度与期望可信度的比值

通俗解释：提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。

实例说明：上述的关联规则的提升度=65%/25%=2.6

概率描述：物品集A对物品集B的期望置信度为lift（A==>B）=confidence（A==>B）/support(B)=p(B|A)/p(B)=N(AB)*N()/N(A)*N(B)

总之，可信度是对关联规则的准确度的衡量，支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性，显然支持度越大，关联规则越重要。有些关联规则可信度虽然很高，但支持度却很低，说明该关联规则实用的机会很小，因此也不重要。

在关联规则挖掘中，满足一定最小置信度以及支持度的集合成为频繁集（frequent itemset），或者强关联。关联规则挖掘则是一个寻找频繁集的过程。

如上图中数据库D，包含4个事务，项集I={I1,I2,I3,I4,I5}，分析关联规则：I1=>I4，事务1、4包含I1，事务4同时包含I1和I4。

支持度support=1/4=25%（1个事务同时包含I1和I4,共有4个事务）指在所有交易记录中有25%的交易记录同时包含I1和I4项目

置信度confidence=1/2=50%（1个事务同时包含I1和I4,2个事务包含I1）指 50%的顾客在购买I1时同时还会购买I4

期望置信度 Expected confidence=2/4=50% 两个事务包含了I4 总顾客数为4

提升度lift（I1==>I4）= 50%/50%=1

分享到：

K-Means聚类算法理解 | knn距离公式比较

2014-06-25 17:04
浏览 3701
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论