`
onmyway_1985
  • 浏览: 33053 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

距离和相似度

 
阅读更多
总结一下模式识别中的距离和相似度计算方式

一.距离

首先介绍闵科夫斯基距离:



r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离

作为欧式距离的扩展,马氏距离的定义为:





马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差拉伸后求得的距离。

二.相似度

1 二元数据相似度

简单匹配系数(SMC),公式:



jacob系数,公式:



简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)

2 余弦相似度



余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间

3 广义jacob系数

广义jacob系数在二元属性下退化为jacob系数,公式:



4 相关性(皮尔逊相关)

相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。






补充:
tanimoto系数





参考:

《数据挖掘导论》
  • 大小: 37.9 KB
  • 大小: 63.9 KB
  • 大小: 5.1 KB
  • 大小: 20.3 KB
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics