数据挖掘导论学习笔记（2）----- 数据（3） -

defungo

浏览: 82971 次
性别:
来自: 北京

最近访客更多访客>>

csyfly2003

david_xu

melin

biyelei

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据挖掘导论学习笔记（2）----- 数据（3）

博客分类：

Data Mining

相似性和相异性的度量

相似度：两个对象之间的相似度（similarity）的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度越高。通常，相似度是非负的，并常常在0（不相似）和（完全相似）之间取值。

相异度：两个对象之间的相异度是这两个对象差异程度的数值度量。对象越相似，它们的相异度就越低。通常，术语距离（distance）用作相异度的同义词。有时，在区间【0,1】中取值，但在0和∞之间取值也很常见

本节，我们介绍广泛用于计算数值属性刻画的对象的相异性的距离度量。这些度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。

在某些情况下，在计算距离之前数据应该规范化。这涉及变换数据，使之落入较小的公共值域，如［-1，1］或［0.0,1.0］。例如，考虑 height（高度）属性，它可能用米或英寸测量。一般而言，用较小的单位表示一个属性将导致该属性具有较大的值域，因而趋向于给这种属性更大的影响或 “权重”。规范化数据试图给所有属性相同的权重。在特定的应用中，这可能有用，也可能没用。数据规范化方法在第3章数据预处理中详细讨论。

最流行的距离度量是欧几里得距离（即，直线或“乌鸦飞行”距离）。令i=（xi1，xi2，…，xip）和j=（xj1，xj2,…，xjp）是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为：

另一个著名的度量方法是曼哈顿（或城市块）距离，之所以如此命名，是因为它是城市两点之间的街区距离（如，向南2个街区，横过3个街区，共计5个街区）。其定义如下：

欧几里得距离和曼哈顿距离都满足如下数学性质：

非负性：d(i，j)≥0：距离是一个非负的数值。

同一性：d(i，i）=0：对象到自身的距离为0。

三角不等式：d(i，j)≤d(i，k）+d(k，j)：从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。

满足这些条件的测度称做度量（metric）¹ 。注意非负性被其他三个性质所蕴含。

例2.19　欧几里得距离和曼哈顿距离。令x1=(1，2）和x2=(3，5)表示如图2.23所示的两个对象。两点间的欧几里得距离是。两者的曼哈顿距离是2+3=5。

闵可夫斯基距离（Minkowski distance）是欧几里得距离和曼哈顿距离的推广，定义如下：

其中，h是实数，h≥1。（在某些文献中，这种距离又称Lp范数（norm），其中p就是我们的h。我们保留p作为属性数，以便于本章的其余部分一致。）当p=1时，它表示曼哈顿距离（即，L1范数）；当p=2表示欧几里得距离（即，L2范数）。

上确界距离（又称Lmax,L∞范数和切比雪夫（Chebyshev）距离）是h→∞时闵可夫斯基距离的推广。为了计算它，我们找出属性f，它产生两个对象的最大值差。这个差是上确界距离，更形式化地定义为：

L∞范数又称一致范数（uniform norm）。

例2.20　上确界距离。让我们使用相同的数据对象x1=(1，2）和x2=(3，5)，如图2.23所示。第二个属性给出这两个对象的最大值差为5-2=3。这是这两个对象间的上确界距离。

如果对每个变量根据其重要性赋予一个权重，则加权的欧几里得距离可以用下式计算：

加权也可以用于其他距离度量。
_________________________________________________________
1　在数学文献，特别是在测度论中，measure被译为“测度”，metric被译为“度量”。在计算机科学文献中，metric很少用，而 measure通常译为“度量”。仅当measure和metric同时出现时，我们才按照数学的习惯翻译，而在其他情况下，我们采用计算机科学的传统译法。——译者注

二元数据的相似度

1.SMC（Simple Matching Coefficient 简单匹配系统树）

2.Jaccard系数（Jaccard Coefficient）

3.余弦相似度

4.广义Jaccard系数

5.皮尔森相关

6.Bregman三度

分享到：

LVS简介及使用 | SolrJ的使用

2013-01-14 08:33
浏览 2718
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（2）----- 数据（3）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（2）----- 数据（3）

评论

发表评论

相关推荐

聚类分析

数据挖掘导论学习笔记（4）-决策树分类

推荐引擎-（2）推荐系统的实验方法。

推荐引擎-（1）简介

数据挖掘导论学习笔记（3）----- 汇总统计

贝叶斯方法

数据挖掘导论学习笔记（2）----- 数据（2）

数据挖掘导论学习笔记（2）----- 数据（1）

数据挖掘导论学习笔记（1）-----基本概念

最近访客更多访客>>