相似性和相异性的度量
相似度:两个对象之间的相似度(similarity) 的非正式定义是这两个对象相似程度的数值度量。因而,两个对象越相似,它们的相似度越高。通常,相似度是非负的,并常常在0(不相似)和(完全相似)之间取值。
相异度:两个对象之间的相异度是这两个对象差异程度的数值度量。对象越相似,它们的相异度就越低。通常,术语距离(distance)用作相异度的同义词。有时,在区间【0,1】中取值,但在0和∞之间取值也很常见
本节,我们介绍广泛用于计算数值属性刻画的对象的相异性的距离度量。这些度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。
在某些情况下,在计算距离之前数据应该规范化。这涉及变换数据,使之落入较小的公共值域,如[-1,1]或[0.0,1.0]。例如,考虑
height(高度)属性,它可能用米或英寸测量。一般而言,用较小的单位表示一个属性将导致该属性具有较大的值域,因而趋向于给这种属性更大的影响或
“权重”。规范化数据试图给所有属性相同的权重。在特定的应用中,这可能有用,也可能没用。数据规范化方法在第3章数据预处理中详细讨论。
最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:
另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下:
欧几里得距离和曼哈顿距离都满足如下数学性质:
非负性:d(i,j)≥0:距离是一个非负的数值。
同一性:d(i,i)=0:对象到自身的距离为0。
三角不等式:d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。
满足这些条件的测度称做度量(metric)1
。注意非负性被其他三个性质所蕴含。
例2.19 欧几里得距离和曼哈顿距离。令x1=(1,2)和x2=(3,5)表示如图2.23所示的两个对象。两点间的欧几里得距离是
。两者的曼哈顿距离是2+3=5。
闵可夫斯基距离(Minkowski distance)是欧几里得距离和曼哈顿距离的推广
,定义如下:
其中,h是实数,h≥1。(在某些文献中,这种距离又称Lp范数(norm),其中p就是我们的h。我们保留p作为属性数,以便于本章的其余部分一致。)当p=1时,它表示曼哈顿距离(即,L1范数);当p=2表示欧几里得距离(即,L2范数)。
上确界距离(又称Lmax,L∞范数和切比雪夫(Chebyshev)距离)是h→∞时闵可夫斯基距离的推广
。为了计算它,我们找出属性f,它产生两个对象的最大值差。这个差是上确界距离,更形式化地定义为:
L∞范数又称一致范数(uniform norm)。
例2.20 上确界距离。让我们使用相同的数据对象x1=(1,2)和x2=(3,5),如图2.23所示。第二个属性给出这两个对象的最大值差为5-2=3。这是这两个对象间的上确界距离。
如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离可以用下式计算:
加权也可以用于其他距离度量。
_________________________________________________________
1 在数学文献,特别是在测度论中,measure被译为“测度”,metric被译为“度量”。在计算机科学文献中,metric很少用,而
measure通常译为“度量”。仅当measure和metric同时出现时,我们才按照数学的习惯翻译,而在其他情况下,我们采用计算机科学的传统译
法。——译者注
二元数据的相似度
1.SMC(Simple Matching Coefficient 简单匹配系统树)
2.Jaccard系数(Jaccard Coefficient)
3.余弦相似度
4.广义Jaccard系数
5.皮尔森相关
6.Bregman三度
分享到:
相关推荐
在这里,我们重点关注第一章的学习笔记,即"第一章导论"。 在数据挖掘的导论部分,通常会涵盖以下几个关键知识点: 1. 数据挖掘定义:数据挖掘是一种从大量数据中通过算法发现有价值信息的过程。它涉及到模式识别...
大数据导论学习记录笔记 大数据导论学习记录笔记中涵盖了大数据的基本概念、技术属性、云计算、物联网、人工智能等相关知识点。 大数据的基本概念 * 数据类型:文本、图片、音频、视频 * 数据结构化程度:结构化...
考生应仔细阅读并理解其中列出的知识点,例如数据预处理、数据挖掘、机器学习算法(如线性回归、决策树、支持向量机等)、大数据处理技术(如Hadoop和Spark)以及数据可视化工具(如Python的Matplotlib和Seaborn库)...
首先,让我们详细探讨一下“6数据挖掘导论(完整版).Introduction.To.Data.Min.pdf”。这本书很可能涵盖数据挖掘的基本概念、方法和技术。数据挖掘是通过应用算法和统计模型,从大量数据中提取有用信息和知识的过程。...
* Pang-Ning Tan著,范明等译,《数据挖掘导论》,人民邮电出版社,2006 * 王珊,《数据仓库技术与联机分析处理》,清华大学出版社,2002 * 安淑芝等,《数据仓库与数据挖掘》,清华大学出版社,2005
* 计算机科学技术的应用领域:人工智能、数据挖掘、网络安全 六、微机原理及接口技术 * 微处理器的结构和工作原理 * 微处理器的类型:8位、16位、32位、64位 * 微处理器的接口技术:总线、寄存器、I/O端口 七、...
《新编计算机导论》读书笔记模板.pptx ...《新编计算机导论》读书笔记模板.pptx是一本系统化的计算机导论教材,旨在为计算机专业学生提供全面的知识基础,帮助学生更好地学习和实践计算机学科的知识。
本笔记涵盖了人工智能导论的主要知识点,包括人工智能的定义、技术路线、研究领域、知识表示、推理、搜索、机器学习、自然语言理解、专家系统、学习算法、数据挖掘和智能主体等。 一、人工智能的定义和技术路线 * ...
通过本次实践任务(Assignment#2),学生将学习并应用C语言的基础知识来处理不同类型的数据结构。 #### 二、作业目标与要求 ##### 1. 虚拟机环境配置与软件安装 - **目标**: 学生需要登录到自己的虚拟机环境中,并...
《数据科学基础》是南京大学软件学院开设的一门重要课程,旨在为学生提供扎实的数据处理、分析和挖掘技能。这门课程的期末大作业通常会涵盖数据科学的主要领域,包括数据预处理、统计分析、机器学习和数据可视化等。...
- **课程名称**:数据挖掘导论(Introduction to Data Mining) - **讲师**:刘英教授,博士,毕业于美国西北大学计算机工程专业,研究方向包括数据挖掘、高性能计算等。 - **教学助理**:待定 - **联系方式**:...
- 数据挖掘:利用算法对大量数据进行分析,发现其中的模式和规律。 - 人工智能:通过机器学习算法训练模型,使计算机能够自动完成特定任务。 8. **算法优化技巧**: - 预处理:通过对输入数据进行预处理,减少...
在物联网中,智能决策不仅依赖于数据挖掘,还涉及到大数据处理、云计算、机器学习等技术。这些技术共同作用,帮助物联网系统实时分析来自各种传感器和其他设备的数据,作出快速而准确的决策。例如,智能交通系统可以...
4. **GitHub资源**:许多开发者分享他们的代码实现和学习笔记,是学习的好去处。 在大数据分析和数据挖掘中,数据结构和排序算法的选择至关重要。例如,哈希表用于快速查找,树结构用于高效检索,而排序算法则在...
理解并掌握这些线性时间排序算法,不仅能够提升编程能力,也能帮助解决实际问题,尤其是在数据分析、数据挖掘等领域。MIT算法导论公开课的这部分内容,深入浅出地讲解了这些概念,对于学习者来说是一份宝贵的资源。
4. Scikit-learn:这是Python中最流行的数据挖掘和机器学习库,提供了多种监督和无监督学习算法,如线性回归、逻辑回归、决策树、随机森林、支持向量机和聚类算法等。此外,它还包括模型选择和评估工具,便于我们在...
数据科学包含大量主题,例如数据挖掘,数据整理,数据可视化,模式识别或机器学习。 该研讨会的目的是介绍使用Python和PyData生态系统的其中一些主题。 这不是一门关于深度学习的课程。 注意:此仓库中的物料是在...
Apriori是一种常用的关联规则挖掘算法,广泛应用于数据挖掘、机器学习等领域。该算法的主要思想是通过找到频繁项集来挖掘关联规则。Apriori的优点是可以处理高维空间中的数据,且具有良好的泛化能力。 机器学习十大...
7. 机器学习与数据挖掘:在生物大数据中应用这些算法来发现新的生物规律和模式。 【压缩包子文件的文件名称列表】"纵向毕业季.bmp"可能是一个图片文件,可能与毕业设计或项目展示有关,而"Bio720-master"很可能是一...
这一部分可能涉及到数据存储、数据挖掘和数据分析的基础理论。 接着,"Linux 数据处理基础"深入讲解了在Linux环境下进行数据操作的技术和工具,如shell脚本、awk、sed等,以及如何通过Linux集群进行大规模数据处理...