`

数据挖掘导论学习笔记(2)----- 数据(3)

 
阅读更多

相似性和相异性的度量

      相似度:两个对象之间的相似度(similarity) 的非正式定义是这两个对象相似程度的数值度量。因而,两个对象越相似,它们的相似度越高。通常,相似度是非负的,并常常在0(不相似)和(完全相似)之间取值。

      相异度:两个对象之间的相异度是这两个对象差异程度的数值度量。对象越相似,它们的相异度就越低。通常,术语距离(distance)用作相异度的同义词。有时,在区间【0,1】中取值,但在0和∞之间取值也很常见

 

 

本节,我们介绍广泛用于计算数值属性刻画的对象的相异性的距离度量。这些度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。

在某些情况下,在计算距离之前数据应该规范化。这涉及变换数据,使之落入较小的公共值域,如[-1,1]或[0.0,1.0]。例如,考虑 height(高度)属性,它可能用米或英寸测量。一般而言,用较小的单位表示一个属性将导致该属性具有较大的值域,因而趋向于给这种属性更大的影响或 “权重”。规范化数据试图给所有属性相同的权重。在特定的应用中,这可能有用,也可能没用。数据规范化方法在第3章数据预处理中详细讨论。

最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:

另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下:

欧几里得距离和曼哈顿距离都满足如下数学性质:

非负性:d(i,j)≥0:距离是一个非负的数值。

同一性:d(i,i)=0:对象到自身的距离为0。

三角不等式:d(i,j)≤d(i,k)+d(k,j):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。

满足这些条件的测度称做度量(metric)1 。注意非负性被其他三个性质所蕴含。

例2.19 欧几里得距离和曼哈顿距离。令x1=(1,2)和x2=(3,5)表示如图2.23所示的两个对象。两点间的欧几里得距离是 。两者的曼哈顿距离是2+3=5。

闵可夫斯基距离(Minkowski distance)是欧几里得距离和曼哈顿距离的推广 ,定义如下:

其中,h是实数,h≥1。(在某些文献中,这种距离又称Lp范数(norm),其中p就是我们的h。我们保留p作为属性数,以便于本章的其余部分一致。)当p=1时,它表示曼哈顿距离(即,L1范数);当p=2表示欧几里得距离(即,L2范数)。

上确界距离(又称Lmax,L∞范数和切比雪夫(Chebyshev)距离)是h→∞时闵可夫斯基距离的推广 。为了计算它,我们找出属性f,它产生两个对象的最大值差。这个差是上确界距离,更形式化地定义为:

L∞范数又称一致范数(uniform norm)。

例2.20 上确界距离。让我们使用相同的数据对象x1=(1,2)和x2=(3,5),如图2.23所示。第二个属性给出这两个对象的最大值差为5-2=3。这是这两个对象间的上确界距离。

如果对每个变量根据其重要性赋予一个权重,则加权的欧几里得距离可以用下式计算:

加权也可以用于其他距离度量。
_________________________________________________________
1 在数学文献,特别是在测度论中,measure被译为“测度”,metric被译为“度量”。在计算机科学文献中,metric很少用,而 measure通常译为“度量”。仅当measure和metric同时出现时,我们才按照数学的习惯翻译,而在其他情况下,我们采用计算机科学的传统译 法。——译者注

 

 

 

 

 

二元数据的相似度

1.SMC(Simple Matching Coefficient 简单匹配系统树)

2.Jaccard系数(Jaccard Coefficient)

3.余弦相似度

4.广义Jaccard系数

5.皮尔森相关

6.Bregman三度

 

分享到:
评论

相关推荐

    《数据挖掘概念与技术》-思维导图学习笔记,第一章。

    在这里,我们重点关注第一章的学习笔记,即"第一章导论"。 在数据挖掘的导论部分,通常会涵盖以下几个关键知识点: 1. 数据挖掘定义:数据挖掘是一种从大量数据中通过算法发现有价值信息的过程。它涉及到模式识别...

    大数据导论学习记录笔记

    大数据导论学习记录笔记 大数据导论学习记录笔记中涵盖了大数据的基本概念、技术属性、云计算、物联网、人工智能等相关知识点。 大数据的基本概念 * 数据类型:文本、图片、音频、视频 * 数据结构化程度:结构化...

    山东大学数据科学导论复习资料以及历年期末近4年真题回忆版

    考生应仔细阅读并理解其中列出的知识点,例如数据预处理、数据挖掘、机器学习算法(如线性回归、决策树、支持向量机等)、大数据处理技术(如Hadoop和Spark)以及数据可视化工具(如Python的Matplotlib和Seaborn库)...

    数据挖掘数据分析资料.zip

    首先,让我们详细探讨一下“6数据挖掘导论(完整版).Introduction.To.Data.Min.pdf”。这本书很可能涵盖数据挖掘的基本概念、方法和技术。数据挖掘是通过应用算法和统计模型,从大量数据中提取有用信息和知识的过程。...

    数据挖掘教学大纲.docx

    * Pang-Ning Tan著,范明等译,《数据挖掘导论》,人民邮电出版社,2006 * 王珊,《数据仓库技术与联机分析处理》,清华大学出版社,2002 * 安淑芝等,《数据仓库与数据挖掘》,清华大学出版社,2005

    谭浩强C语言学习笔记

    * 计算机科学技术的应用领域:人工智能、数据挖掘、网络安全 六、微机原理及接口技术 * 微处理器的结构和工作原理 * 微处理器的类型:8位、16位、32位、64位 * 微处理器的接口技术:总线、寄存器、I/O端口 七、...

    《新编计算机导论》读书笔记模板.pptx

    《新编计算机导论》读书笔记模板.pptx ...《新编计算机导论》读书笔记模板.pptx是一本系统化的计算机导论教材,旨在为计算机专业学生提供全面的知识基础,帮助学生更好地学习和实践计算机学科的知识。

    人工智能导论复习.doc

    本笔记涵盖了人工智能导论的主要知识点,包括人工智能的定义、技术路线、研究领域、知识表示、推理、搜索、机器学习、自然语言理解、专家系统、学习算法、数据挖掘和智能主体等。 一、人工智能的定义和技术路线 * ...

    assignment2

    通过本次实践任务(Assignment#2),学生将学习并应用C语言的基础知识来处理不同类型的数据结构。 #### 二、作业目标与要求 ##### 1. 虚拟机环境配置与软件安装 - **目标**: 学生需要登录到自己的虚拟机环境中,并...

    MOOC南京大学软件学院《数据科学基础》课程期末大作业

    《数据科学基础》是南京大学软件学院开设的一门重要课程,旨在为学生提供扎实的数据处理、分析和挖掘技能。这门课程的期末大作业通常会涵盖数据科学的主要领域,包括数据预处理、统计分析、机器学习和数据可视化等。...

    Intro To Data Mining

    - **课程名称**:数据挖掘导论(Introduction to Data Mining) - **讲师**:刘英教授,博士,毕业于美国西北大学计算机工程专业,研究方向包括数据挖掘、高性能计算等。 - **教学助理**:待定 - **联系方式**:...

    算法笔记

    - 数据挖掘:利用算法对大量数据进行分析,发现其中的模式和规律。 - 人工智能:通过机器学习算法训练模型,使计算机能够自动完成特定任务。 8. **算法优化技巧**: - 预处理:通过对输入数据进行预处理,减少...

    物联网导论第13章_物联网中的智能决策v1135.pptx

    在物联网中,智能决策不仅依赖于数据挖掘,还涉及到大数据处理、云计算、机器学习等技术。这些技术共同作用,帮助物联网系统实时分析来自各种传感器和其他设备的数据,作出快速而准确的决策。例如,智能交通系统可以...

    基本数据结构,排序算法,算法学习工具

    4. **GitHub资源**:许多开发者分享他们的代码实现和学习笔记,是学习的好去处。 在大数据分析和数据挖掘中,数据结构和排序算法的选择至关重要。例如,哈希表用于快速查找,树结构用于高效检索,而排序算法则在...

    MIT算法导论公开课之课程笔记 5.线性时间排序.rar

    理解并掌握这些线性时间排序算法,不仅能够提升编程能力,也能帮助解决实际问题,尤其是在数据分析、数据挖掘等领域。MIT算法导论公开课的这部分内容,深入浅出地讲解了这些概念,对于学习者来说是一份宝贵的资源。

    Introduction-of-Data-Science:资料科学导论

    4. Scikit-learn:这是Python中最流行的数据挖掘和机器学习库,提供了多种监督和无监督学习算法,如线性回归、逻辑回归、决策树、随机森林、支持向量机和聚类算法等。此外,它还包括模型选择和评估工具,便于我们在...

    data-science-workshop-2019

    数据科学包含大量主题,例如数据挖掘,数据整理,数据可视化,模式识别或机器学习。 该研讨会的目的是介绍使用Python和PyData生态系统的其中一些主题。 这不是一门关于深度学习的课程。 注意:此仓库中的物料是在...

    csdn july《机器学习10大算法系列》21.8.6

    Apriori是一种常用的关联规则挖掘算法,广泛应用于数据挖掘、机器学习等领域。该算法的主要思想是通过找到频繁项集来挖掘关联规则。Apriori的优点是可以处理高维空间中的数据,且具有良好的泛化能力。 机器学习十大...

    研究生班知识库(生物信息学和基因组学实用导论).zip

    7. 机器学习与数据挖掘:在生物大数据中应用这些算法来发现新的生物规律和模式。 【压缩包子文件的文件名称列表】"纵向毕业季.bmp"可能是一个图片文件,可能与毕业设计或项目展示有关,而"Bio720-master"很可能是一...

    清华大学—学堂在线—高级大数据系统课件笔记.zip

    这一部分可能涉及到数据存储、数据挖掘和数据分析的基础理论。 接着,"Linux 数据处理基础"深入讲解了在Linux环境下进行数据操作的技术和工具,如shell脚本、awk、sed等,以及如何通过Linux集群进行大规模数据处理...

Global site tag (gtag.js) - Google Analytics