`

数据挖掘之聚类分析学习笔记(1)

阅读更多

聚类分析

 

聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度是基于描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习。

 

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待

 

“聚类的典型应用是什么?”在商业上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。

 

聚类也能用于对Web 上的文档进行分类,以发现信息。作为一个数据挖掘的功能,聚类

分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇作进一步的分析。此外,聚类分析可以作为其他算法(如分类等)的预处理步骤,这些算法再在生成的簇上进行处理

 

作为统计学的一个分支,聚类分析已经被广泛地研究了许多年,主要集中在基于距离的聚类分析。基于k-means(k-平均值)k-medoids(k-中心)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,例如S-PlusSPSS,以及SAS

 

在机器学习领域,聚类是无指导学习(unsupervised learning)的一个例子。与分类不同,聚类和无指导学习不依赖预先定义的类和训练样本。由于这个原因,聚类是通过观察学习,而不是通过例子学习。

 

在概念聚类(conceptual clustering)中,一组对象只有当它们可以被一个概念描述时才形成一个簇。这不同于基于几何距离来度量相似度的传统聚类。概念聚类由两个部分组成:(1)发现合适的簇;(2)形成对每个簇的描述。在这里,追求较高类内相似度和较低类间相似度的指导原则仍然适用。

 

活跃的研究主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,

高维聚类分析技术,以及针对大的数据库中混合数值和分类数据的聚类方法。

 

数据挖掘对聚类的典型要求如下:

n 可伸缩性:许多聚类算法在小于200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有

偏的结果。我们需要具有高度可伸缩性的聚类算法。

处理不同类型属性的能力:许多算法被设计用来聚类数值类型的数据。但是,应用可能要

求聚类其他类型的数据,如二元类型(binary),分类/标称类型(categorical/nominal),序数

型(ordinal)数据,或者这些数据类型的混合。

n 发现任意形状的聚类:许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是,一个簇可能是任

意形状的。提出能发现任意形状簇的算法是很重要的。

n 用于决定输入参数的领域知识最小化:许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特

别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难

以控制。

n 处理“噪声”数据的能力:绝大多数现实中的数据库都包含了孤立点,缺失,或者错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。

n 对于输入记录的顺序不敏感:一些聚类算法对于输入数据的顺序是敏感的。例如,同一个数据集合,当以不同的顺序交给同一个算法时,可能生成差别很大的聚类结果。开发对数

据输入顺序不敏感的算法具有重要的意义。

n 高维度(high dimensionality):一个数据库或者数据仓库可能包含若干维或者属性。许多聚类算法擅长处理低维的数据,可能只涉及两到三维。人类的眼睛在最多三维的情况下能

够很好地判断聚类的质量。在高维空间中聚类数据对象是非常有挑战性的,特别是考虑到

这样的数据可能分布非常稀疏,而且高度偏斜。

n 基于约束的聚类:现实世界的应用可能需要在各种约束条件下进行聚类。假设你的工作是在一个城市中为给定数目的自动提款机选择安放位置,为了作出决定,你可以对住宅区进

行聚类,同时考虑如城市的河流和公路网,每个地区的客户要求等情况。要找到既满足特

定的约束,又具有良好聚类特性的数据分组是一项具有挑战性的任务。

n 可解释性和可用性:用户希望聚类结果是可解释的,可理解的,和可用的。也就是说,聚类可能需要和特定的语义解释和应用相联系。应用目标如何影响聚类方法的选择也是一个

重要的研究课题。

分享到:
评论

相关推荐

    聚类算法学习笔记 (4).docx

    【聚类算法学习笔记】 聚类算法是一种无监督学习方法,它的主要目标是根据数据对象的相似性将数据集划分为多个子集,即“簇”。每个簇内部的数据对象具有高度相似性,而不同簇之间的对象则差异较大。在聚类分析中,...

    聚类算法学习笔记.docx

    本篇学习笔记将深入探讨聚类算法的定义、基本要求以及常见的基于层次的聚类算法。 1. 聚类的定义: 聚类的目标是通过分析数据的内在结构,找出数据之间的相似性,从而将相似的数据对象分到同一类,而不同类之间的...

    sas各过程笔记 描述性统计 线性回归 logistic回归 生存分析 判别分析 聚类分析 主成分分析 因子分析 典型相关分析

    聚类分析是一种常用的数据挖掘方法,用于将相似的数据聚集在一起。SAS 中可以使用 proc cluster 过程来进行聚类分析。 主成分分析 主成分分析是一种常用的数据降维方法,用于将高维数据降低到低维空间。SAS 中可以...

    聚类算法学习笔记 (4).pdf

    【聚类算法学习笔记概述】 聚类是一种无监督学习方法,旨在将数据集分成多个子集,即“簇”,使得每个簇内的数据对象彼此相似,而不同簇之间的数据对象则尽可能不同。聚类分析的核心是根据数据对象的属性计算相似度...

    聚类算法学习笔记.pdf

    【聚类算法】是数据挖掘领域中的重要技术之一,主要用于无监督学习,即将未标记的数据集分成多个组或“簇”,使得同簇内的数据对象彼此相似,而不同簇之间的对象则差异较大。聚类分析的基本目标是最大化类内相似度,...

    《数据挖掘技术》课程学习笔记

    本篇学习笔记主要涵盖了数据挖掘的基础概念、常用算法以及实践应用。 首先,我们需要理解数据挖掘的定义:它是从大量数据中通过运用专门的算法和技术,提取出有用信息并进行模式识别的过程。数据挖掘的目标通常分为...

    基于数据挖掘的网络学习行为分析及其教学策略研究.pdf

    本研究聚焦于如何应用数据挖掘技术分析学生的网络学习行为,并在此基础上制定相应的教学策略,以提升网络教学的水平。研究详细探讨了网络学习行为的属性,以及如何利用数据挖掘技术从这些行为中提取有用信息,进而...

    《数据挖掘概念与技术》-思维导图学习笔记,第一章。

    1. 数据挖掘定义:数据挖掘是一种从大量数据中通过算法发现有价值信息的过程。它涉及到模式识别、统计分析和机器学习等多个领域,旨在将原始数据转化为可操作的知识。 2. 数据挖掘任务类型:主要分为五类:分类、...

    QT聚类(Quality Threshold Clustering)

    QT聚类,全称为Quality Threshold Clustering,是一种无监督学习的聚类算法,主要用于数据集的划分,将相似的数据点归为一类。该方法在处理高维数据或大规模数据集时,表现出一定的优势,因为它不需要预先设定聚类的...

    机器学习与数据挖掘学习笔记.zip

    《机器学习与数据挖掘学习笔记》是一份综合性的学习资料,涵盖了这两个领域的重要概念、算法和技术。这份笔记的目的是为了帮助读者深入理解机器学习和数据挖掘的基础知识,并提供实际操作的指导。 首先,我们来探讨...

    数据挖掘读书笔记.pdf

    数据挖掘读书笔记 数据挖掘是一种从大型数据库中提取有用信息的技术,通过对数据的分析和处理,挖掘出有价值的模式和关系。数据挖掘的应用非常广泛,包括商业、金融、医疗、科学研究等领域。 数据挖掘可以挖掘的...

    数据挖掘完整项目/课堂记录笔记/比赛代码

    本项目提供了从零基础到精通的数据挖掘全过程,旨在帮助学习者掌握实际操作技能,并通过课堂记录笔记和比赛代码来深化理解。 首先,我们关注的是"海量数据挖掘"。在当今大数据时代,数据量呈指数级增长,传统的数据...

    数据挖掘笔记11-121

    这篇笔记主要涵盖了数据挖掘中的聚类分析,这是数据挖掘中无监督学习的一种重要方法。 1. 聚类分析简介:聚类分析是将数据集中的对象按照它们的相似性或距离进行分组,使得同一组内的对象彼此相似,而不同组之间的...

    数据挖掘数据分析资料.zip

    这份名为“数据挖掘数据分析资料.zip”的压缩包文件,显然是一份为初学者和爱好者准备的学习资源,旨在帮助他们踏入数据分析的世界。 首先,让我们详细探讨一下“6数据挖掘导论(完整版).Introduction.To.Data.Min....

    北京大学北京大学软件与微电子学院莫同老师数据挖掘课程复习资料.doc

    数据挖掘与机器学习、统计、数据管理的区别与联系是,机器学习为数据挖掘提供理论方法,统计学要求有数据分布模型的先验假设,数据挖掘没有上述要求,数据库是演绎推理,数据挖掘是归纳推理。 数据属性的类别有标称...

    大数据学习笔记_学习《Python数据分析与挖掘实战》关键知识点和心得笔记

    本文将基于《Python数据分析与挖掘实战》这本书的学习笔记,深入探讨几个关键知识点:分类与预测、聚类分析、关联规则以及时序模式。 **一、分类与预测** 分类与预测是数据分析中的核心任务,它通过历史数据来预测...

    学习笔记5:数据预处理与数据挖掘十大经典算法.docx

    ### 数据预处理与数据挖掘十大经典算法 #### 一、数据预处理的重要性 ...同时,掌握这些经典算法不仅能帮助我们更好地理解数据挖掘的过程,还能指导我们在实际项目中选择合适的算法和技术,以达到最优的数据分析效果。

    斯坦福大学CS345A 数据挖掘 课程所有课件(pdf+ppt)

    此外,课程可能还会介绍深度学习在数据挖掘中的应用,特别是神经网络和卷积神经网络(CNN)在图像识别和文本分析中的作用,以及循环神经网络(RNN)在序列数据处理上的优势。 在实践中,数据挖掘不仅需要理论知识,...

    数据挖掘学习笔记(一)

    数据挖掘利用各种算法,如分类、聚类、关联规则学习、回归分析等,来发现知识和模式,这些知识可能对决策制定有着重大影响。在现代社会,数据源多样化且增长迅速,涵盖了商业、科学、社会和个人生活的各个层面。数据...

    海南大学数据挖掘入土笔记.pdf

    随着技术的发展,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多领域的理论和技术。它的应用范围十分广泛,如电子商务、金融市场分析...

Global site tag (gtag.js) - Google Analytics