1. Problem Definition of Clustering:
Informal goal: Given n "points" [Web pages, images, genome fragments, etc.] classify into "coherent groups" -- cluster
Assumptions:
(1) As input, given a (dis)similarity measure -- a distance d(p , q) between each point pair.
(2) Symmetric [i.e., d(p , q) = d(q , p)] (Examples: Euclidean distance, genome similarity, etc)
Same cluster ==> "nearby"
2. Max-Spacing k-Clusterings
k-clustering : the # of desired clusters is k
separated pair : Call points p & q separated if they're assigned to dierent clusters.
Spacing : The spacing of a k-clustering is min (separated p,q){ d(p , q) }. (The bigger the better)
Max-Spacing k-Clusterings problem : Given a distance measure d and k, compute the k-clustering with maximum spacing.
3. A Greedy Algorithm
-- Initially, each point in a separate cluster
-- Repeat until only k clusters:
-- Let p , q = closest pair of separated points (determines the current spacing)
-- Merge the clusters containing p & q into a single cluster.
Note: Just like Kruskal's MST algorithm, but stopped early.
4. Correctness of Greedy Clustering
-- Let C1, ... , Ck = greedy clustering with spacing S. Let C1', ... , Ck' = arbitrary other clustering.
Need to show : spacing of C1', ... , Ck' <= S
-- Case 1: Ci' are the same as the Ci (maybe after renaming) ==> has the same spacing S.
-- Case 2: Otherwise, can find a point pair p , q such that:
(A) p , q in the same greedy cluster Ci
(B) p , q in different clusters Ci'
-- Easy case: If p , q directly merged at some point in Ci, then S >= d(p , q) (Distance between merged point pairs only goes up) == > S >= spacing of C1', ... , Ck' ( since p, q are separated )
-- Tricky case: p , q "indirectly merged" through multiple direct merges. Let p, a1, ... al, q be the path of direct greedy merges connecting p & q. Since p in Ci' and q not in Ci' ==> exists consecutive pair aj , aj+1 with aj in Ci' and aj+1 not in Ci' ==> S >= d(aj , aj+1) >= Spacing of C1', ... , Ck'
相关推荐
使用两种最小生成树的方法进行聚类,并对效果进行比较,处理了8种典型二维图像和压缩后的三维图像
### 基于MST-单连接聚类算法C++实现 #### 概述 本文将详细介绍一个在数据挖掘领域中应用广泛的聚类算法——基于最小生成树(Minimum Spanning Tree, MST)的单连接聚类算法,并通过C++语言进行实现。该算法主要应用...
《MST706处理器:小型LCD电视的中枢大脑》 在现代电子设备中,处理器是心脏般的存在,驱动着各种复杂功能的运行。对于小型LCD电视而言,MST706处理器是一款至关重要的组件,它以其高效能、低功耗和小巧的尺寸,为...
该算法通过MST维护空间数据的基本空间结构特征,通过打断MST中最不一致的边形成MST聚类,不仅具有密度的聚类方法能够聚集非球状簇和分布不均的数据集的特点,而且聚类结果不依赖于用户参数的选择,因此,离群挖掘结果更...
标题"MST705 MST703晨星驱动芯片Keil完整工程"指的是一个基于Keil集成开发环境的工程项目,该工程是针对MST705和MST703这两款晨星(Morning Star)品牌的驱动芯片设计的。晨星半导体是一家专注于LCD驱动芯片的公司,...
基于密度的最小生成树聚类算法,将最小生成树...因此,本文在基于密度的MST聚类的基础上,通过减少数据集扫描次数以提高离群检测的效率。理论分析表明,检测算法可以有效地处理分布不均的数据集,适用于大规模数据集的挖掘。
《MST706原理图解析:倒车影像系统核心技术揭秘》 在现代汽车电子技术中,倒车影像系统已经成为安全驾驶的重要辅助工具,而MST706作为一款广泛应用的倒车影像处理芯片,其内部原理图对于理解和设计此类系统至关重要...
-schematics_MST702Sschematic_mst702_" 提供的信息表明,这是一个关于MST702S设备的电路原理图文档,其中“schematics”一词是电路图或原理图的英文表示,通常在电子工程领域用于描述设备或系统的电气连接和功能。...
标题"MST703 MST705 驱动七寸液晶 VGA--TTL"以及描述中的内容都指向了一个特定的电子技术应用,涉及到液晶显示(LCD)技术和接口通信协议。这里主要涉及到的知识点包括: 1. **MST703/MST705驱动芯片**:MST703和...
### MST705应用指南详解 #### 一、视频信号输入低通滤波 MST705/MST703/MST702系列芯片的应用指南中特别强调了视频信号输入部分的设计要点,这对于确保良好的图像质量和系统稳定性至关重要。 **一阶RC LPF电路:*...
标题中的“MST升级工具驱动”指的是Microsoft Service Toolkit (MST) 的驱动程序部分,它是一个专门用于系统部署和更新的工具集。MST工具驱动主要用于帮助管理员在Windows环境中进行系统升级、配置和修复任务,尤其...
### MST79xxxD GPIO应用说明 #### 一、引言 MST79xxxD系列微控制器(包括MST703与MST705等型号)提供了丰富的GPIO(General Purpose Input/Output,通用输入输出)接口,用于实现灵活多样的外设功能。本文档旨在...
《MST703中文资料深度解析》 MST703是晨星半导体(Mstar)推出的一款高效能视频解码器与TFT液晶屏驱动芯片,它以其卓越的性价比和简洁的外围电路设计在业界赢得了广泛的认可。本文将深入探讨这款芯片的关键特性和...
最小生成树(Minimum Spanning Tree, MST)是一种在图论中的经典算法,常用于网络连接、数据聚类等场景。在聚类分析中,MST能够帮助我们找到数据点之间的最优连接,形成一个低权值的树状结构,从而实现数据的分类。...
### MST786 数据手册关键知识点 #### 一、概述 MST786是一款高度集成的汽车应用处理器,由MStar Semiconductor, Inc.开发。该数据手册版本为0.1,发布日期为2012年9月5日。根据技术许可协议,MStar在未获得相应许可...
《MST6M系列原理图与开发源代码详解》 MST6M系列微控制器是MSTAR公司推出的一款高性能、低功耗的嵌入式处理器,广泛应用于消费类电子、工业控制以及智能家居等领域。该系列主要包括MST6M182和MST6M181两个型号,...
《MST720A-MStar_MST720_mstar_:MST720芯片的电路原理图解析》 MST720A-MStar是MStar半导体公司推出的一款集成电路,主要用于数字电视和多媒体处理领域。MST720芯片集成了高性能的处理器、视频解码器和音频处理器...