- 浏览: 75526 次
文章列表
1
什么是
OPTICS
算法
在前面介绍的
DBSCAN
算法中,有两个初始参数
E
(邻域半径)和
minPts(E
邻域最小点数
)
需要用户手动设置输入,并且聚类的类簇结果对这两个参数的取值非常敏感,不同的取值将产生不同的聚类结果,其实这也是大多数其他需要初始化参数聚类算法的弊端。
为了克服
DBSCAN
算法这一缺点,提出了
OPTICS
算法(
Ordering Points
to identify the clustering structure
)。
OPTICS
并
不显示的产生结果类簇,而是为聚类分析生成一个增广的簇排 ...
数据分布倾斜性指的是数据分布过度集中于数据空间的某端,造成“头重脚轻”或者“比萨斜塔
”等不均匀的分布特点。
数据分布倾斜性将造成运算效率上的“瓶颈”和数据分析结果的“以偏概全”。
1
效率上的“瓶颈”
假如在大型商场中,共有
A,B1,B2…..B9
十家店铺,其中
A
店铺中有
99W
商品,
B1,B2….B9
这九家店铺分别有
1W
商品。我们要统计商场中商品总数,计算初,采用
HASHMAP
作为存储结构,其中
Key
:店铺
Value
:商品。我们的计算过程是先统计每个店铺的商品总数,最后 ...
一 什么是基于密度的聚类算法
由于层次聚类算法和划分式
聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类
簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。
二 DBSCAN
(
Density-based Spatial Clustering of Applications with
Noise
)
是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并 ...
层次聚类算法:
前面介绍的
K-means
算法和
K
中心点算法都属于划分式(
partitional
)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂 ...
K
中心点算法(
K-medoids
)
前面介绍了
k-means
算法,并列举了该算法的缺点。而
K
中心点算法(
K-medoids
)正好能解决
k-means
算法中的
“噪声”敏感这个问题。
如何解决的呢?
首先,我们得介绍下
k-means
算法为什么会对“噪声”敏感。还记得
K-means
寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维度。当聚类的样本点中有“噪声”(离群点)时,在计算类簇质点的过程中会受到噪声异常维度的干扰,造成所得质点和实际质点位置偏差过大,从而使类簇发生“畸变”。
...
K-means
算法
一般情况,聚类算法可以划分为以下几类:划分方法(partitioning method
)、层次方法(hierarchical
methods
)、基于密度的方法(density-based methods
)、基于网格的方法(grid-based methods
)、基于模型的方法(model-based methods
).k-means
算法属于划分方法中的一种。
K-means
算法的整个流程:首先从聚类对象中随机选出K
个对象作为类簇的质心(当然了,初始参数的K
代表聚类结果的类簇数),对剩余的每个对象,根据它们分别到这个 ...
将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合,在类簇中所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异。
聚类除了可以用于数据分割(data segmentation ...