思想:DenStream可以说是针对Clustream的缺陷进行改进的,通过引入CMC(核心微簇),PMC(潜在核心微簇)以及OMC(离群微簇)以及时间衰减函数f(t)=2-λ来对不同时间的数据点的重要性进行加权。对微簇micro-cluster的定义也加入了时间权重。
方法:在线阶段,同时维护PMC和OMC两个队列,根据在两个队列的权重变化来对微簇的在潜在核心和离群两个角色进行调整变化。在线下阶段,通过改进的DBSCAN算法对 PMC进行聚类,最终获得聚类结果。
步骤:
on-line phase:
Merging (p)
1: Try to merge p into its nearest p-micro-cluster cp;
2: if rp (the new radius of cp) ≤εthen
3: Merge p into cp;
4: else
5: Try to merge p into its nearest o-micro-cluster co;
6: if ro (the new radius of co) ≤εthen
7: Merge p into co;
8: if w (the new weight of co) > βµ then
9: Remove co from outlier-buffer and create a
new p-micro-cluster by co;
10: end if
11: else
12: Create a new o-micro-cluster by p and insert it
into the outlier-buffer;
13: end if
14: end if
DenStream (DS,ε, β, µ, λ)
1: Tp = (1/λ)[㏒(βµ/βµ-1)];
2: Get the next point p at current time t from data
stream DS;
3: Merging(p);
4: if (t mod Tp)=0 then
5: for each p-micro-cluster cp do
6: if Wp(the weight of cp)< βµ then
7: Delete cp;
8: end if
9: end for
10: for each o-micro-cluster co do
11: ξ = (2−λ(t−to+Tp))/(2−λTp−1) ;
12: if wo(the weight of co)< ξ then
13: Delete co;
14: end if
15: end for
16: end if
off-line phase:
17: if a clustering request arrives then
18: Generating clusters;
19: end if
其中Tp是根据一个PMC或者OMC变成小于或者大于阈值βµ的最短时间间隔,ξ 是决定是否将不争气的OMC踢出OMC队列的阈值。
优点和不足:
对Clustream的缺陷进行了弥补,能够在线对outlier和real data进行区分,对进化的数据流的聚类结果有了很大的提升是现在主流的基于micro-cluster和密度的数据流聚类算法。
但是也有以下不足:
1.由于没有限制micro-cluster数量,同时也没有相应删除或者减少micro-cluster的方法,会导致大量的内存开 销。
2.同时在removing outlier阶段计算量相对比较大。
相关推荐
总结来说,Denstream算法是处理流数据聚类的有效工具,而“denstream-test-master”项目为开发者提供了一个直观的实现和学习平台。通过深入理解和实践这个项目,可以提升对流数据聚类的理解,为实际问题的解决提供...
DenStream算法是基于密度的流数据聚类方法,它的核心在于动态维护数据对象的密度,并通过滑动窗口来捕获数据流中的高密度区域。与经典的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法...
【标题】"denstream-master (2)_聚类_Denstream_" 涉及的是一个用于流数据聚类的Python实现,即Denstream算法。Denstream是数据挖掘领域中一种高效处理大规模流数据的聚类算法,它能适应数据流中的概念漂移,即数据...
本文将深入探讨Denstream算法的核心思想、实现原理以及其在实际应用中的价值。 一、Denstream算法概述 Denstream(Density-based Stream Clustering)是基于密度的流数据聚类算法,它继承了DBSCAN(Density-Based ...
**Clustream算法详解** Clustream算法是一种流式数据聚类算法,它主要用于处理大规模、高维度且不断流入的数据流。在大数据分析领域,这种算法具有重要的应用价值,因为它能够在数据流持续到来的情况下,实时地进行...
分布式数据流聚类方法的研究,不仅涉及到聚类算法本身的设计,还包括在线和离线组件的设计,以及如何高效地处理和融合多路数据流。此外,如何在保持数据处理效率的同时,减少通信开销,也是该领域研究的重要课题。...
DenStream算法是对动态进化数据流进行任意形状聚类的一种方法,相比CluStream算法有了很大的改进。它继承了基于密度的优点,能够支持对有噪声的动态进化数据流进行聚类,但同样存在对参数值非常敏感的问题。 为了...
近年来,学者们开始关注非线性流数据聚类,如DenStream、ACluStream和基于相对密度的模糊聚类算法,它们分别通过密度扩展、空间位置信息和相对密度结合模糊理论,改善了对非线性数据的聚类效果。然而,这些方法仍...
为了解决非线性可分流数据聚类,学者们提出了如DenStream、ACluStream和基于相对密度的模糊聚类算法等方法。这些算法通过改进密度聚类或引入新的编码方式,提高了对复杂数据分布的聚类能力。 本文所介绍的分阶段非...