思想:clustream算法的核心思想就是金字塔时间快照,以及分为on-line操作的micro-cluster和off-line操作的macro-cluster两个阶段,同时属于landmark window(界标窗口)的处理模式。
方法:其中micro-cluster是用来存储数据点的特征向量组的,用于存储线上分析时候整个数据流的静态统计信息,并根据金字塔时间在选定的时间来存储整个micro-cluster的snapshot。在需要进行聚类的时候,根据用户给的时间窗口参数在金字塔时间表中的快照中选取最接近的snapshot下的micro-cluster,根据这些micro-cluster使用改动的k-means方法对其进行聚类,最后,得到相应的聚类结果。
步骤:
on-line phase:
1.利用k-means算法预先建立q个 micro-cluster.
2.当新的数据点X到了,根据X到各个micro-cluster中心的距离是否大于微簇的RMS deviation(均方根误差),大于则为q点新建立一个独立id的micro-cluster,否则 加入到距离最近的现有micro-cluster(利用特征向量组的可加性质)。
3.一旦有新micro-cluster建立,则需要删除一个原来的micro-cluster,理论上通常根据最近到达各个微簇的m个点所形成recent time stamp来确定删除那个微簇,在实际应用中根据微簇中的时间统计信息可以得到各个数据点到达时间的均值和标准差,由于默认微簇满足正态分布,所以提取m/(2*n)的时间信息relevance time和预设的阈值δ进行比较,如果最小的relevance time小于δ,则可以删除对应的micro-cluster。
4.如果所有的relevance time的值都比δ大,则需要合并两个距离最近的micro-cluser,同时将对应id形成一个idlist。
off-line phase:
1.将各个online阶段形成micro-cluster和用户输入的真实聚类个数,以及时间窗口信息。来进行线下的聚类。
2.将各个micro-cluster当做虚拟的点,位置根据其中心来设置,使用k-means算法来计算。
优点和不足:
Clustream算法使用了标志性的线上和线下的模式来对数据流进行聚类,包含了数据流进化的思想,可对用户指定的各种窗口来进行聚类,同时使用了micro-cluster微簇的思想,可以很好的统计和保存数据流的统计信息。
但是也有以下不足:
1.由于使用了界标窗口,所以如果使用滑动窗口模式,则需要大量snapshot存储的开销和交大的处理代价;
2.预先设定micro-cluster个数是比较危险的,可能为outlier创建micro-cluster,同时删除正常的微簇;
3.过期数据点的影响在在线聚类过程中无法被及时消除,大大降低了算法的聚类效果;
4.由于采用距离作为各个数据点相似度的标准,通常仅能产生球形的簇。
相关推荐
**Clustream算法详解** Clustream算法是一种流式数据聚类算法,它主要用于处理大规模、高维度且不断流入的数据流。在大数据分析领域,这种算法具有重要的应用价值,因为它能够在数据流持续到来的情况下,实时地进行...
`CluStream`算法是一种用于实时流数据聚类的高效算法,它由Ding et al.在2003年提出。这个算法针对的是大数据流中的频繁模式发现,尤其是在数据持续涌入且无法完全存储的情况下。在IT行业中,随着物联网、传感器网络...
Clustream算法是一种实时流数据聚类方法,主要应用于大数据分析和处理领域,尤其是在处理连续不断的数据流时,能够有效地发现其中的模式和结构。本资源包含Clustream算法的源代码,这对于理解和实现该算法具有极高的...
该算法具有良好的可行性和有效性,且在大规模数据处理的情况下,效率远高于Clustream算法。 Hash函数抽样是该算法的核心思想,其主要作用是对大规模数据进行抽样,并将抽样后的数据转化为静态数据,减少数据处理量...
数据流聚类算法CluStream介绍 数据流聚类算法CluStream是基于数据流的聚类算法,旨在处理高维度、高速率的数据流。该算法由C. C. Aggarwal等人在2003年提出,引入了簇和时间帧结构两个主要的概念,将数据流聚类过程...
基于数据流管理系统Esper,利用时间窗口和自定义函数,采用Esper处理语言改写Clustream算法,在Esper系统中实现聚类算法。实验结果表明,该方法可以Esper具有对数据流进行聚类分析的能力;与用Java实现数据流聚类...
Clustream算法就是为了解决这个问题而提出的,它允许在有限的内存和计算资源下高效地处理大量、高速流动的数据。 K-means是经典的基于中心的聚类算法,其主要步骤包括初始化质心、分配数据点到最近的质心、更新质心...
在实际应用中,CluStream算法适用于各种数据流场景,例如监控网络流量、分析用户行为、预测市场趋势等。通过对数据流的实时分析,可以及时发现潜在的模式和异常情况,为企业决策提供支持。 “流数据的聚类分类算法...
Java代码提供了CluStream算法的详细实现,包括核心的数据结构、聚类算法以及窗口管理等模块,使得开发者可以深入理解算法原理并根据实际需求进行定制。 **4. Jar包:** 提供的CluStream jar包是编译好的可执行文件...
CluStream算法是Aggarwal在2003年提出的一种数据流聚类框架,它采用在线的micro-cluster过程和离线的macro-cluster过程。micro-cluster用于初步聚类,将数据流分割成小簇,然后存储在金字塔时间框架中。macro-...
实验结果表明,该算法在聚类质量和通信代价方面均优于传统的CluStream算法。 DBS-Stream算法的主要优势在于其能解决任意型聚类问题,并且能够快速更新局部节点的数据。此外,DBS-Stream算法在实现分布式计算时,...
DLCStream算法对比传统的数据流聚类框架CluStream算法,在高效并行处理、可扩展性和聚类结果质量方面均有所提升。CluStream算法主要用于流数据聚类,但其在实际应用中面临着效率和扩展性的挑战。DLCStream算法通过...
Clustream算法由Aggarwal等人提出,主要特点是将聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分处理新到达的数据,并存储统计结果;离线部分则利用这些统计结果和用户输入来更新聚类结果。Clustream...
本文提到的CluStream算法是一种流行的数据流聚类框架,它引入了滑动窗口机制来适应数据流的变化,但对非球形聚类的处理效果并不理想。 为改善这个问题,作者提出了分布式密度和中心点数据流聚类算法(DDCS-...
数据流聚类相关知识以及Stream、CluStream、Birch算法的讲解
CluStream-GT 是一个基于 CluStream 的流数据聚类算法的改进版本。在大数据时代,实时处理和分析不断涌入的数据流变得至关重要。传统的离线聚类算法往往无法应对这种高速、连续的数据流,因此流数据聚类算法如 ...
数据流聚类算法clustream C. C. Aggarwal等人在2003年提出了该著名的经典数据流聚类框架。它引入了簇和时间帧结构两个主要的概念,将数据流聚类过程分为在线部分(微聚类)和离线部分(宏聚类)。在线部分实时处理新...
例如,CluStream算法虽能处理流数据,但仅适用于线性可分情况;HPStream虽针对高维数据进行了改进,但依然不适用于非线性数据。其他如DUCStream和StrAP等方法虽然在某些方面有所进步,如自适应类变化,但非线性处理...