`

为什么聚类不成功

 
阅读更多

现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。

1.  没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。

我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。

2.  没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类

3.  没有考虑分词,去除stop word

      比如一个tag是 A touching movie,分词后就是 touching   movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把 A touching movie整体当作一个

4.  没有考虑词干提取

     单复数形式,同义词,进行时,过去时态等等

 

结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。

分享到:
评论

相关推荐

    层次聚类算法C++

    层次聚类算法是一种数据挖掘中的无监督学习方法,主要用于对数据进行分类或分组,而无需预先知道数据的...在VS2010中调试运行成功,意味着已经成功地将理论知识转化为实际的代码,为后续数据分析和挖掘提供了有力工具。

    MoHuJuLei_iris_模糊聚类_聚类数据集_

    在执行模糊聚类时,我们需要确定的参数包括聚类的数量(C值)和模糊因子(通常表示为m,影响隶属度函数的形状)。选择合适的C值和m值通常需要进行交叉验证或使用启发式方法,如肘部法则或轮廓系数。 一旦模型训练...

    聚类融合算法综述

    聚类融合算法是近年来在非监督学习领域兴起的一种研究方向,它借鉴了分类和回归模型中融合方法的成功经验,旨在提高聚类算法的鲁棒性和稳定性。由于聚类任务中缺乏标签数据,传统的融合方法并不能直接应用于聚类任务...

    C++实现密度聚类算法

    - **扩展**:对P的每个邻域点Q,如果Q未被访问过,就将其标记为当前聚类,并继续这个过程。如果Q已经是另一个聚类的成员,则跳过。 - **连接**:如果Q是一个边界点,那么将Q与其密度可达的点连接,形成一个新的...

    谱聚类入门文献 外文

    ### 谱聚类入门与图像分割应用 在近年来,谱聚类算法因其高效、简单且经常优于传统聚类算法(如k-means)而...对于那些寻求更深层次数据理解的研究者和工程师而言,掌握谱聚类的理论与实践无疑是通往成功的关键一步。

    基于核的K-均值聚类

    非线性映射的选择对于核K-均值聚类的成功至关重要。理想情况下,选择的映射应该能够有效地增加不同类别之间的特征差异,从而使它们在高维空间中更容易被识别和分离。映射的选择通常是通过核函数来实现的,核函数隐式...

    k均值聚类算法

    - **假设数据分布**:k均值假设数据呈凸形分布,对于非凸或者不规则形状的簇,聚类效果可能不佳。 - **处理异常值**:异常值可能会对质心位置产生较大影响,导致聚类质量下降。 - **计算复杂度**:k均值的时间复杂度...

    模式识别实验聚类分析报告.docx

    由于信息不全,这里无法提供具体结果,但可以理解为实验成功执行了K-均值算法,并对给定数据进行了有效的聚类。 五、实验总结 实验总结部分应当讨论实验过程中的挑战、学习到的关键点以及算法的优缺点。例如,可能...

    谱聚类算法对图像进行分割

    总的来说,谱聚类算法在图像分割中的应用是一项复杂但强大的技术,它结合了数学和计算机科学的多个领域,为理解和操作图像提供了有力工具。通过MATLAB这样的编程环境,我们可以更方便地实现和调整这种算法,以适应...

    模糊核聚类算法

    自己写的, 关于模糊核聚类算法的函数,我是用来作多模型控制里面建模用的,虽然建模没成功,但是这个聚类算法还是成功的

    聚类分析,模糊集,适用于多维数据聚类

    在研究生期间所做的成功,成功将三位数据实现聚类,并把它运用到交通分类当中。-Cluster analysis, fuzzy sets, is applicable to multi-dimensional data clustering.During the graduate student success, success...

    kohonen网络聚类算法的源程序_用于网络入侵聚类分析_matlab

    【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员

    有序聚类算法代码

    在数据分析领域,有序聚类算法作为一种统计方法,专注于处理有序数据。...通过最小化组内离差平方和并最大化组间离差,该算法成功地将有序数据集分割为不同的群组,有助于我们更深入地理解数据背后的规律和模式。

Global site tag (gtag.js) - Google Analytics