现在终于知道以前的tag 聚类为什么不成功。具体是要对利用用户标注的tag对电影进行聚类。
1. 没有考虑没中算法的适用范围,当时就抱着那个能出结果就用哪个,就过聚类的结果极不平衡。
我们首先要把item表示成tag上的一个向量分布,有就为1没有则为0,布尔性数据。直接采用K-means,错误的选择,K-means极不适合非数值型属性。
2. 没有考虑数据量大小,之知道数据很大,像DBSCAN比较适合处理大一些的数据聚类
3. 没有考虑分词,去除stop word
比如一个tag是 A
touching
movie,分词后就是
A
touching
movie ,那么a会被当作stop word给删除掉,把 touching movie当作两个特征,而是把
A
touching
movie整体当作一个
4. 没有考虑词干提取
单复数形式,同义词,进行时,过去时态等等
结论:基本的理论知识还是需要,如果当时知道这些概念,结果可能会好一些。
分享到:
相关推荐
层次聚类算法是一种数据挖掘中的无监督学习方法,主要用于对数据进行分类或分组,而无需预先知道数据的...在VS2010中调试运行成功,意味着已经成功地将理论知识转化为实际的代码,为后续数据分析和挖掘提供了有力工具。
在执行模糊聚类时,我们需要确定的参数包括聚类的数量(C值)和模糊因子(通常表示为m,影响隶属度函数的形状)。选择合适的C值和m值通常需要进行交叉验证或使用启发式方法,如肘部法则或轮廓系数。 一旦模型训练...
聚类融合算法是近年来在非监督学习领域兴起的一种研究方向,它借鉴了分类和回归模型中融合方法的成功经验,旨在提高聚类算法的鲁棒性和稳定性。由于聚类任务中缺乏标签数据,传统的融合方法并不能直接应用于聚类任务...
- **扩展**:对P的每个邻域点Q,如果Q未被访问过,就将其标记为当前聚类,并继续这个过程。如果Q已经是另一个聚类的成员,则跳过。 - **连接**:如果Q是一个边界点,那么将Q与其密度可达的点连接,形成一个新的...
### 谱聚类入门与图像分割应用 在近年来,谱聚类算法因其高效、简单且经常优于传统聚类算法(如k-means)而...对于那些寻求更深层次数据理解的研究者和工程师而言,掌握谱聚类的理论与实践无疑是通往成功的关键一步。
非线性映射的选择对于核K-均值聚类的成功至关重要。理想情况下,选择的映射应该能够有效地增加不同类别之间的特征差异,从而使它们在高维空间中更容易被识别和分离。映射的选择通常是通过核函数来实现的,核函数隐式...
- **假设数据分布**:k均值假设数据呈凸形分布,对于非凸或者不规则形状的簇,聚类效果可能不佳。 - **处理异常值**:异常值可能会对质心位置产生较大影响,导致聚类质量下降。 - **计算复杂度**:k均值的时间复杂度...
由于信息不全,这里无法提供具体结果,但可以理解为实验成功执行了K-均值算法,并对给定数据进行了有效的聚类。 五、实验总结 实验总结部分应当讨论实验过程中的挑战、学习到的关键点以及算法的优缺点。例如,可能...
总的来说,谱聚类算法在图像分割中的应用是一项复杂但强大的技术,它结合了数学和计算机科学的多个领域,为理解和操作图像提供了有力工具。通过MATLAB这样的编程环境,我们可以更方便地实现和调整这种算法,以适应...
自己写的, 关于模糊核聚类算法的函数,我是用来作多模型控制里面建模用的,虽然建模没成功,但是这个聚类算法还是成功的
在研究生期间所做的成功,成功将三位数据实现聚类,并把它运用到交通分类当中。-Cluster analysis, fuzzy sets, is applicable to multi-dimensional data clustering.During the graduate student success, success...
【达摩老生出品,必属精品,亲测校正,质量保证】 ...源码说明: 全部项目源码都是经过测试校正后百分百成功运行的,如果您下载后不能运行可联系我进行指导或者更换。 适合人群:新手及有一定经验的开发人员
在数据分析领域,有序聚类算法作为一种统计方法,专注于处理有序数据。...通过最小化组内离差平方和并最大化组间离差,该算法成功地将有序数据集分割为不同的群组,有助于我们更深入地理解数据背后的规律和模式。