聚类评价指标 - 半睡半醒半浮生 - ITeye博客

`

Genie13

浏览: 196678 次

最近访客更多访客>>

elashu

canofy

longzhiwuing

mmhotsky

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

聚类评价指标

博客分类：

数据挖掘

阅读更多

完美的聚类显然是应该把各种不同的图形放入一类，事实上很难找到完美的聚类方法，各种方法在实际中难免有偏差，所以我们才需要对聚类算法进行评价看聚类效果如何。

法一：purity

purity方法是极为简单的一种聚类评价方法，只需计算正确聚类的文档数占总文档数的比例：

其中Ω = {ω1,ω2, . . . ,ωK}是聚类的集合ωK表示第k个聚类的集合。C = {c1, c2, . . . , cJ}是文档集合，cJ表示第J个文档，N表示文档总数。

优点是方便计算，值在0～1之间，完全错误的聚类方法值为0，完全正确的方法值为1。同时，purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价，设想如果聚类算法把每篇文档单独聚成一类，那么算法认为所有文档都被正确分类，那么purity值为1！而这显然不是想要的结果。

法二：RI

实际上这是一种用排列组合原理来对聚类进行评价的手段，公式如下：

其中TP是指被聚在一类的两个文档被正确分类了，TN是只不应该被聚在一类的两个文档被正确分开了，FP只不应该放在一类的文档被错误的放在了一类，FN只不应该分开的文档被错误的分开了。注意和分类的区别，这里是成对的概念。

法三：F值

这是基于上述RI方法衍生出的一个方法，

RI方法有个特点就是把准确率和召回率看得同等重要，事实上有时候我们可能需要某一特性更多一点，这时候就适合F值方法。

分享到：

防止过拟合以及解决过拟合 | 全组合

2012-08-28 23:39
浏览 2484
评论(0)
分类:研发管理
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

聚类评价指标 MATLAB 实现: 包含外部有效性指标和内部有效性指标，Rand index、 Adjusted Rand index、 Mirkin index、Hubert indexSilhouette、 Davies-Bouldin、Calinski-Harabasz、Krzanowski-Lai、Hartigan、weighted inter- to intra-...

6种聚类评价指标ppt+代码.zip_6种聚类评价指标_聚类_聚类ppt_聚类评价_聚类评价指标: 聚类评价指标是衡量聚类结果质量的关键工具，它们可以帮助我们评估不同聚类算法的效果，选择最佳的模型。本资料包包含了关于六种聚类评价指标的PPT介绍以及对应的Python代码实例，下面我们将详细探讨这些指标。一...

聚类有效性评价指标(4个内部4个外部): 总结，聚类评价指标对于理解和改善聚类模型的性能至关重要。内部指标关注聚类本身的结构，而外部指标则利用预先存在的分类信息进行评估。在机器学习项目中，结合使用这些指标可以帮助我们选择最佳的聚类算法和参数...

聚类指标小结.rar_指标评价_聚类_聚类评价_聚类评价指标_聚类评分指标: 聚类评价指标的各种说明，非常详细，请仔细阅读。

cPP_cluster_evalue.zip_CH 聚类_CH指标聚类_聚类评价指标: 在这个压缩包文件"**cPP_cluster_evalue.zip_CH 聚类_CH指标聚类_聚类评价指标**"中，包含的是C++实现的几种聚类评价指标，这些指标对于评估聚类结果的质量至关重要。 1. **Davies-Bouldin (DB) 指标**： DB指数是...

nmi.zip_NMI在哪个包里_聚类指标_聚类结果评价_聚类评价指标_评价: 为了评估聚类算法的效果，我们需要使用各种聚类评价指标，其中Non-Mutual Information（NMI）是一个常用且重要的指标。NMI能够衡量两个分类或聚类结果之间的相互信息，从而帮助我们理解它们之间的独立性。标题中的...

大数据-算法-方差优化初始聚类中心的Kmed省略ids算法及外部聚类评价指标研究.pdf: 大数据-算法-方差优化初始聚类中心的Kmed省略ids算法及外部聚类评价指标研究大数据时代，聚类算法的重要性日益突出，聚类算法是数据挖掘技术中的一种重要方法。其中，基于分区的聚类算法是最常用的聚类算法之一，...

juleipingjia.rar_内部评价指标_聚类内部指标_聚类方法评价_聚类评价指标_聚类质量: 为判断聚类结果质量的好坏，需要一个客观的评价指标来评价聚类结果的合理性。聚类性能评价方法通常分为三种：外部评价法，内部评价法，相对评价法。外部评价法将聚类结果得到类标签和已知类标签进行比较，此评价法的...

Cluster聚类评价指标之CH指数-方差比C++源码附详细注释: 总结来说，"Cluster聚类评价指标之CH指数-方差比C++源码附详细注释"是一个针对机器学习，特别是聚类算法的实用资源。它提供了C++实现CH指数的代码，有助于研究人员和开发者深入理解聚类评价机制，并进行算法的开发和...

kmeans_Kmeans_K._聚类评价指标_聚类评价_K均值聚类算法_: K-means聚类算法也称k均值聚类算法，是集简单和经典...它采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

Cluster聚类评价指标之轮廓系数C++源码附详细注释: 在机器学习领域，聚类是一种无监督学习方法，用于将数据集中的...通过理解和掌握这段C++源码，机器学习算法研发人员能够更好地掌握聚类评价指标，尤其是轮廓系数的计算过程，从而优化自己的聚类算法，提升模型性能。

层次聚类的评价: 关于层次聚类的评价指标

聚类算法评价指标Precision，F-meare，F1，ACC: 聚类算法评价指标

聚类外部评价指标（NMI, AC, ARI）: 代码包含三个聚类分析常用的外部评价指标：调整兰德指数（ARI），标准化互信息（NMI），准确度（AC）。

聚类数指标matlab工具箱: 为验证在聚类分析的聚类结果,重要的是要使用一些客观评价聚类质量的指标。本matlab工具箱提供4个外部效度指标和8个内部效度指标: Rand index, Adjusted Rand index, Silhouette, Calinski-Harabasz, Davies-Bouldin,...

6个常用的聚类评价指标.zip: Python使用技巧，机器学习基本原理分享，源码参考。 Python使用技巧，机器学习基本原理分享，源码参考。Python使用技巧，机器学习基本原理分享，源码参考。Python使用技巧，机器学习基本原理分享，源码参考。...

基于占空比的聚类算法评价指标研究.pdf: 为了解决这一问题，学者们一直在探索如何改进聚类评价指标，以优化DBSCAN算法的参数选择。在这样的研究背景下，《基于占空比的聚类算法评价指标研究》这篇论文提出了创新性的聚类评价指标——基于内外占空比的指标...

聚类算法及评价可视化工具箱: 包括聚类算法Kmeans Kmedoids FCM GK GG，聚类评价方法，聚类降维可视化方法。其中，说明文档我做了书签，便于大家阅读。 PS：本来没打算索要资源分，因为是人家开源发布的东西。但是，上传资源的时候点选了资源分...

Global site tag (gtag.js) - Google Analytics