python sklearn-06：聚类-k-means

vinking934296

浏览: 107693 次
性别:
来自: 广州

最近访客更多访客>>

lxx249

cqmyg

ffup521

daizj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

python sklearn 聚类 k-means

聚类是用于找出不带标签数据的相似性的算法。

译文链接：https://muxuezi.github.io/posts/6-clustering-with-k-means.html

1.K-Means算法

由于具有出色的速度和良好的可扩展性，K-Means聚类算法算得上是最著名的聚类方法。K-Means算

法是一个重复移动类中心点的过程，把类的中心点，也称重心（centroids），移动到其包含成员的平

均位置，然后重新划分其内部成员。是算法计算出的超参数，表示类的数量；K-Means可以自动分

配样本到不同的类，但是不能决定究竟要分几个类。必须是一个比训练集样本数小的正整数。

有时，类的数量是由问题内容指定的。也有一些问题没有指定聚类的数量，最优的聚类

数量是不确定的。后面我们会介绍一种启发式方法来估计最优聚类数量，称为肘部法则（Elbow

Method）。

K-Means的参数是类的重心位置和其内部观测值的位置。与广义线性模型和决策树类似，K-Means参

数的最优解也是以成本函数最小化为目标。K-Means成本函数公式如下：

是第 uk个类的重心位置。成本函数是各个类畸变程度（distortions）之和。每个类的畸变程度等于

该类重心与其内部成员位置距离的平方和。若类内部的成员彼此间越紧凑则类的畸变程度越小，反

之，若类内部的成员彼此间越分散则类的畸变程度越大。求解成本函数最小化的参数就是一个重复配

置每个类包含的观测值，并不断移动类重心的过程。首先，类的重心是随机确定的位置。实际上，重

心位置等于随机选择的观测值的位置。每次迭代的时候，K-Means会把观测值分配到离它们最近的

类，然后把重心移动到该类全部成员位置的平均值那里。

应用例子：

import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics
plt.figure(figsize=(8, 10))
plt.subplot(3, 2, 1)
x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9])
x2 = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3])
X = np.array(list(zip(x1, x2))).reshape(len(x1), 2)
plt.xlim([0, 10])
plt.ylim([0, 10])
plt.title('样本',fontproperties=font)
plt.scatter(x1, x2)

#接上面
plt.scatter(x1, x2)
colors = ['b', 'g', 'r']
markers = ['o', 's', 'D']
t=3
kmeans_model = KMeans(n_clusters=3).fit(X)
for i, l in enumerate(kmeans_model.labels_):
    plt.plot(x1[i], x2[i], color=colors[l],marker=markers[l],ls='None')
    plt.xlim([0, 10])
    plt.ylim([0, 10])
    plt.title('K = %s' %(t),fontproperties=font)

局部最优解：

K-Means的初始重心位置是随机选择的。有时，如果运气不好，随机选择的重心会导致K-Means陷入局部最优解。这些类可能没有实际意义，为了避免局部最优解，K-Means通常初始时要重复运行十几次甚至上百次。每次重复时，它会随机的从不同的位置开始初始化。最后把最小的成本函数对应的重心位置作为初始位位置。

2.K值确定：

肘部法则：

如果问题中没有指定的值，可以通过肘部法则这一技术来估计聚类数量。肘部法则会把不同值的

成本函数值画出来。随着值的增大，平均畸变程度会减小；每个类包含的样本数会减少，于是样本

离其重心会更近。但是，随着值继续增大，平均畸变程度的改善效果会不断减低。值增大过程

中，畸变程度的改善效果下降幅度最大的位置对应的值就是肘部。

import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties

font = FontProperties(fname=r"C:\Windows\Fonts\msyh.ttc", size=10)

import numpy as np
cluster1 = np.random.uniform(0.5, 1.5, (2, 10))
cluster2 = np.random.uniform(3.5, 4.5, (2, 10))
X = np.hstack((cluster1, cluster2)).T
plt.figure()
plt.axis([0, 5, 0, 5])
plt.grid(True)
plt.plot(X[:,0],X[:,1],'k.');

计算 K值从1到10对应的平均畸变程度：

from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
K = range(1, 10)
meandistortions = []
for k in K:
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    meandistortions.append(sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1)) / X.shape[0])
plt.plot(K, meandistortions, 'bx-')
plt.xlabel('k')
plt.ylabel('平均畸变程度',fontproperties=font)
plt.title('用肘部法则来确定最佳的K值',fontproperties=font);

从图中可以看出K 值从1到2时，平均畸变程度变化最大。超过2以后，平均畸变程度变化显著降

低。因此肘部就是K=2 。

例子2：

import numpy as np
x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9])
x2 = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3])
X = np.array(list(zip(x1, x2))).reshape(len(x1), 2)
plt.figure()
plt.axis([0, 10, 0, 10])
plt.grid(True)
plt.plot(X[:,0],X[:,1],'k.');

from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
K = range(1, 10)
meandistortions = []
for k in K:
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    meandistortions.append(sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1)) / X.shape[0])
plt.plot(K, meandistortions, 'bx-')
plt.xlabel('k')
plt.ylabel('平均畸变程度',fontproperties=font)
plt.title('用肘部法则来确定最佳的K值',fontproperties=font);

从图中可以看出，K值从1到3时，平均畸变程度变化最大。超过3以后，平均畸变程度变化显著降

低。因此肘部就是K=3。

3.聚类效果评估

K-Means是一种非监督学习，没有标签和其他信息来比较聚类结果。但是，还是有

一些指标可以评估算法的性能。已经介绍过类的畸变程度的度量方法。下面将介绍另一种聚类

算法效果评估方法称为轮廓系数（Silhouette Coefficient）。轮廓系数是类的密集与分散程度的评价

指标。它会随着类的规模增大而增大。彼此相距很远，本身很密集的类，其轮廓系数较大，彼此集

中，本身很大的类，其轮廓系数较小。轮廓系数是通过所有样本计算出来的，计算每个样本分数的均

值，计算公式如下：

a是每一个类中样本彼此距离的均值， b是一个类中样本与其最近的那个类的所有样本的距离的均

值。下面的例子运行四次K-Means，从一个数据集中分别创建2，3，4，8个类，然后分别计算它们

的轮廓系数。

import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics
plt.figure(figsize=(8, 10))
plt.subplot(3, 2, 1)
x1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 9])
x2 = np.array([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3])
X = np.array(list(zip(x1, x2))).reshape(len(x1), 2)
plt.xlim([0, 10])
plt.ylim([0, 10])
plt.title('样本',fontproperties=font)
plt.scatter(x1, x2)
colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'b']
markers = ['o', 's', 'D', 'v', '^', 'p', '*', '+']
tests = [2, 3, 4, 5, 8]
subplot_counter = 1
for t in tests:
    subplot_counter += 1
    plt.subplot(3, 2, subplot_counter)
    kmeans_model = KMeans(n_clusters=t).fit(X)
    for i, l in enumerate(kmeans_model.labels_):
        plt.plot(x1[i], x2[i], color=colors[l],marker=markers[l],ls='None')
        plt.xlim([0, 10])
        plt.ylim([0, 10])
        plt.title('K = %s, 轮廓系数 = %.03f' % (t,metrics.silhouette_score(X,kmeans_model.labels_,metric='euclidean')),fontproperties=font)

很显然，这个数据集包括三个类。在K=3的时候轮廓系数是最大的。在K=8的时候，每个类的

样本不仅彼此很接近，而且与其他类的样本也非常接近，因此这时轮廓系数是最小的。

查看图片附件

分享到：

python基础学习：读取excel文件 | python基础学习：json模块

2017-02-13 16:17
浏览 10398
评论(1)
分类:编程语言
查看更多

1 楼 crabboy 2018-10-01

如果自变量多余2个呢？怎么画图？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

全球变风量（VAV）系统市场研究：年复合增长率（CAGR）为 5.8%: 在全球建筑行业不断追求节能与智能化发展的浪潮中，变风量（VAV）系统市场正展现出蓬勃的发展潜力。根据 QYResearch 报告出版商的深入调研统计，预计到 2031 年，全球变风量（VAV）系统市场销售额将飙升至 1241.3 亿元，在 2025 年至 2031 年期间，年复合增长率（CAGR）为 5.8%。这一令人瞩目的数据，不仅彰显了 VAV 系统在当今建筑领域的重要地位，更预示着其未来广阔的市场前景。变风量系统的起源可追溯到 20 世纪 60 年代的美国。它犹如建筑空调系统中的 “智能管家”，能够敏锐地感知室内负荷或室内所需参数的变化，通过维持恒定的送风温度，自动、精准地调节空调系统的送风量，从而确保室内各项参数始终满足空调系统的严格要求。从系统构成来看，变风量系统主要由四个基本部分协同运作。变风量末端设备，包括 VAV 箱和室温控制器，如同系统的 “神经末梢”，负责接收室内环境变化的信号并做出初步响应；空气处理及输送设备则承担着对空气进行净化、加热、冷却等处理以及高效输送的重任；风管系统，涵盖新风、排风、送风、回风等管道，构建起了空气流通的 “高速公路”；而自动控制系统宛

《基于YOLOv8的跆拳道训练系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

探究ChatGPT情感化交互对其用户情绪健康的多方法研究: 内容概要：本文探讨了ChatGPT这种高级语音模式的人工智能聊天机器人与用户的互动对其情绪健康的影响。研究采用了两种互补的方法：大规模平台数据分析和随机对照试验（RCT）。平台数据部分通过对超过400万次对话进行隐私保护的大规模自动化分析以及对4000多名用户的调查，揭示了高频率使用者表现出更多的情感依赖和较低的社会交往意愿。RCT部分则通过近1000名参与者为期28天的研究，发现语音模型相较于文本模型能带来更好的情绪健康效果，但长时间使用可能导致负面后果。此外，初始情绪状态较差的用户在使用更具吸引力的语音模型时，情绪有所改善。适合人群：对人机交互、情感计算和社会心理学感兴趣的科研人员和技术开发者。使用场景及目标：本研究旨在为AI聊天机器人的设计提供指导，确保它们不仅能满足任务需求，还能促进用户的心理健康。同时，也为政策制定者提供了关于AI伦理使用的思考。其他说明：研究强调了长期使用AI聊天机器人可能带来的复杂心理效应，特别是对于那些已经感到孤独或社交孤立的人来说，过度依赖可能会加剧这些问题。未来的研究应该更加关注这些极端情况下的用户体验。

Java反射性能优化：深入探讨setAccessible与MethodHandle的技术差异及应用场景: Java 反射（Reflection）是一种强大的机制，允许程序在运行时检查和操作类的成员变量和方法。然而，传统的 `setAccessible(true)` 方式虽然便捷，但存在安全性问题，并且性能相对较低。在 Java 7 引入 `MethodHandle` 后，我们可以通过 `MethodHandles.Lookup.findVirtual()` 提供更优雅、高效的方式来访问对象属性。本文将对比这两种反射方式，并分析它们的优缺点。

loongdomShop.tar.gz: loongdomShop.tar.gz

人工智能与人类行为对聊天机器人社会心理效应的纵向随机对照研究: 内容概要：本文探讨了不同交互模式（文本、中性语音、吸引人语音）和对话类型（开放式、非个人化、个人化）对聊天机器人使用者的心理社会效果（如孤独感、社交互动、情感依赖、不当使用）的影响。研究表明，在初期阶段，语音型聊天机器人比文本型更能缓解孤独感并减少情感依赖，但随着每日使用时间增加，这种优势逐渐消失，尤其是对于中性语音聊天机器人。此外，个人话题对话略微增加了孤独感，而非个人话题则导致更高的情感依赖。总体而言，高频率使用聊天机器人的用户表现出更多的孤独感、情感依赖和不当使用，同时减少了真实人际交往。研究还发现，某些个体特征（如依恋倾向、情绪回避）使用户更容易受到负面影响。适合人群：心理学家、社会学家、人工智能研究人员以及关注心理健康和人机交互的专业人士。使用场景及目标：①帮助理解不同类型聊天机器人对用户心理健康的潜在影响；②为设计更健康的人工智能系统提供指导；③制定政策和规范，确保聊天机器人的安全和有效使用。其他说明：研究强调了进一步探索聊天机器人管理情感内容而不引发依赖或替代人际关系的重要性，呼吁更多跨学科的研究来评估长期影响。

MP4575GF-Z 产品规格书: MP4575GF-Z MP4575 TSSOP-20 降压型可调DC-DC电源芯片

界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip: 界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip

免安装版的logic软件包支持波形实时查看内含驱动文件: 免安装版的logic软件包。支持波形实时查看。内含驱动文件。

基于Springboot+Mysql的学生毕业离校系统(含LW+PPT+源码+系统演示视频+安装说明).zip: 1. **系统名称**：学生毕业离校系统 2. **技术栈**：Java技术、MySQL数据库、Spring Boot框架、B/S架构、Tomcat服务器、Eclipse开发环境 3. **系统功能**： - **管理员功能**：首页、个人中心、学生管理、教师管理、离校信息管理、费用结算管理、论文审核管理、管理员管理、留言板管理、系统管理。 - **学生功能**：首页、个人中心、费用结算管理、论文审核管理、我的收藏管理。 - **教师功能**：首页、个人中心、学生管理、离校信息管理、费用结算管理、论文审核管理。

WebSocket测试Demo程序: 配套文章:https://blog.csdn.net/gust2013/article/details/139608432

蓝凌OA系统V15.0管理员手册: 蓝凌OA系统V15.0管理员手册

《基于YOLOv8的生物样本识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

mips-gcc520-glibc222编译工具链.zip: mips-gcc520-glibc222编译工具链.zip

社交网络_React_Native_开发教程_学习资源_1742847416.zip: app开发

Swift编程语言的基础特性与应用开发入门教程: 内容概要：本文档详细介绍了Swift编程语言的基础知识，涵盖语言特点、基础语法、集合类型、控制流、函数定义、面向对象编程、可选类型、错误处理、协议与扩展以及内存管理等方面的内容。此外还简要提及了Swift与UIKit/SwiftUI的关系，并提供了进一步学习的资源推荐。通过这份文档，读者可以全面了解Swift的基本概念及其在iOS/macOS/watchOS/tvOS平台的应用开发中的使用方法。适合人群：初学者或者希望从其他编程语言转向Swift的开发者。使用场景及目标：帮助读者快速上手Swift编程，掌握其基本语法和特性，能够独立完成简单的程序编写任务，为进一步学习高级主题如并发编程、图形界面设计打下坚实的基础。阅读建议：由于Swift是一门现代化的语言，拥有许多独特的特性和最佳实践方式，在学习过程中应当多加练习并尝试理解背后的原理。同时利用提供的官方文档和其他辅助材料加深印象。

《基于YOLOv8的泰拳训练辅助系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的室内装修质量检测系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的雕塑识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

微服务_图书阅读_APP_实践项目_1742847756.zip: app开发

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论