K-均值聚类（k-means）算法

sunbin

浏览: 354529 次
性别:
来自: 深圳

最近访客更多访客>>

xiaomabobo

lch1985110

ganxiwen

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习算法

1、准备数据

0.0 0.0 0.0
0.1 0.1 0.1
0.2 0.2 0.2
9.0 9.0 9.0
9.1 9.1 9.1
9.2 9.2 9.2

2、python算法

import numpy as np    
import matplotlib.pyplot as plt  
from sklearn.cluster import KMeans
from sklearn import metrics  #导入sklearn效果评估模块

raw_data=np.loadtxt("../../data.txt")

X_test=raw_data[5:6,:]
X=raw_data[:,:] 

#训练聚类模型
n_clusters=2  #设置聚类数量
model_kmeans=KMeans(n_clusters=n_clusters,random_state=0)  #建立聚类模型对象
model_kmeans.fit(X)            #训练聚类模型
y_pre=model_kmeans.predict(X_test)  #预测聚类模型
y_true=y_pre #此处应给出真实值，因为数据样本未提供，先给出预测值为真实值

#模型效果评估
n_samples,n_features=X.shape     #总样本量，总特征数
inertias=model_kmeans.inertia_   #样本距离最近的聚类中心的总和
adjusted_rand_s=metrics.adjusted_rand_score(y_true, y_pre)     #调整后的兰德指数、此处第一个值应为
homogeneity_s=metrics.homogeneity_score(y_true,y_pre)               #同质化得分



#模型效果可视化
centers=model_kmeans.cluster_centers_  #各类别中心
colors=['#4EACC5','#FF9C34','#4E9A06']   #设置不同类别的颜色
plt.figure()    #建立画布
for i in range(n_clusters):    #循环读取类别
    index_sets=np.where(y_pre==i)  #找到相同类的索引集合、
    cluster=X[index_sets]   #将相同类的数据划分为一个聚类子集
    plt.scatter(cluster[:,0],cluster[:,1],c=colors[i],marker='.')   #展示聚类子集内的样本点
    plt.plot(centers[i][0],centers[i][1],'o',markerfacecolor=colors[i],markeredgecolor='k',markersize=4) #展示各聚类子集的中心
plt.show()

3、spark算法

package com.sunbin


import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.log4j.{ Level, Logger }


/**
  * 聚合算法kmeans
  *
  */
object KMeansdemo {

  def main(args: Array[String]): Unit = {
  Logger.getRootLogger.setLevel(Level.WARN)

    //创建SparkContext
    val conf = new SparkConf().setMaster("local[4]").setAppName("KMeans")
    val sc = new SparkContext(conf)

    //加载数据
    val path = "data.txt"
    val data = sc.textFile(path)
    val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache()

    //通过KMeans将数据分成两个阵营
    val numClusters = 2
    val numIterations = 20
    val clusters = KMeans.train(parsedData, numClusters, numIterations)

    //输出当前的聚类中心
    clusters.clusterCenters.foreach(println _)

    val index = clusters.predict(Vectors.dense(Array(8.9,7.2,9.0)))
    println(s"Vector[8.9, 7.2, 9.0] 属于聚类索引为：${index} 中心坐标为：${clusters.clusterCenters(index)} 的簇")

    //计算误差平方和
    val WSSSE = clusters.computeCost(parsedData)
    println("误差平方和 = " + WSSSE)

    
    // 保存模型
//    clusters.save(sc, "target/KMeansModel")
//    val sameModel = KMeansModel.load(sc, "target/KMeansModel")

    sc.stop()

  }
}

分享到：

python 实现摄像头人脸识别 | 逻辑回归算法

2020-04-13 17:59
浏览 345
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

K-均值聚类（k-means）算法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

K-均值聚类（k-means）算法

评论

发表评论

相关推荐

opencv读取rtsp图像处理后推流rtmp

python opencv实现视频UDP传输

python 实现摄像头人脸识别

逻辑回归算法

KNN最邻近分类算法

贝叶斯分类算法

线性回归算法

最近访客更多访客>>