`

Spark Kmeans算法

阅读更多


spark-submit --class   com.ones.soc.cf.KMeansClustering --master yarn --num-executors 3 --driver-memory 5g --executor-memory 4g /root/bigData.jar /ones/mldata/test1 /ones/mldata/test2 8 30 3 /ones/result/12345

##############################################

package com.ones.soc.cf

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{Path, FileSystem}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.Vectors

/**
  * Created by tom
  */
object KMeansClustering {

  def main(args: Array[String]) {
    if(args.length < 6){
      println("Usage:KMeansClustering trainingDataFilePath testDataFilePath numClusters numIterations runTimes outpath")
      sys.exit(1)
    }

    val confighdfs = new Configuration();
    val fs=FileSystem.get(confighdfs) ;
    if(args(5) != null && args(5).trim().length > 1){
      val output = new Path(args(5));
      if(fs.exists(output)){ //删除输出目录
        fs.delete(output, true);
      }
    }

    val conf = new SparkConf().setAppName("K-Means")
    val sc = new SparkContext(conf)
    val rawTrainingData = sc.textFile(args(0))
    val parsedTrainingData =
    rawTrainingData.filter(!isColumnNameLine(_)).map(line => {
      Vectors.dense(line.split("\t").map(_.trim).filter(!"".equals(_)).map(_.toDouble))
    }).cache()

    //Cluster the data into two classes using KMeans
    val numClusters = args(2).toInt
    val numIterations = args(3).toInt
    val runTimes = args(4).toInt
    var clusterIndex: Int = 0
    val clusters: KMeansModel = KMeans.train(parsedTrainingData, numClusters, numIterations, runTimes)

     println("Cluster Number:" + clusters.clusterCenters.length)
     println("Cluster Centers Information Overview:")
     clusters.clusterCenters.foreach(
      x => {
        println("Center Point of Cluster " + clusterIndex + ":")
        println(x)
        clusterIndex += 1
      })
    //begin to check which cluster each test data belongs to based on the clustering result
    val rawTestData = sc.textFile(args(1))
    val parsedTestData = rawTestData.map(line => {
    Vectors.dense(line.split("\t").map(_.trim).filter(!"".equals(_)).map(_.toDouble))
    })

    val sb=new StringBuilder()
    parsedTestData.collect().foreach(testDataLine => {
      val predictedClusterIndex:
      Int = clusters.predict(testDataLine)
      println("The data " + testDataLine.toString + " belongs to cluster " +predictedClusterIndex)
      sb.append(testDataLine.toString).append("\t").append("belongs to cluster ").append(predictedClusterIndex).append("\r\n")
    })

    outputHdfs(fs,sb.toString(),args(5))
    println("Spark MLlib K-means clustering test finished.")
  }

  private def isColumnNameLine(line: String): Boolean = {
    if (line != null &&
      line.contains("Channel")) true
    else false
  }

  def outputHdfs(fs:FileSystem,text:String,textdir:String):Unit={
    try{
      val fsDataOutputStream = fs.create(new Path(textdir+"/result.txt"), true);
      val s=text.getBytes("UTF-8")
      fsDataOutputStream.write(s,0,s.length)
      fsDataOutputStream.hflush();
    }catch{
      case e:Exception =>
    }
  }

}

分享到:
评论

相关推荐

    Spark中机器学期之KMeans算法实战讲解

    本篇文章将深入探讨Spark中的KMeans算法,这是一种无监督学习方法,常用于聚类分析,帮助我们发现数据集中的自然群体或类别。 KMeans算法的核心思想是通过迭代寻找数据点的最优分配,使得每个簇内的点尽可能接近,...

    毕业设计 基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料 高分项目.zip

    毕业设计 基于Spark的Kmeans聚类算法优化源码+详细文档+全部数据资料 高分项目.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足...

    hadoop并行化和非并行化的kmeans算法.zip

    包含两种平台上运行的kmeans算法:一种是在Hadoop系统上的并行化kmeans算法,支持读文件,执行聚类算法,输出质心文件,将每个数据的聚类信息输出到控制台上;另一种是串行的聚类算法,支持读文件数据,执行kmeans...

    改进的KMeans算法

    **改进的KMeans算法** KMeans算法是一种广泛应用的无监督学习方法,主要用于数据的聚类分析。它通过迭代过程将数据点分配到最近的簇中心,然后更新簇中心为该簇内所有点的均值,直到簇中心不再显著变化或达到预设的...

    毕业设计源码-基于Spark的Kmeans聚类算法优化.zip

    本项目的核心是SparkKmeans-master,这是一个基于Spark实现的KMeans优化版本。首先,源码展示了如何利用Spark的RDD API对大规模数据进行预处理,包括数据读取、转换和清洗,这是进行有效聚类的前提。其次,项目中...

    大数据聚类算法与kmeans 算法综述

    KMeans算法作为最经典且广泛使用的无监督学习方法之一,是大数据聚类的首选工具。本文将深入探讨大数据聚类的概念、重要性以及KMeans算法的工作原理和应用。 大数据聚类是对大量、高维度数据进行分类的一种方法,...

    并行与分布式技术 关于KMeans算法的并行和分布式代码

    KMeans算法是一种常用的无监督学习算法,用于将数据集分成K个簇或类别。并行和分布式的KMeans算法针对大规模数据集提供了高效的实现方式。并行化可以加速算法的计算过程,而分布式实现则可以处理更大规模的数据集。 ...

    毕业设计-基于Spark的Kmeans源码算法优化.zip

    毕业设计-基于Spark的Kmeans源码算法优化SparkKmeans毕业设计-基于Spark的Kmeans算法优化 时间2016-07-18 内容将内容上传到Github。源代码包含 (1)文件处理程序,将原始传感器数据文件规格化。 (2)ML 噪音程序...

    KMeans算法的并行化实验

    KMeans算法是聚类分析中常用的一种方法,用于将数据集中的对象自动分组成不同的类别。在大数据时代,处理大规模数据集时,传统的单线程KMeans算法可能会面临计算效率低下的问题。因此,对KMeans算法进行并行化改造变...

    毕业设计&课设--毕业设计源码-基于Spark的Kmeans聚类算法优化.zip

    在描述中,“毕业设计&课设--毕业设计源码-基于Spark的Kmeans聚类算法优化”重申了项目的核心内容,即利用Spark对KMeans算法进行了某种形式的优化。这可能涉及到提高算法的效率,比如减少迭代次数、提升并行计算性能...

    Spark下运行的KMean算法(scala语言)

    **Spark下的K-Means算法在Scala中的实现** K-Means是一种常见的无监督学习算法,用于聚类分析,它可以将数据集分为多个类别(或称为“簇”),使得每个簇内的数据点相互接近,而不同簇之间的数据点尽可能远离。在大...

    毕业设计: 基于Spark的Kmeans聚类算法优化

    `SparkKmeans-master`这个文件可能是项目源码,包括了Spark上的K-means实现和相关的优化策略。通过阅读源码,可以深入了解算法实现细节和优化技巧。 总之,基于Spark的K-means聚类算法优化是一项重要的研究,它不仅...

    kmeans聚类算法的java实现

    在Java中实现KMeans算法,我们可以利用编程语言的强大功能来处理大规模数据集,并将其应用于实际问题,如本例中的数据库字段分组。 1. **KMeans算法基本原理**: KMeans算法主要包含以下步骤: - 初始化:选择K个...

    spark平台scala语言自己实现的kmeans算法,相比于MLlib的Kmeans更简单,更容易看懂,代码量少注释多

    不到一百行的代码教你在spark平台中使用scala实现kmeans算法。简单易懂,大量注释。适合初学者参考理解。本程序在intelliJ IDEA2016.1.1 中编程,运行在spark1.6.1 scala2.10.4本地模式下运行成功。 数据集:(其实...

    SparkKmeans:毕业设计原始码-基于Spark的Kmeans聚类算法优化

    SparkKmeans 毕业设计源码-基于Spark的Kmeans聚类算法优化时间:2016-07-18内容: 发布内容到Github。 (2)ML聚类程序:利用Spark的机器学习库的聚类函数进行聚类测试。(3)MD聚类程序: (4)数据库操作程序:

    kmeans算法

    KMeans算法是机器学习领域中一种经典的无监督学习方法,主要用于数据聚类。它通过迭代寻找数据的最佳分组,使得同一组内的数据点彼此相似,而不同组间的数据点差异较大。KMeans算法的核心思想是将n个数据点分配到k个...

Global site tag (gtag.js) - Google Analytics