`
linest
  • 浏览: 155562 次
  • 性别: Icon_minigender_1
  • 来自: 内蒙古
社区版块
存档分类
最新评论

读代码-KMeansDriver

 
阅读更多
package org.apache.mahout.clustering.kmeans;
public class KMeansDriver extends AbstractJob
kmeans的入口KMeansDriver类


run函数中buildClusters,clusterData
    Path clustersOut = buildClusters(conf, input, clustersIn, output, measure, maxIterations, delta, runSequential);
    if (runClustering) {
      log.info("Clustering data");
      clusterData(conf,
          input,
          clustersOut,
          new Path(output, AbstractCluster.CLUSTERED_POINTS_DIR),
          measure,
          delta,
          runSequential);
    }


buildClusters函数中提供两种实现
    if (runSequential) {
      return buildClustersSeq(conf, input, clustersIn, output, measure, maxIterations, delta);
    } else {
      return buildClustersMR(conf, input, clustersIn, output, measure, maxIterations, delta);
    }


buildClustersMR实现了迭代更新中心点的过程
    boolean converged = false;
    int iteration = 1;
    while (!converged && iteration <= maxIterations) {
      log.info("K-Means Iteration {}", iteration);
      // point the output to a new directory per iteration
      Path clustersOut = new Path(output, AbstractCluster.CLUSTERS_DIR + iteration);
      converged = runIteration(conf, input, clustersIn, clustersOut, measure.getClass().getName(), delta);
      // now point the input to the old output directory
      clustersIn = clustersOut;
      iteration++;
    }


runIteration函数进入了mapred的核心部分
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(ClusterObservations.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Cluster.class);


输入输出都是sequence file
    job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setMapperClass(KMeansMapper.class);
    job.setCombinerClass(KMeansCombiner.class);
    job.setReducerClass(KMeansReducer.class);



package org.apache.mahout.clustering.kmeans;
KMeansMapper类
public class KMeansMapper extends Mapper<WritableComparable<?>, VectorWritable, Text, ClusterObservations>
//启动类
private KMeansClusterer clusterer;
//用于保存聚类中心
private final Collection<Cluster> clusters = new ArrayList<Cluster>();

setup函数加载了距离度量类,初始化KMeansClusterer,载入聚类中心
      ClassLoader ccl = Thread.currentThread().getContextClassLoader();
      DistanceMeasure measure = ccl.loadClass(conf.get(KMeansConfigKeys.DISTANCE_MEASURE_KEY))
          .asSubclass(DistanceMeasure.class).newInstance();
      measure.configure(conf);

      this.clusterer = new KMeansClusterer(measure);

      String clusterPath = conf.get(KMeansConfigKeys.CLUSTER_PATH_KEY);
      if (clusterPath != null && clusterPath.length() > 0) {
        KMeansUtil.configureWithClusterInfo(conf, new Path(clusterPath), clusters);
        if (clusters.isEmpty()) {
          throw new IllegalStateException("No clusters found. Check your -c path.");
        }
      }


map函数中启动
this.clusterer.emitPointToNearestCluster(point.get(), this.clusters, context);


KMeansClusterer类,实现算法的核心类
emitPointToNearestCluster函数中
遍历聚类中心,根据距离找到最近点的聚类中心
输出key:最近聚类中心的标识,value:ClusterObservations对点的封装
ClusterObservations中含有s0:向量计数 s1:向量的累和 s2:向量平方的累和
便于后续计算
    Cluster nearestCluster = null;
    double nearestDistance = Double.MAX_VALUE;
    for (Cluster cluster : clusters) {
      Vector clusterCenter = cluster.getCenter();
      double distance = this.measure.distance(clusterCenter.getLengthSquared(), clusterCenter, point);
      if (distance < nearestDistance || nearestCluster == null) {
        nearestCluster = cluster;
        nearestDistance = distance;
      }
    }
    context.write(new Text(nearestCluster.getIdentifier()), new ClusterObservations(1, point, point.times(point)));



KMeansCombiner类,对map结果进行汇总
public class KMeansCombiner extends Reducer<Text, ClusterObservations, Text, ClusterObservations>
将同一聚类中心下的向量计数,累和
  @Override
  protected void reduce(Text key, Iterable<ClusterObservations> values, Context context)
    throws IOException, InterruptedException {
    Cluster cluster = new Cluster();
    for (ClusterObservations value : values) {
      cluster.observe(value);
    }
    context.write(key, cluster.getObservations());
  }


KMeansReducer类,
public class KMeansReducer extends Reducer<Text, ClusterObservations, Text, Cluster>
将同一聚类中心下汇总,计算收敛性,重新计算聚类中心
方法是向量平均值,即所有向量累和除以个数。
输出key:聚类中心标识,value:新聚类中心
  @Override
  protected void reduce(Text key, Iterable<ClusterObservations> values, Context context)
    throws IOException, InterruptedException {
    Cluster cluster = clusterMap.get(key.toString());
    for (ClusterObservations delta : values) {
      cluster.observe(delta);
    }
    // force convergence calculation
    boolean converged = clusterer.computeConvergence(cluster, convergenceDelta);
    if (converged) {
      context.getCounter("Clustering", "Converged Clusters").increment(1);
    }
    cluster.computeParameters();
    context.write(new Text(cluster.getIdentifier()), cluster);
  }



clusterData函数中可选择两种实现,单机实现和分布式mapred实现
    if (runSequential) {
      clusterDataSeq(conf, input, clustersIn, output, measure);
    } else {
      clusterDataMR(conf, input, clustersIn, output, measure, convergenceDelta);
    }



clusterDataMR中定义输入输出格式都是sequencefile,输出key为int型,value为vector型
    job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setOutputKeyClass(IntWritable.class);
    job.setOutputValueClass(WeightedVectorWritable.class);


只有map作业没有reduce
    job.setMapperClass(KMeansClusterMapper.class);
    job.setNumReduceTasks(0);



KMeansClusterMapper类
public class KMeansClusterMapper extends Mapper<WritableComparable<?>,VectorWritable,IntWritable,WeightedVectorWritable>
  private final Collection<Cluster> clusters = new ArrayList<Cluster>();
  private KMeansClusterer clusterer;
根据最终聚类标签,将点加上聚类输出
  @Override
  protected void map(WritableComparable<?> key, VectorWritable point, Context context)
    throws IOException, InterruptedException {
    clusterer.outputPointWithClusterInfo(point.get(), clusters, context);
  }


outputPointWithClusterInfo函数
遍历所有中心,找到最近的,输出
key:聚类id value:WeightedVectorWritable向量

    AbstractCluster nearestCluster = null;
    double nearestDistance = Double.MAX_VALUE;
    for (AbstractCluster cluster : clusters) {
      Vector clusterCenter = cluster.getCenter();
      double distance = measure.distance(clusterCenter.getLengthSquared(), clusterCenter, vector);
      if (distance < nearestDistance || nearestCluster == null) {
        nearestCluster = cluster;
        nearestDistance = distance;
      }
    }
    context.write(new IntWritable(nearestCluster.getId()), new WeightedVectorWritable(1, vector));
分享到:
评论

相关推荐

    matlab聚类kmeans代码-hadoop-hw7:hadoop-hw7

    matlab聚类kmeans代码 作业7 要求 在MapReduce上实现K-Means算法并在小数据集上测试。可以使用附件的数据集,也可以随机生成若干散点的二维数据(x, y)。设置不同的K值和迭代次数,可视化聚类结果。 提交要求同作业5...

    mahout KMeansDriver测试相关jar包

    mahout KMeansDriver测试相关jar包,有需要的同学可以下载来试试。把这个包放入hadoop/lib下面然后就可以在eclipse里面运行调试了。

    javamap源码-K-Mean-Clustering-Java-Source-code:使用Eclipse的MapReduce中的K均值聚类

    - 源代码可能包含以下部分:KMeansMapper类实现映射逻辑,KMeansReducer类实现化简逻辑,以及可能的主类(如KMeansDriver)用于驱动整个MapReduce流程。 - 另外,还可能有数据预处理类,用于读取和处理原始数据,...

    基于MapReduce的K-Means并行算法设计.doc

    如Instance表示数据点,Cluster表示聚类,EuclideanDistance计算欧氏距离,RandomClusterGenerator生成随机初始聚类中心,KMeans是K-Means算法的核心类,KMeansCluster和KMeansDriver分别辅助算法的执行和驱动整体...

    白色宽屏风格的芭蕾舞蹈表演企业网站模板.rar

    白色宽屏风格的芭蕾舞蹈表演企业网站模板.rar

    5个小游戏源代码和图片、音频等资源

    由一个精美的UI集成界面和5个小游戏组成(球球大作战,坦克大战,飞机大战,球球消消乐,贪吃蛇)

    基于Python和OpenCV的电梯开关门视频门位置识别技术实现

    内容概要:本文介绍了如何使用Python和OpenCV库识别电梯开关门视频中的门位置。具体步骤包括将视频帧转换为灰度图像、应用高斯模糊减少噪声、使用Canny边缘检测算法检测图像边缘、查找和筛选轮廓、确定门的位置并在视频中绘制边界框。该方法适用于门的颜色或纹理与周围环境有明显区别的场景。 适合人群:计算机视觉领域的开发者和研究人员,尤其是对图像处理感兴趣的读者。 使用场景及目标:主要用于监控和安全系统中,对电梯开关门进行自动化检测,确保安全运行。 阅读建议:在理解和实践过程中,建议读者熟悉Python和OpenCV的基本操作,并尝试调整参数以适应不同的视频环境。

    48页-智慧工地可视化解决方案.pdf

    智慧工地,作为现代建筑施工管理的创新模式,以“智慧工地云平台”为核心,整合施工现场的“人机料法环”关键要素,实现了业务系统的协同共享,为施工企业提供了标准化、精益化的工程管理方案,同时也为政府监管提供了数据分析及决策支持。这一解决方案依托云网一体化产品及物联网资源,通过集成公司业务优势,面向政府监管部门和建筑施工企业,自主研发并整合加载了多种工地行业应用。这些应用不仅全面连接了施工现场的人员、机械、车辆和物料,实现了数据的智能采集、定位、监测、控制、分析及管理,还打造了物联网终端、网络层、平台层、应用层等全方位的安全能力,确保了整个系统的可靠、可用、可控和保密。 在整体解决方案中,智慧工地提供了政府监管级、建筑企业级和施工现场级三类解决方案。政府监管级解决方案以一体化监管平台为核心,通过GIS地图展示辖区内工程项目、人员、设备信息,实现了施工现场安全状况和参建各方行为的实时监控和事前预防。建筑企业级解决方案则通过综合管理平台,提供项目管理、进度管控、劳务实名制等一站式服务,帮助企业实现工程管理的标准化和精益化。施工现场级解决方案则以可视化平台为基础,集成多个业务应用子系统,借助物联网应用终端,实现了施工信息化、管理智能化、监测自动化和决策可视化。这些解决方案的应用,不仅提高了施工效率和工程质量,还降低了安全风险,为建筑行业的可持续发展提供了有力支持。 值得一提的是,智慧工地的应用系统还围绕着工地“人、机、材、环”四个重要因素,提供了各类信息化应用系统。这些系统通过配置同步用户的组织结构、智能权限,结合各类子系统应用,实现了信息的有效触达、问题的及时跟进和工地的有序管理。此外,智慧工地还结合了虚拟现实(VR)和建筑信息模型(BIM)等先进技术,为施工人员提供了更为直观、生动的培训和管理工具。这些创新技术的应用,不仅提升了施工人员的技能水平和安全意识,还为建筑行业的数字化转型和智能化升级注入了新的活力。总的来说,智慧工地解决方案以其创新性、实用性和高效性,正在逐步改变建筑施工行业的传统管理模式,引领着建筑行业向更加智能化、高效化和可持续化的方向发展。

    基于stm32人体健康监测系统,包含pcb (心率,血氧,体温,语音播报,报警) 本设计采用STM32F103C8T6作为主控 使用MAX30102采集心率和血氧值 使用MLX90614测量体温 OL

    基于stm32人体健康监测系统,包含pcb (心率,血氧,体温,语音播报,报警) 本设计采用STM32F103C8T6作为主控 使用MAX30102采集心率和血氧值 使用MLX90614测量体温 OLED显示当前信息 语音播报使用SYN6658芯片,外围自己搭建,播放当前温度、心率、血氧 两个按键一个蜂鸣器警报,当体温、心率、血氧异常发出警报 资料包括源码,原理图,pcb,bom清单,都是原始文件

    白色简洁风格的流行音乐演奏整站网站源码下载.zip

    白色简洁风格的流行音乐演奏整站网站源码下载.zip

    白色简洁风格的透明登录界面整站网站源码下载.zip

    白色简洁风格的透明登录界面整站网站源码下载.zip

    在线教育平台:课程管理与学习分析

    随着学业负担的日益加重,越来越多的学生选择通过家教、自学或参加补习班来加强课外学习。然而,家教费用高昂,自学效率低下且难以及时解决疑难问题,而补习班则受限于时间和地点,灵活性不足。此外,国家政策也不鼓励校外补习。鉴于网络技术的成熟和各类在线平台的兴起,开发一个专业的在线辅助学习网站对于辅助学生的课外学习显得尤为重要。 本在线教育系统基于Vue.js构建,采用B/S架构设计,后端语言为Java,数据库使用MySQL。通过整合Vue.js技术,系统界面更加丰富和友好。系统主要面向课程购买用户,涉及的角色包括管理员、学生和教师。学生可以注册登录后浏览课程视频、收藏课程、留言并购买课程,同时实现订单管理。管理员负责管理学生信息、课程信息、发布班级和管理章节等。教师则可以管理课程订单、课程内容和章节。该系统允许学生利用碎片时间自主学习,具有很高的灵活性,对于难以理解的课程可以反复学习并在线提问,极大地促进了学生的学习。

    GaAs限幅器芯片:LCLM0002P1,工作频段DC-3Ghz

    GaAs限幅器芯片:LCLM0002P1,工作频段DC-3Ghz

    基于simulink的12 8开关磁阻电机电流斩波、角度位置调速控制、模型预测电流、转矩控制仿真程序

    基于simulink的12 8开关磁阻电机电流斩波、角度位置调速控制、模型预测电流、转矩控制仿真程序

    白色简洁风格的时尚室内设计整站网站源码下载.zip

    白色简洁风格的时尚室内设计整站网站源码下载.zip

    HTTP请求流程深入解析与性能优化技术指南

    内容概要:本文详细解析了HTTP请求的整个流程,包括用户请求发起、请求报文构建、服务器处理请求、响应报文生成、网络传输响应和浏览器接收响应六个阶段。每个阶段的内容均涵盖了关键步骤和技术细节,如DNS解析、TCP连接、缓存策略、HTTP/2性能提升、HTTPS加密等。通过这些内容,读者可以全面理解HTTP请求的完整流程。 适合人群:具备一定网络基础知识的前端、后端开发人员及IT运维人员。 使用场景及目标:适用于希望深入了解HTTP协议及其优化技术的技术人员,有助于提升系统的性能和安全性,优化用户体验。 阅读建议:本文内容详尽且涉及多个关键技术点,建议读者结合实际案例进行学习,逐步理解和掌握各个阶段的技术细节和优化方法。

    2023-04-06-项目笔记 - 第三百五十九阶段 - 4.4.2.357全局变量的作用域-357 -2025.12.26

    2023-04-06-项目笔记-第三百五十九阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码 小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.357局变量的作用域_357- 2024-12-26

    白色简洁风格的互联网推广企业网站源码下载.zip

    白色简洁风格的互联网推广企业网站源码下载.zip

    HTTP协议基础概念解析及其演进过程

    内容概要:本文详细解析了HTTP协议的发展历程,从HTTP/1.0到HTTP/3.0的各个版本演进特点,以及HTTP请求与响应的基本概念。此外,还分析了HTTP报文的结构,包括请求报文和响应报文的具体组成部分,并介绍了HTTPS协议的安全机制。 适合人群:网络开发人员、Web开发者以及对HTTP协议有深入了解需求的技术人员。 使用场景及目标:①理解和掌握HTTP协议的基本概念和工作原理;②了解HTTP协议各版本的改进及应用场景;③学习HTTPS协议的加密机制及其重要性。 阅读建议:本文详细解析了HTTP协议的基础概念和各个版本的演进过程,适合希望深入理解HTTP协议的技术人员阅读。可以结合实际项目中遇到的问题来加深对协议的理解。

    (7483032)OA办公系统源码

    OA办公系统源码是开发企业级管理软件的重要组成部分,它基于C#编程语言,利用ASP.NET框架,并结合SQL数据库技术,为企业的日常运营提供高效、便捷的自动化办公环境。源码是开发者的心血结晶,包含了从需求分析到设计、编码、测试的全过程,体现了软件工程的实践与理论知识。下面我们将深入探讨这些关键知识点。 C#是微软公司推出的一种面向对象的编程语言,广泛应用于Windows平台的开发。在OA办公系统中,C#提供了丰富的类库和工具,支持事件驱动编程,使得代码更简洁,可读性更强。C#支持泛型、自动垃圾回收、异常处理等特性,提高了程序的稳定性和安全性。 ASP.NET是微软构建Web应用程序的开发框架,它基于.NET Framework,提供了丰富的控件和模板,简化了网页开发。在OA办公系统源码中,ASP.NET负责处理HTTP请求,呈现动态内容,实现用户交互。MVC(Model-View-Controller)模式是ASP.NET常用的开发模式,它将业务逻辑、数据模型和用户界面分离,便于维护和扩展。 SQL(Structured Query Language)是用于管理和处理关系数据库的标准语

Global site tag (gtag.js) - Google Analytics