读代码-KMeansDriver

linest

浏览: 157128 次
性别:
来自: 内蒙古

最近访客更多访客>>

cnspary

给我用用

和平共处

l00o00l

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mahout

package org.apache.mahout.clustering.kmeans;
public class KMeansDriver extends AbstractJob
kmeans的入口KMeansDriver类

run函数中buildClusters,clusterData

    Path clustersOut = buildClusters(conf, input, clustersIn, output, measure, maxIterations, delta, runSequential);
    if (runClustering) {
      log.info("Clustering data");
      clusterData(conf,
          input,
          clustersOut,
          new Path(output, AbstractCluster.CLUSTERED_POINTS_DIR),
          measure,
          delta,
          runSequential);
    }

buildClusters函数中提供两种实现

    if (runSequential) {
      return buildClustersSeq(conf, input, clustersIn, output, measure, maxIterations, delta);
    } else {
      return buildClustersMR(conf, input, clustersIn, output, measure, maxIterations, delta);
    }

buildClustersMR实现了迭代更新中心点的过程

    boolean converged = false;
    int iteration = 1;
    while (!converged && iteration <= maxIterations) {
      log.info("K-Means Iteration {}", iteration);
      // point the output to a new directory per iteration
      Path clustersOut = new Path(output, AbstractCluster.CLUSTERS_DIR + iteration);
      converged = runIteration(conf, input, clustersIn, clustersOut, measure.getClass().getName(), delta);
      // now point the input to the old output directory
      clustersIn = clustersOut;
      iteration++;
    }

runIteration函数进入了mapred的核心部分

    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(ClusterObservations.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Cluster.class);

输入输出都是sequence file

    job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setMapperClass(KMeansMapper.class);
    job.setCombinerClass(KMeansCombiner.class);
    job.setReducerClass(KMeansReducer.class);

package org.apache.mahout.clustering.kmeans;
KMeansMapper类
public class KMeansMapper extends Mapper<WritableComparable<?>, VectorWritable, Text, ClusterObservations>
//启动类
private KMeansClusterer clusterer;
//用于保存聚类中心
private final Collection<Cluster> clusters = new ArrayList<Cluster>();

setup函数加载了距离度量类,初始化KMeansClusterer,载入聚类中心

      ClassLoader ccl = Thread.currentThread().getContextClassLoader();
      DistanceMeasure measure = ccl.loadClass(conf.get(KMeansConfigKeys.DISTANCE_MEASURE_KEY))
          .asSubclass(DistanceMeasure.class).newInstance();
      measure.configure(conf);

      this.clusterer = new KMeansClusterer(measure);

      String clusterPath = conf.get(KMeansConfigKeys.CLUSTER_PATH_KEY);
      if (clusterPath != null && clusterPath.length() > 0) {
        KMeansUtil.configureWithClusterInfo(conf, new Path(clusterPath), clusters);
        if (clusters.isEmpty()) {
          throw new IllegalStateException("No clusters found. Check your -c path.");
        }
      }

map函数中启动

this.clusterer.emitPointToNearestCluster(point.get(), this.clusters, context);

KMeansClusterer类，实现算法的核心类
emitPointToNearestCluster函数中
遍历聚类中心,根据距离找到最近点的聚类中心
输出key:最近聚类中心的标识,value:ClusterObservations对点的封装
ClusterObservations中含有s0:向量计数 s1:向量的累和 s2:向量平方的累和
便于后续计算

    Cluster nearestCluster = null;
    double nearestDistance = Double.MAX_VALUE;
    for (Cluster cluster : clusters) {
      Vector clusterCenter = cluster.getCenter();
      double distance = this.measure.distance(clusterCenter.getLengthSquared(), clusterCenter, point);
      if (distance < nearestDistance || nearestCluster == null) {
        nearestCluster = cluster;
        nearestDistance = distance;
      }
    }
    context.write(new Text(nearestCluster.getIdentifier()), new ClusterObservations(1, point, point.times(point)));

KMeansCombiner类,对map结果进行汇总
public class KMeansCombiner extends Reducer<Text, ClusterObservations, Text, ClusterObservations>
将同一聚类中心下的向量计数,累和

  @Override
  protected void reduce(Text key, Iterable<ClusterObservations> values, Context context)
    throws IOException, InterruptedException {
    Cluster cluster = new Cluster();
    for (ClusterObservations value : values) {
      cluster.observe(value);
    }
    context.write(key, cluster.getObservations());
  }

KMeansReducer类,
public class KMeansReducer extends Reducer<Text, ClusterObservations, Text, Cluster>
将同一聚类中心下汇总,计算收敛性,重新计算聚类中心
方法是向量平均值,即所有向量累和除以个数。
输出key:聚类中心标识,value:新聚类中心

  @Override
  protected void reduce(Text key, Iterable<ClusterObservations> values, Context context)
    throws IOException, InterruptedException {
    Cluster cluster = clusterMap.get(key.toString());
    for (ClusterObservations delta : values) {
      cluster.observe(delta);
    }
    // force convergence calculation
    boolean converged = clusterer.computeConvergence(cluster, convergenceDelta);
    if (converged) {
      context.getCounter("Clustering", "Converged Clusters").increment(1);
    }
    cluster.computeParameters();
    context.write(new Text(cluster.getIdentifier()), cluster);
  }

clusterData函数中可选择两种实现，单机实现和分布式mapred实现

    if (runSequential) {
      clusterDataSeq(conf, input, clustersIn, output, measure);
    } else {
      clusterDataMR(conf, input, clustersIn, output, measure, convergenceDelta);
    }

clusterDataMR中定义输入输出格式都是sequencefile,输出key为int型,value为vector型

    job.setInputFormatClass(SequenceFileInputFormat.class);
    job.setOutputFormatClass(SequenceFileOutputFormat.class);
    job.setOutputKeyClass(IntWritable.class);
    job.setOutputValueClass(WeightedVectorWritable.class);

只有map作业没有reduce

    job.setMapperClass(KMeansClusterMapper.class);
    job.setNumReduceTasks(0);

KMeansClusterMapper类
public class KMeansClusterMapper extends Mapper<WritableComparable<?>,VectorWritable,IntWritable,WeightedVectorWritable>
private final Collection<Cluster> clusters = new ArrayList<Cluster>();
private KMeansClusterer clusterer;
根据最终聚类标签,将点加上聚类输出

  @Override
  protected void map(WritableComparable<?> key, VectorWritable point, Context context)
    throws IOException, InterruptedException {
    clusterer.outputPointWithClusterInfo(point.get(), clusters, context);
  }

outputPointWithClusterInfo函数
遍历所有中心,找到最近的,输出
key:聚类id value:WeightedVectorWritable向量

    AbstractCluster nearestCluster = null;
    double nearestDistance = Double.MAX_VALUE;
    for (AbstractCluster cluster : clusters) {
      Vector clusterCenter = cluster.getCenter();
      double distance = measure.distance(clusterCenter.getLengthSquared(), clusterCenter, vector);
      if (distance < nearestDistance || nearestCluster == null) {
        nearestCluster = cluster;
        nearestDistance = distance;
      }
    }
    context.write(new IntWritable(nearestCluster.getId()), new WeightedVectorWritable(1, vector));

分享到：

读代码-VectorWritable | 读代码-SequenceFilesFromDirectory

2011-10-31 11:14
浏览 1538
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

matlab聚类kmeans代码-hadoop-hw7:hadoop-hw7: matlab聚类kmeans代码作业7 要求在MapReduce上实现K-Means算法并在小数据集上测试。可以使用附件的数据集，也可以随机生成若干散点的二维数据（x, y)。设置不同的K值和迭代次数，可视化聚类结果。提交要求同作业5...

mahout KMeansDriver测试相关jar包: mahout KMeansDriver测试相关jar包，有需要的同学可以下载来试试。把这个包放入hadoop/lib下面然后就可以在eclipse里面运行调试了。

javamap源码-K-Mean-Clustering-Java-Source-code:使用Eclipse的MapReduce中的K均值聚类: - 源代码可能包含以下部分：KMeansMapper类实现映射逻辑，KMeansReducer类实现化简逻辑，以及可能的主类（如KMeansDriver）用于驱动整个MapReduce流程。 - 另外，还可能有数据预处理类，用于读取和处理原始数据，...

基于MapReduce的K-Means并行算法设计.doc: 如Instance表示数据点，Cluster表示聚类，EuclideanDistance计算欧氏距离，RandomClusterGenerator生成随机初始聚类中心，KMeans是K-Means算法的核心类，KMeansCluster和KMeansDriver分别辅助算法的执行和驱动整体...

养老院管理系统：SpringBoot与Vue前后端不分离架构的设计与实现: 内容概要：本文详细介绍了基于SpringBoot和Vue开发的养老院管理系统的具体实现细节。该系统采用前后端不分离的架构，旨在快速迭代并满足中小项目的开发需求。文中涵盖了多个关键技术点，如数据库设计（组合唯一约束、触发器）、定时任务（@Scheduled、@Async）、前端数据绑定（Vue的条件渲染和动态class绑定）、权限控制（RBAC模型、自定义注解）以及报表导出（SXSSFWorkbook流式导出）。此外，还讨论了开发过程中遇到的一些常见问题及其解决方案，如CSRF防护、静态资源配置、表单提交冲突等。适合人群：具备一定Java和前端开发经验的研发人员，尤其是对SpringBoot和Vue有一定了解的开发者。使用场景及目标：适用于需要快速开发中小型管理系统的团队，帮助他们理解如何利用SpringBoot和Vue进行全栈开发，掌握前后端不分离架构的优势和注意事项。其他说明：文章不仅提供了详细的代码示例和技术要点，还分享了许多实用的小技巧和避坑指南，有助于提高开发效率和系统稳定性。

家族企业如何应对人才流失问题？.doc: 家族企业如何应对人才流失问题？

员工关怀制度.doc: 员工关怀制度.doc

路径规划领域中基于排序搜索的蚁群算法优化及其应用: 内容概要：本文详细探讨了对传统蚁群算法进行改进的方法，特别是在路径规划领域的应用。主要改进措施包括：采用排序搜索机制，即在每轮迭代后对所有路径按长度排序并只强化前20%的优质路径；调整信息素更新规则，如引入动态蒸发系数和分级强化策略；优化路径选择策略，增加排序权重因子；以及实现动态地图调整，使算法能够快速适应环境变化。实验结果显示，改进后的算法在收敛速度上有显著提升，在复杂地形中的表现更加稳健。适合人群：从事路径规划研究的技术人员、算法工程师、科研工作者。使用场景及目标：适用于需要高效路径规划的应用场景，如物流配送、机器人导航、自动驾驶等领域。目标是提高路径规划的效率和准确性，减少不必要的迂回路径，确保在动态环境中快速响应变化。其他说明：改进后的蚁群算法不仅提高了收敛速度，还增强了对复杂环境的适应能力。建议在实际应用中结合可视化工具进行调参，以便更好地观察和优化蚂蚁的探索轨迹。此外，还需注意避免过度依赖排序机制而导致的过拟合问题。

基于PSO算法的配电网分布式光伏选址定容优化及其Matlab实现: 内容概要：本文详细介绍了利用粒子群优化（PSO）算法解决配电网中分布式光伏系统的选址与定容问题的方法。首先阐述了问题背景，即在复杂的配电网环境中选择合适的光伏安装位置和确定合理的装机容量，以降低网损、减小电压偏差并提高光伏消纳效率。接着展示了具体的PSO算法实现流程，包括粒子初始化、适应度函数构建、粒子位置更新规则以及越界处理机制等关键技术细节。文中还讨论了目标函数的设计思路，将多个相互制约的目标如网损、电压偏差和光伏消纳通过加权方式整合为单一评价标准。此外，作者分享了一些实践经验，例如采用前推回代法进行快速潮流计算，针对特定应用场景调整权重系数，以及引入随机波动模型模拟光伏出力特性。最终实验结果显示，经过优化后的方案能够显著提升系统的整体性能。适用人群：从事电力系统规划与设计的专业人士，尤其是那些需要处理分布式能源集成问题的研究人员和技术人员。使用场景及目标：适用于希望深入了解如何运用智能优化算法解决实际工程难题的人士；旨在帮助读者掌握PSO算法的具体应用方法，从而更好地应对配电网中分布式光伏系统的选址定容挑战。其他说明：文中提供了完整的Matlab源代码片段，便于读者理解和复现研究结果；同时也提到了一些潜在改进方向，鼓励进一步探索和创新。

Prius2004永磁同步电机设计：从Excel到MotorCAD的全流程解析与实战技巧: 内容概要：本文详细介绍了丰田Prius2004永磁同步电机的设计流程，涵盖从初始参数计算到最终温升仿真的各个环节。首先利用Excel进行基本参数计算，如铁芯叠厚、定子外径等，确保设计符合预期性能。接着使用Maxwell进行参数化仿真，通过Python脚本自动化调整磁钢尺寸和其他关键参数，优化电机性能并减少齿槽转矩。随后借助橡树岭实验室提供的实测数据验证仿真结果，确保模型准确性。最后采用MotorCAD进行温升仿真，优化冷却系统设计，确保电机运行安全可靠。文中还分享了许多实用技巧，如如何正确设置材料参数、避免常见的仿真错误等。适合人群：从事电机设计的专业工程师和技术人员，尤其是对永磁同步电机设计感兴趣的读者。使用场景及目标：适用于希望深入了解永磁同步电机设计全过程的技术人员，帮助他们在实际工作中提高设计效率和精度，解决常见问题，优化设计方案。其他说明：文章提供了丰富的实战经验和具体的操作步骤，强调了理论与实践相结合的重要性。同时提醒读者注意一些容易忽视的细节，如材料参数的选择和仿真模型的准确性。

基于DSP28335的单相逆变器设计方案与实现：涵盖ADC采样、PWM控制、锁相环及保护机制: 内容概要：本文详细介绍了基于DSP28335的单相逆变器的设计与实现，涵盖了多个关键技术模块。首先，ADC采样模块用于获取输入电压和电流的数据，确保后续控制的准确性。接着，PWM控制模块负责生成精确的脉宽调制信号，控制逆变器的工作状态。液晶显示模块则用于实时展示电压、电流等重要参数。单相锁相环电路实现了电网电压的频率和相位同步，确保逆变器输出的稳定性。最后，电路保护程序提供了过流保护等功能，保障系统的安全性。每个模块都有详细的代码示例和技术要点解析。适合人群：具备一定嵌入式系统和电力电子基础知识的研发人员，尤其是对DSP28335感兴趣的工程师。使用场景及目标：适用于单相逆变器项目的开发，帮助开发者理解和掌握各个模块的具体实现方法，提高系统的可靠性和性能。其他说明：文中不仅提供了具体的代码实现，还分享了许多调试经验和常见问题的解决方案，有助于读者更好地理解和应用相关技术。

SecureCRT安装包: SecureCRT安装包

C# WPF MVVM架构下的大屏看板3D可视化开发指南: 内容概要：本文详细介绍了如何利用C#、WPF和MVVM模式构建一个大屏看板3D可视化系统。主要内容涵盖WPF编程设计、自定义工业控件、数据库设计、MVVM架构应用以及典型的三层架构设计。文中不仅提供了具体的代码实例，还讨论了数据库连接配置、3D模型绑定、依赖属性注册等关键技术细节。此外，文章强调了项目开发过程中需要注意的问题，如3D坐标系换算、MVVM中命令传递、数据库连接字符串加密等。适合人群：具备一定C#编程基础，对WPF和MVVM模式有一定了解的研发人员。使用场景及目标：适用于希望深入了解WPF和MVVM模式在实际项目中应用的开发者，特别是那些从事工业控制系统、数据可视化平台开发的专业人士。通过学习本文，读者可以掌握如何构建高效、稳定的大屏看板3D可视化系统。其他说明：本文提供的设计方案和技术实现方式，可以帮助开发者更好地理解和应用WPF和MVVM模式，同时也能为相关领域的项目开发提供有价值的参考。

基于java SSM 框架的酒店管理系统.zip: 基于ssm的系统设计，包含sql文件（Spring+SpringMVC+MyBatis）

非厄米超表面双参数传感器的COMSOL建模与应用: 内容概要：本文详细介绍了利用COMSOL进行非厄米超表面双参数传感器的设计与实现。首先，通过构建超表面单元并引入虚部折射率，实现了PT对称系统的增益-损耗交替分布。接着，通过频域扫描和参数化扫描，捕捉到了复频率空间中的能级劈裂现象，并找到了奇异点（Exceptional Point），从而显著提高了传感器对微小扰动的敏感度。此外，文章探讨了双参数检测的独特优势，如解耦温度和折射率变化的能力，并展示了其在病毒检测、工业流程监控等领域的潜在应用。适合人群：从事光学传感器研究的专业人士，尤其是对非厄米系统和COMSOL仿真感兴趣的科研人员。使用场景及目标：适用于需要高精度、多参数检测的应用场合，如生物医学检测、环境监测等。目标是提高传感器的灵敏度和分辨率，解决传统传感器中存在的参数交叉敏感问题。其他说明：文中提供了详细的建模步骤和代码片段，帮助读者理解和重现实验结果。同时，强调了在建模过程中需要注意的关键技术和常见问题，如网格划分、参数设置等。

怎样健全员工福利体系.docx: 怎样健全员工福利体系.docx

离职证明范本.doc: 离职证明范本.doc

6538b79724855900a9c930904a302920.part6: 6538b79724855900a9c930904a302920.part6

员工离职单.doc: 员工离职单.doc

COMSOL中超材料异常折射仿真的关键技术与实现: 内容概要：本文详细介绍了在COMSOL中进行超材料异常折射仿真的关键技术。首先解释了异常折射现象及其产生的原因，接着通过具体代码展示了如何利用相位梯度和结构色散精确计算折射角。文中还讨论了边界条件的设置、网格划分的优化以及参数化扫描的应用。此外，提供了多个实用脚本和技巧，帮助提高仿真的精度和效率。最后强调了验证结果的重要性和一些常见的注意事项。适合人群：从事电磁仿真研究的专业人士，尤其是对超材料和异常折射感兴趣的科研人员和技术开发者。使用场景及目标：适用于需要深入理解和解决超材料中异常折射问题的研究项目。主要目标是掌握COMSOL中异常折射仿真的完整流程，确保仿真结果的准确性并优化计算性能。其他说明：文章不仅提供了详细的代码示例和技术细节，还分享了许多实践经验，有助于读者更好地应对实际仿真过程中可能出现的问题。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论