`
davidxiaozhi
  • 浏览: 244297 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

MahoutDriver运作机制-mahout源码学习及总结

阅读更多

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911

 

mahout入口类MahoutDriver
 
如果我们想要研究MahoutDriver的源码,没有什么比测试类更好的了,下面我们看一下测试类
 

public final class MahoutDriverTest {

     //测试MahoutDriver.main方法

    @Test
     public void testMain() throws Throwable {

    //我们注释掉原有的简单help参数,增加自定定义参数
    //MahoutDriver.main(new String[] {"itemsimilarity", "help"});
    MahoutDriver.main(new String[] {"itemsimilarity", "-Djava.home=wwww.c.cn"," -input"," c:/c/c","-output", "d"," e", "f"});
    }

}

 
 下面我们来看一下MahoutDriver方法组成,下面先粘贴上其方法大纲
 
 
先简单介绍一下main方法之外的一些方法的作用
 
 //判断我们要使用的mahout类是否已经过期,过期返回true,不过期返回false
 private static boolean isDeprecated(Properties mainClasses, String keyString) {
    return "deprecated".equalsIgnoreCase(shortName(mainClasses.getProperty(keyString)));
  }
 
 
//加载资源属性文件
private static Properties loadProperties(String resource) throws IOException
//模拟linux中的shift命令,及让第一个参数失效(数组中index=0),及重新构造数组,保留index1位置开始到结束的全部参数
private static String[] shift(String[] args)
//例如org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob = itemsimilarity : Compute the item-item-similarities for item-based collaborative filtering
private static String shortName(String valueString) {
    return valueString.contains(":") ? valueString.substring(0, valueString.indexOf(':')).trim() : valueString;
}

  private static String desc(String valueString) {
    return valueString.contains(":") ? valueString.substring(valueString.indexOf(':')).trim() : valueString;
  }
 
介绍一下MahoutDriver的核心代码,这里我们就不粘贴全部代码了,我们分逻辑块说明
 1.创建programdriver, 使用hadoop的驱动工具类进行相关类的实例化,及调用
 ProgramDriver programDriver = new ProgramDriver();
 2. 首先加载mahout配置文件driver.classes.props ,如果该文件不存在的话,我们加载driver.classes.default.props ,如果都不存在就会退出,停止运行,如果我们需要新添加算法类,可以再两个文件中添加
    Properties mainClasses = loadProperties("driver.classes.props");
    if (mainClasses == null) {
      mainClasses = loadProperties("driver.classes.default.props");
    }
    if (mainClasses == null) {
      throw new IOException("Can't load any properties file?");
    }
3.验证是否是算法类简称调用,算法类是否过时,并创建描述信息
 
    boolean foundShortName = false;
    for (Object key :  mainClasses.keySet()) {
      String keyString = (String) key;
 首先判断是我们是否是通过算法类简称及shortName调用,  
      if (args.length > 0 && shortName(mainClasses.getProperty(keyString)).equals(args[0])) {
        foundShortName = true;
      }
    第二步 判断是否是通过算法类全路径调用,如果是全路径调用但是获取算法类简称 是过时废弃的 即等于deprecated 那么退出main方法,防止我们通过全路径方式使用过时的算法类    
      if (args.length > 0 && keyString.equalsIgnoreCase(args[0]) && isDeprecated(mainClasses, keyString)) {
        log.error(desc(mainClasses.getProperty(keyString)));
        return;
      }
       不处理已经过时废弃的类
      if (isDeprecated(mainClasses, keyString)) {
        continue;
      }
    第三步 建立 全部算法类的描述信息类就是描述该类是做什么的,参数等等,
      addClass(programDriver, keyString, mainClasses.getProperty(keyString));
    }
 
 
 
4.验证我们是否调用帮助信息,如果是的话直接输出帮助信息,
   如果我们是使用全路径调用的,并没有使用简称,创建描述类,个人认为这里主要是针对第一个参数没有在配置文件中注册的情况出现的处理办法,最后让arg[0]失效,其他数组索引全部减一,(内部是通过copy数组实现的)
   if (args.length < 1 || args[0] == null || "-h".equals(args[0]) || "--help".equals(args[0])) {
      programDriver.driver(args);
    }

    String progName = args[0];
    if (!foundShortName) {
      addClass(programDriver, progName, progName);
    }
    shift(args);
 
5. 加载progName + ".props"指定配置文件(progName 就是我们传递的第一个参数),如果不存在的话,那么我们就只能使用命令行参数了
最后对参数进行封装处理
 Properties mainProps = loadProperties(progName + ".props");
    if (mainProps == null) {
      log.warn("No {}.props found on classpath, will use command-line arguments only", progName);
      mainProps = new Properties();
    }
   接下来对命令参数进行处理 分三步, 解析命令行参数 ,添加我们命令行没有覆盖的参数,还原命令行参数  
     Map<String,String[]> argMap = Maps.newHashMap();
    int i = 0;
    while (i < args.length && args[i] != null) {
      List<String> argValues = Lists.newArrayList();
      //取到当前参数,该值是用来作为map中的key使用的,
      1)arg一般情况下为当前参数 args[i]  当前args[i]后面的一系列参数都会作为args[i]的参数,除非我们查找到带 “ -  ”横杠的参数 
      2)但是如果是java命令行参数的话,该值会被替换为args[i]中=符号前面的部分,args[i]中=符号后面的字符串作为值
      String arg = args[i];
      i++;
       //验证是否是java的命令行参数设置
      if (arg.startsWith("-D")) { // '-Dkey=value' or '-Dkey=value1,value2,etc' case
        String[] argSplit = arg.split("=");
        arg = argSplit[0];
        if (argSplit.length == 2) { 传参格式必须正确长度必须是2
          argValues.add(argSplit[1]);
        }
      } else { 非java命令行参数value值添加处理                                     // '-key [values]' or '--key [values]' case.
        while (i < args.length && args[i] != null) {
           //非java命令行参数处理,只要遇到-
          if (args[i].startsWith("-")) {
            break;
          }
          argValues.add(args[i]);
          i++;
        }
      }
      argMap.put(arg, argValues.toArray(new String[argValues.size()]));
    }
   添加没有被我们覆盖的其他默认参数
// Add properties from the .props file that are not overridden on the command line
    for (String key : mainProps.stringPropertyNames()) {
       //举例配置文件中内容为
       // #i|input = /path/to/input
       // #o|output = /path/to/output  
      String[] argNamePair = key.split("\\|");
      //简写参数及长写参数
      String shortArg = '-' + argNamePair[0].trim();
      String longArg = argNamePair.length < 2 ? null : "--" + argNamePair[1].trim();
     //如果传递命令参数中不包含该参数,添加进处理的参数集合中
      if (!argMap.containsKey(shortArg) && (longArg == null || !argMap.containsKey(longArg))) {
        argMap.put(longArg, new String[] {mainProps.getProperty(key)});
      }
    }
  将处理好后的参数进行封装中可以使用的参数
 // Now add command-line args
    List<String> argsList = Lists.newArrayList();
    argsList.add(progName);
    for (Map.Entry<String,String[]> entry : argMap.entrySet()) {
      String arg = entry.getKey();
      if (arg.startsWith("-D")) { // arg is -Dkey - if value for this !isEmpty(), then arg -> -Dkey + "=" + value
        String[] argValues = entry.getValue();
        if (argValues.length > 0 && !argValues[0].trim().isEmpty()) {
          arg += '=' + argValues[0].trim();
        }
        argsList.add(1, arg);
      } else {
        argsList.add(arg);
        for (String argValue : Arrays.asList(argMap.get(arg))) {
          if (!argValue.isEmpty()) {
            argsList.add(argValue);
          }
        }
      }
    }
6 使用hadoop工具类驱动我们的算法类运行,并接传递相关参数
programDriver.driver(argsList.toArray(new String[argsList.size()]));
 
下面简单介绍一下hadoop的工具类,程序驱动类
 
ProgramDriver 主要功能求实输出我们添加的全部类描述信息,主要属性是一个存放ProgramDescription的treemap集合,
其他方法为 
 
          printUsage,打印Treemap<ProgramDescription>中的全部描述信息 
          addClass 创建ProgramDescription 并接添加进treemap当中
          driver(String[] args) 通过args[0] 取到 ProgramDescription  反射调用指定类的main方法并接传递参数
          其核心代码以去除非空判断及打印全部信息等等
    ProgramDescription pgm = programs.get(args[0]);
    if (pgm == null) {
      System.out.println("Unknown program '" + args[0] + "' chosen.");
      printUsage(programs);
      System.exit(-1);
    }
    
    // Remove the leading argument and call main
    String[] new_args = new String[args.length - 1];
    for(int i=1; i < args.length; ++i) {
      new_args[i-1] = args[i];
    }
    //这里开始调用ProgramDescription 的invoke方法
    pgm.invoke(new_args);
 
下面介绍一下其很重要的静态内部类ProgramDescription
 
  
 
     这里paramTypes主要是申明我们在反射调用时传递的是string数组类型(因为反射调用的默认都是main方法) 
     static final Class<?>[] paramTypes = new Class<?>[] {String[].class};
     我们将来要反射调用的方法实例
     Mehod main      
      我们自己定义的程序描述信息
     String description
    探秘一下构造器 
    public ProgramDescription(Class<?> mainClass, 
                              String description)
      throws SecurityException, NoSuchMethodException {
      负责获取我们将来要反射调用的main函数的Method的实例
      this.main = mainClass.getMethod("main", paramTypes);
      this.description = description;// 算法的描述信息
    }
      
    探秘一下invoke 很简单的反射调用
    public void invoke(String[] args)
      throws Throwable {
      try {
        main.invoke(null, new Object[]{args});
      } catch (InvocationTargetException except) {
        throw except.getCause();
      }
    }
 
 

 

分享到:
评论

相关推荐

    全国计算机等级考试二级openGauss数据库程序设计样题解析

    主要内容涵盖单选题和操作题两大部分。单选题涉及openGauss数据库的基本概念、数据模型、SQL语法、事务管理和用户权限等方面的知识点。操作题则围绕一个名为bookdb的图书购买信息数据库展开,具体任务包括插入图书信息、更新顾客信息、删除购买记录、查询特定图书信息以及创建视图、存储过程和触发器等实际操作。每道题目均附带详细的解题步骤和最终答案。

    新建 Microsoft Word 文档 (9).docx

    新建 Microsoft Word 文档 (9).docx

    Delphi 12.3控件之nrCommLib Pro v9.54 Full Source for D10.3-D12.7z

    Delphi 12.3控件之nrCommLib Pro v9.54 Full Source for D10.3-D12.7z

    三菱PLC FX5U控制四轴伺服系统:硬件配置、参数设置及运动控制详解

    内容概要:本文详细介绍了使用三菱PLC FX5U控制四轴伺服系统的全过程,涵盖硬件配置、电气接线、参数设置以及运动控制逻辑。硬件方面,选用三菱FX5U-64MT作为主控制器,搭配四个MR-JE-20A伺服驱动器和其他必要组件。软件部分则深入探讨了轴参数初始化、原点回归、多轴联动、HMI界面设计及报警处理等关键技术环节。特别针对旋转轴的特殊处理进行了详细说明,如双速原点回归、绝对定位指令的应用等。此外,还提供了调试经验和优化技巧,确保系统的高精度和平稳运行。 适合人群:从事自动化控制系统设计、调试的技术人员,尤其是对三菱PLC和伺服系统有一定了解的研发人员。 使用场景及目标:适用于工业自动化领域的四轴伺服控制系统开发,旨在帮助工程师掌握从硬件选型到软件编程的一整套解决方案,提高项目的成功率和技术水平。 其他说明:文中附有多份参考资料,包括完整的程序文件、界面工程、CAD接线图和伺服参数清单,便于读者进行实际操作和验证。

    分阶段学习:先掌握基础,再深入细分领域 理论与实践结合:学完算法后立刻用代码实现 保持持续学习:AI技术迭代快,需跟踪最新进展

    分阶段学习:先掌握基础,再深入细分领域。 理论与实践结合:学完算法后立刻用代码实现。 保持持续学习:AI技术迭代快,需跟踪最新进展。

    电子硬件课程设计-Word文档

    电子硬件课程设计

    智慧农贸信息化管理平台.zip

    Java项目基于ssm框架的课程设计,包含LW+ppt

    脚本-压测相关-zyx编写

    脚本-压测相关-zyx编写

    jspm机房预约系统lw+ppt.zip

    Java项目基于ssm框架的课程设计,包含LW+ppt

    app.mobileconfig

    app.mobileconfig

    基于MotorCAD的2极12槽永磁直流有刷电机设计与优化教程

    内容概要:本文详细介绍了使用MotorCAD进行2极12槽永磁直流有刷电机的设计与优化方法。首先,通过Python脚本设置电机的基本参数,如外径、轴向长度、额定转速等。接着,深入探讨了磁钢选型、绕组设置、电磁仿真、热分析等多个关键技术环节。针对常见的设计难题,如齿槽转矩、磁钢充磁方向、绕组跨距等提供了具体的解决方案。同时,还分享了一些提高仿真精度和优化性能的实用技巧,如参数扫描、FEA计算、热管理等。最后,通过实测数据分析验证了设计方案的有效性。 适合人群:电机设计工程师、高校相关专业师生、对电机设计感兴趣的开发者。 使用场景及目标:适用于需要精确设计和优化小型永磁直流有刷电机的场合,帮助用户掌握MotorCAD的具体应用,提高设计效率和产品质量。 其他说明:文中提供的Python和VB脚本示例有助于自动化参数设置和批量处理任务,减少重复劳动。此外,还强调了在设计过程中需要注意的关键技术和常见陷阱,确保设计方案的可行性和可靠性。

    三相逆变器基于PI闭环与解耦控制的MATLAB仿真实现

    内容概要:本文详细介绍了三相逆变器在MATLAB/Simulink环境下的PI闭环控制及解耦控制的实现方法。首先,通过坐标变换将三相电流从静止坐标系转换到旋转坐标系,确保功率守恒并实时更新转子位置角。接着,实现了带有抗饱和处理的PI控制器,防止积分风-up现象。然后,针对d轴和q轴之间的耦合问题,引入了解耦控制,通过低通滤波和交叉耦合项来稳定系统。此外,还讨论了PWM生成模块的死区时间和仿真结果的验证方法,强调了参数调试的重要性和具体策略。 适合人群:电力电子工程师、自动化控制领域的研究人员以及对三相逆变器控制感兴趣的高校师生。 使用场景及目标:适用于需要深入了解三相逆变器控制原理和技术实现的研究项目或工程应用。主要目标是掌握PI控制器的设计、解耦控制的应用及其在MATLAB/Simulink中的仿真实现。 其他说明:文中提供了详细的代码示例和调试技巧,帮助读者更好地理解和实践相关理论。同时提醒读者,仿真成功并不代表实际硬件运行无误,建议在实验过程中准备必要的保护措施。

    58面经面试过程和题目.txt

    58面经面试过程和题目.txt

    OceanBase OBCP 实验指导手册V1.3

    OceanBase OBCP 实验指导手册V1.3

    ABB喷涂机器人IRC5P与PLC Profinet通讯配置及程序号启动详解

    内容概要:本文详细介绍了ABB喷涂机器人IRC5P与PLC通过Profinet通讯进行程序号启动的具体步骤和注意事项。主要内容涵盖Profinet通讯的基本配置,包括设备名称、IP地址设置,RAPID代码编写,任务声明,信号映射,以及调试技巧。文中还分享了许多实际调试中的经验和常见错误,如大小写敏感、IP地址分配、程序号有效性和信号防抖处理等。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是负责机器人与PLC通讯配置的技术人员。 使用场景及目标:帮助技术人员正确配置ABB喷涂机器人IRC5P与PLC之间的Profinet通讯,确保程序号能够顺利启动,避免常见的配置错误和调试难题。 其他说明:文章强调了硬件和软件配置相结合的重要性,并提供了详细的代码示例和调试建议,有助于提高系统的稳定性和可靠性。

    电子硬件课后习题题目及要求.docx

    电子硬件课后习题题目及要求.docx

    亲测开源好用的红盟云发卡源码对接支付宝等支持一件搭建

    亲测开源好用的红盟云发卡源码对接支付宝等支持一件搭建,方便建立自己的发卡平台,源码全部开源无加密,可方便而开使用。 测试环境:php7.2+mysql+宝塔面板 安装教程: ①设置public运行目录 ②设置thinkphp伪静态 ③访问域名填写数据库信息根据提示安装

    Delphi 12.3控件之MiTeC-System-Information-Component-Suite-15.1.0-Full-Source.7z

    Delphi 12.3控件之MiTeC_System_Information_Component_Suite_15.1.0_Full_Source.7z

    Delphi 12.3控件之StyleControls 5.80.7z

    Delphi 12.3控件之StyleControls 5.80.7z

    工业自动化中YASKAWA输送带同步系统YRC1000的应用与优化

    内容概要:本文详细介绍了YASKAWA公司生产的输送带同步系统YRC1000的工作原理、应用场景及其优缺点。文中不仅解释了YRC1000通过精确控制各输送带电机的转速和位置来实现同步的方法,还展示了Python和C++两种编程语言下的模拟代码片段,帮助理解同步控制的具体实现方式。此外,文章深入探讨了YRC1000在实际应用中的优势,如高同步精度、良好的稳定性和强大的技术支持,同时也指出了其较高的成本和技术门槛。为了提高系统的可靠性和性能,作者分享了一些实用技巧,包括正确的硬件连接、合理的参数设置以及有效的故障排查方法。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些负责生产线设计、维护和优化的专业人士。 使用场景及目标:适用于需要确保多个输送带之间保持高度一致性的场合,如电子产品组装车间、汽车制造工厂等。主要目的是提升生产效率,减少因同步问题导致的质量缺陷或停工现象。 其他说明:尽管YRC1000具有出色的性能表现,但在实际部署过程中仍需注意成本控制和技术细节的把握。文中提供的经验和建议有助于降低实施难度并提高成功率。

Global site tag (gtag.js) - Google Analytics