第四章：小朱笔记hadoop之源码分析-conf分析

huashuizhuhui

浏览: 239792 次
性别:
来自: 西安

最近访客更多访客>>

金易aa

XF银色子弹

baixy777

UP-GIS

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop深入浅出

第三章：小朱笔记hadoop之conf分析

一、Configurable

    void setConf(Configuration conf);
    //获取配置信息的方法：
    Configuration getConf();

二、Configured

实现了Configurable接口，也就是必须实现接口中的两个方法，当然并不是直接实现的，而是调用Configuration类来实现的，这里我们如果希望自己实现Configurable接口也是可以的。Configured类的方法比较简单，主要是通过调用Configuration类的方法来完成接口方法的。

三、 Configuration

Hadoop 中的组件是根据以上 API 进行配置的。一个 Configuration 实例包括一系列名值对形式的配置属性。每个属性是一个 String 类型，值类型可以任何 java 基础类型或 String 等其他类型。配置属性可以从以下方式加载：
（1）通过名值对设置
（2）通过其他的 Configuration 配置
（3）通过 URL 配置
（4）通过 Path 配置（将会从本地读取）
需要注意的是，当多次使用 addResource 时，后面的属性会覆盖以前设置的非 final 属性， final 属性是不可以被覆盖的。同时 Configuration 实现了 Writable 接口，是可序列化的。
下面重点讨论Configuration类，这个类实现了两个接口：Iterable 迭代接口、Writable 序列化接口

主要属性：
（1）static代码段首先获得了当前线程的类加载器然后找到资源hadoop-site.xml,如果找到了这个资源文件，就会log出一段提示信息：因为找到了hadoop-site.xml这个文件，那么core-default.xml、hdfs-default.xml、mapred- default.xml的文件中的配置信息将会被core-site.xml、hdfs-site.xml、mapred-site.xml三个文件中的配置所取代，从这段日志中也可以看出*-site的配置文件的优先级要高于*-default文件。
（2）defaultResources是个CopyOnWriteArrayList的连续数组，这个CopyOnWriteArrayList类会在io包中具体分析，这个数组的目的是存储配置文件的名字而不是配置文件的全路径，配置文件指的就是上文中提到的xml文件。
（3）finalParameters存储所有被声明为final的参数
（4）loadDefault是布尔类型的变量意思是是否加载默认的配置信息，也就是上文中提到的三个default.xml中的配置
（5）LOG是用apache的logging包中的日志方式记录日志
（6）int MAX_SUBST = 20 是设定对带有环境变量的值所能够深入解析的层次数，超出这个最大的层数的值将不能够解析
（7）overlay属性类型变量，记录了进行覆盖的属性
（8）properties存储的是Configuration对象中读取到的全部配置信息
（9）布尔值quietmode：对应的是配置信息加载过程是否属于默认的模式，如果属于默认的模式下也就是快速模式，则在配置信息加载的过程中的一些信息不会记录在日志中，这个值的作用是影响log的输出，当然也会影响一些异常的抛出。
（10）REGISTRY是一个WeakHashMap的变量，key为Configuration,value为Object，可以看出这个对象存储了不同对象的多个配置信息，弱HashMap可以自动清除不在正常使用的键对应的条目，发现如果这个值不是null会重新加载默认的配置文件中的信息。
（11）resources列表中存放了包含配置信息的对象。
（12）varPat对含有环境变量的值的进行转换的正则表达式对象。

//Hadoop在创建配置类的时候，考虑了三种资源：
//
//URL资源（网络资源，指的是一个链接）；
//
//CLASSPATH资源（String形式）；
//
//Hadoop文件系统中的Path资源（该资源是基于Hadoop的FileSystem的，使用斜线“/”作为分隔符，如果是绝对路径，应该以“/”开始） 

public class Configuration implements Iterable<Map.Entry<String,String>>,
                                      Writable {
  //LOG是记录日志的对象
  private static final Log LOG = LogFactory.getLog(Configuration.class);

  //quietmode对应的是配置信息加载过程是否属于默认的模式，如果属于默认的模式下也就是快速模式，则在配置信息加载的过程中的一些信息不会记录在日志中
  private boolean quietmode = true;
  
  /**
   * List of configuration resources.
   * resources是一个对象组，用于存放有关包含配置信息的对象。
   */
  private ArrayList<Object> resources = new ArrayList<Object>();

  /**
   * List of configuration parameters marked <b>final</b>. 
   * 是所有配置值被声明为final变量的集合
   */
  private Set<String> finalParameters = new HashSet<String>();
  
  //是否加载默认配置
  private boolean loadDefaults = true;
  
  /**
   * Configuration objects
   * 用于多有个对象的相关配置的注册对它们进行管理，弱哈希可以自动清除不再正常使用的键对应的条目
   */
  private static final WeakHashMap<Configuration,Object> REGISTRY = 
    new WeakHashMap<Configuration,Object>();
  
  /**
   * List of default Resources. Resources are loaded in the order of the list 
   * entries
   * defaultResources用于存储默认的配置资源名或者路径
   */
  private static final CopyOnWriteArrayList<String> defaultResources =
    new CopyOnWriteArrayList<String>();
  
  /**
   * Flag to indicate if the storage of resource which updates a key needs 
   * to be stored for each key
   */
  private boolean storeResource;
  
  /**
   * Stores the mapping of key to the resource which modifies or loads 
   * the key most recently
   */
  private HashMap<String, String> updatingResource;
  
  //如果是老版本的hadoop则加载配置文件hadoop-site.xml不是老版本则加载配置文件core-default.xml,core-site.xml
  static{
    //print deprecation warning if hadoop-site.xml is found in classpath
    ClassLoader cL = Thread.currentThread().getContextClassLoader();
    if (cL == null) {
      cL = Configuration.class.getClassLoader();
    }
    if(cL.getResource("hadoop-site.xml")!=null) {
      LOG.warn("DEPRECATED: hadoop-site.xml found in the classpath. " +
          "Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, "
          + "mapred-site.xml and hdfs-site.xml to override properties of " +
          "core-default.xml, mapred-default.xml and hdfs-default.xml " +
          "respectively");
    }
    addDefaultResource("core-default.xml");
    addDefaultResource("core-site.xml");
  }
  
  //properties存储的是Configuration对象中的全部配置信息，类型Properties是Java提供的对KV配置的一个属性集，提高了对KV配置参数的存储和操作方法
  private Properties properties;
  //overlay则是进行覆盖的属性
  private Properties overlay;
  //主要是用于配置冲根据配 置的参数构造相应的对象实例时提供上下文环境的类加载器
  private ClassLoader classLoader;
  {
    classLoader = Thread.currentThread().getContextClassLoader();
    if (classLoader == null) {
      classLoader = Configuration.class.getClassLoader();
    }
  }


.............


}

主要方法：
（1）初始化方法：

Configuration() ：默认构造函数
Configuration(boolean loadDefaults)：是否加载默认配置的构造函数
Configuration(Configuration other)：通过克隆其他的配置对象配置来构造自己，这个构造函数主要克隆了resources、properties、overlay和 finalParameters四个对象，克隆的时候加了线程锁，确保在同一个jvm下的单线程执行，这个也很容易理解，为了保证配置的统一。

（2）增加资源的方法：

addResource(InputStream in)：通过inputstream流来增加资源
addResource(Path file)：通过制定的path文件加载资源
addResource(String name)：通过资源名称来加载资源
addResource(URL url)：通过资源的url来加载资源
上述四个方法的实现都调用了
addResourceObject(Object resource)这个方法，这个方法的设计巧妙之处在于参数是Object类型，充分体现了面向对象设计中的李氏替换的原则，把资源全部加入 resources变量后调用reloadConfiguration()方法重新加载配置信息。

（3）设置资源属性的方法：

set(String name, String value)：设置指定参数的值，因为是加载后设置，所以除了要在设置properties中设置以外还需要在overlay中设置，表明之前的属性被覆盖掉了。
setBoolean(String name, boolean value)：设置参数的布尔值
setBooleanIfUnset(String name, boolean value) ：如果指定的属性没设置，则设置值为指定的布尔值
其他的set方法基本大同小异

（4）取得资源属性的方法：

这些方法很多与set方法相似，就是取得设置的资源属性的值，还有一些是取得Configuration对象中属性的值。

（5）其他方法：
Properties getProps()：获得properties对象和overlay对象中的属性配置
reloadConfiguration()：清除properties和finalParameters以便于重新加载配置信息
substituteVars(String)：上面的正则表达式对象对含有环境变量的参数值进行解析的方法