论坛首页 Java企业应用论坛

从HDFS API看移动计算(HDFS的设计目标和假设之一 )

浏览 2069 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (2)
作者 正文
   发表时间:2009-03-17  
已经自己的研究和一个师兄讨教后,发现HDFS提供给程序员使用的API,主要是FileSystem和DFSClient,这两个类提供了用于创建目录,创建文件,取得文件信息的方法,FileSystem是高层的一个类,DFSClient是一个底层的类,FileSystem使用了DFSClient,DFSClient可以比FileSystem相比拿到一些更详细的信息,如文件包括那些block,以及block在那些datanode上等信息,但是他们都不能控制block写到那些机器上,但是可以设置几个备份、所属用户、权限等一些信息。这些很大一部分是HDFS的局限性,另一个方面是为了MapReduce,提供文件的存储,查询数据所在的datanode为移动计算提供了工具。
移动计算,前面说过DFSClient提供了查询文件的具体信息,如文件有那些block,block所在的机器,这样就能找到数据在哪,你就能把计算移动到那。这是HDFS基于移动计算比移动代价低的假设所提供的。从HDFS提供给程序员使用的API角度能够更清楚HDFS的设计目标和假设。

论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics