冷数据集群调研和实现 -

IT小黑

浏览: 1933 次
性别:
来自: 深圳

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-07 ( 2)
更多存档...

冷数据集群调研和实现

博客分类：

冷数据集群

冷数据 raid hadoop

与普通HDFS对比，冷数据集群目的是不降低数据可靠性的前提下，减少磁盘开销。

经过facebook-hadoop版本和apache-hadoop（0.20至0.23）版本的比较，最后选型为facebook-hadoop版本。原因是apache-hadoop版本有许多缺陷，比如raidnode客户端没有实现placementmonitor，raidshell终端命令少的不忍直视(以后不好运维)，bug太多等等。还有一个重要的原因考虑到facebook-hadoop版本facebook已经在成熟的运用之中。

有关radi技术可参考以下两篇文章：

http://jiangbo.me/blog/2012/12/21/hdfs-raid/

http://jiangbo.me/blog/2013/06/05/setup-hdfs-raid/

facebook-hadoop源码下载：https://github.com/facebook/hadoop-20

目前状况：

经过一个多月的研究和debug，facebook-raid冷数据集群已经搭建成功。不过在这过程中，遇到各种问题：

1. 编译问题

2. 网上讲的raid.xml配置和源代码的实现不一样

3. BlockMissingException类路径不一致

4. raidnode客户端fs.hdfs.impl要配置成org.apache.hadoop.hdfs.DistributedFileSystem

<value>org.apache.hadoop.hdfs.DistributedFileSystem</value>

</property>