锁定老帖子 主题:hadoop分布式系统(上)
精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-11-28
最后修改:2009-11-30
简介
HDFS, the Hadoop Distributed File System, 是一个分布式系统,它被设计用来存储大数据量的信息(通常是TB或PB),并提供对数据进行高吞吐量访问的性能。文件被存储在多台机器中,确保系统的抗失效性能以及并行应用程序的高效。这篇文章主要介绍 HDFS的设计意图、结构,并告诉读者怎样去使用它。
本文的目标:
|
|
返回顶楼 | |
发表时间:2008-11-28
最后修改:2008-11-28
衡量这种技术,关键是看成本代价,如果投资在交换/路由上的成本可能比较昂贵,这种技术可能就是花架子。我决定HDFS不适用多客户端反复对同一个大文件读取的情况,比如说1万台客户机同时读取并安装linux文件包。采用HDFS,假如有10台文件服务器,是否每台机器都有1万个请求呢?(假设同时发生,不受物理限制)。
我们采用的是Server pooling的方式(10 server+1台libray),文件被分发到11台机器上,每台都有同样拷贝,每客户端向pool请求一台服务器,因此1万个客户被分配到10台服务器上,每台1000客户。当这个文件长时间不被使用(老旧过期)的时候,则由service负责从10台服务器被删除回收磁盘空间只保留在library服务器上。 假使某天咸鱼翻生的话,请求某个文件不到,则会去library上查找(如需再分发,则有管理员干预,这是基于咸鱼翻生的概率比较低) |
|
返回顶楼 | |
发表时间:2009-01-21
ray_linn 写道 衡量这种技术,关键是看成本代价,如果投资在交换/路由上的成本可能比较昂贵,这种技术可能就是花架子。我决定HDFS不适用多客户端反复对同一个大文件读取的情况,比如说1万台客户机同时读取并安装linux文件包。采用HDFS,假如有10台文件服务器,是否每台机器都有1万个请求呢?(假设同时发生,不受物理限制)。
我们采用的是Server pooling的方式(10 server+1台libray),文件被分发到11台机器上,每台都有同样拷贝,每客户端向pool请求一台服务器,因此1万个客户被分配到10台服务器上,每台1000客户。当这个文件长时间不被使用(老旧过期)的时候,则由service负责从10台服务器被删除回收磁盘空间只保留在library服务器上。 假使某天咸鱼翻生的话,请求某个文件不到,则会去library上查找(如需再分发,则有管理员干预,这是基于咸鱼翻生的概率比较低) 傻傻的问一句,楼上的到底是什么样的业务需要这样的架构?我怎么感觉很少有业务需要用到文件系统呢(大部分用数据库了),呵呵。望楼上赐教。 |
|
返回顶楼 | |
发表时间:2009-01-21
为啥不用操作系统自带的集群来解决分布运算,非要自己实现??
|
|
返回顶楼 | |
浏览 6764 次