大规模数据处理

csliu.xjtuse

浏览: 3367 次
性别:
来自: 杭州

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2010-06 ( 4)
更多存档...

数据结构 Mapreduce HBase Hadoop 百度

今天看了一个百度运维工程师的分享：百度大规模数据处理，主要讲的是hdfs的一些基本情况及百度在使用中遇到的问题及对策。
hadoop这个词我从去年开始听说，一直不知道它是干什么用的，听了这个哥们的分享，有了大致的了解。

HDFS:
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS.
具有以下优势：
支持海量存储
全局命名空间
高可用性
高扩展性
易用性
支持MapReduce编程框架
支持Hbase等分布式索引系统

Hadoop是一个开源项目，它是Google File system的开源实现。

Goole集群系统的三个核心组件：
1、GFS 分布式文件系统，隐藏下层负载均衡、冗余复制等细节，对外提供统一文件系统接口。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。
2、MapReduce。大多数分布式运算可以抽象为MapReduce操作。Map是把Input分解成中间的Key/Value对，Reduce把Key/Value合成最终Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。　
3、BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。

对应Google的这三个核心组件有Hdfs三个开源实现：
GFS-->HDFS
Google MapReduce--->MapReduce
BidTable----->Hbase

HDFS把集群中的节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。见下面示意图：