Google需要处理数据真正可以称得上海量,这依赖于其分布式的高扩展架构,否则,再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构,ppt可以从这里下载。
一、底层架构
负载并行分配到多个硬件机器上
软件必须采用容错处理,不依赖具体的某一个台机器运行
大量采用刀片服务器和PC Server,低端存储和网络设备
机器追求性价比而不是盲目的高性能
基于Linux
二、分布式系统
调度系统:Scheduling System
调度系统是一个底层支撑系统,负责调度监控Cluster资源
文件存储:GFS
Master节点负责管理文件系统元数据
Chunkserver存放具体数据,以64MB为单元分布
客户端通过master查找文件
客户端直接从chunkserver获得需要的数据
目前运行超过200套GFS群集
超过5000台机器
超过5PB数据
为10000台以上客户端提供服务
数据存储:BigTable
采用多维稀疏映射图模型,每一个数据单元Cell可以存储不同时间截的数据
将表按行分隔成Tablet,分布到不同服务器上存储
底层存储架构采用GFS
Master节点处理元数据和负载均衡
Tablet服务器存储数据
锁服务器(Lock Service)控制数据访问的一致性
超过500个数据单元
最大的单元存储超过6000TB的数据,使用了超过3000台机器
最忙的单元支撑了500000次以上的操作
数据处理:MapReduce
MapRedule是Google的批量数据处理工具,分为两大功能
映射(Map):根据输入生成(key,value)键值对
简化(Reduce):合并存储(key,value)键值对
MapReduce用于Google的大多数产品中,包括Google Earth,News,Analytics,Search Quality,Indexing等等
目前,调度系统/GFS/BigTable/MapReduce可以在同一个群集内协同工作
三、未来的发展方向
跨越数据中心的分布式系统
更高的自动化程度
分享到:
相关推荐
- **高性能与高可用性**:为了支撑Google庞大的数据处理需求,GFS的设计着重于提高系统的吞吐量、降低延迟,并确保系统的高度可靠性。 - **大规模存储**:面对PB级别的数据存储需求,GFS采用了一种基于廉价硬件的大...
随着数字化信息爆炸式增长,数据中心需要处理的海量数据对网络设计提出了新要求: 1. 高扩展性:为了适应快速增加的业务需求和数据量,网络需要能够无缝添加设备,同时保持现有性能不受影响。 2. 高带宽:数据中心...
- **BigTable应用**:BigTable中记录了数十亿的URL、数百TB的卫星图像以及数亿用户的偏好数据,体现了谷歌在海量数据管理和应用方面的实力。 #### 四、分层架构 **产品应用层**:包括搜索引擎、广告系统、Gmail、...
它的设计思想源于Google的MapReduce和GFS(Google文件系统)论文,旨在提供高容错性、高可扩展性和成本效益的数据处理能力。 1. **Hadoop的核心组件**: - **HDFS(Hadoop Distributed File System)**:Hadoop的...
对于海量数据的场景,Lucene 框架面对与 Google 同样的困难,存储海量数据困难,检索海量速度慢。学习和模仿 Google 解决这些问题的办法:微型版 Nutch。可以说 Google 是 Hadoop 的思想之源(Google 在大数据方面的...
从技术角度来看,云计算平台的高可扩展性、按需计算能力和高性价比等特性,都是解决传统电力数据分析难题的有效手段。通过将数据处理流程迁移到云计算平台,电力企业能够更加高效地处理和分析电力数据,进而实现更加...
通过上述内容可以看出,Hadoop 作为大数据处理的重要工具,不仅具备高可扩展性、成本效益、灵活性好、处理速度快以及容错能力强等优势,而且在大数据处理技术的整体框架中占有举足轻重的地位。随着云计算和分布式...
- 大数据的特点包括高并发读写、海量存储和高可扩展性与高可用性需求。 - 大数据与云计算的关系密切,云计算为大数据提供了基础架构支持。 2. 大数据市场分析 - 2011年是中国大数据市场的起点,此后市场规模迅速...
### 各大网站架构总结——以Google为例 #### 一、Google架构概述 Google作为全球互联网...这种架构不仅能够处理海量数据的存储和处理需求,还具有很高的可靠性和性能优势,为Google的各项服务提供了强有力的支持。
大数据的特点包括:高并发读写需求、海量数据的高效存储和访问需求,以及高可扩展性和高可用性需求。大数据与云计算关系密切,云计算为大数据提供了必要的基础设施支持,使得大数据的处理和分析变得可行且高效。 ...
大数据的特点包括高并发性、海量存储需求和高可扩展性及高可用性。这些特性使得传统数据处理方法难以应对,因此需要新一代架构和技术,如Hadoop。 【大数据与云计算的关系】大数据的处理离不开云计算的支持。云计算...
其中,HDFS作为Hadoop的核心子项目,具有高容错、高可靠性、高可扩展性和高吞吐率等特征,为海量数据提供了不怕故障的存储。 HDFS的优点主要体现在以下几个方面: 首先,HDFS提供了分布式存储的功能。通过HDFS,...
分布式系统架构是现代互联网服务的核心,它涉及到多个计算节点通过网络进行协同工作,以处理海量数据和提供高可用性服务。本实战指南将深入探讨如何设计和实施大规模分布式系统,帮助你掌握在企业环境中应用这些知识...
Google 集群架构是Google搜索引擎背后的核心技术,它是一个由大量普通PC机组成的分布式系统,具备高可扩展性和容错性。这一架构的主要目标是在保持低成本的同时,提供高效、可靠的服务,以满足全球范围内的海量搜索...
- 淘宝的分布式服务框架,介绍了淘宝如何通过分布式架构来满足亿万级别的用户访问和数据处理需求。 - 百度的高性能搜索技术,分析了百度搜索如何通过高效的索引策略和算法来保证快速准确的搜索结果。 - 腾讯的高可用...
其基于共享存储的架构在面对海量数据时,往往无法有效扩展,这成为RDBMS在大数据分析中的瓶颈。 MapReduce是由Google提出的分布式计算模型,主要用于处理和生成大规模数据集。它通过将复杂任务分解为可并行执行的...