Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。
Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求,包括近实时数据提取和查询,同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数百万行更新,每天进行数十亿查询抓取数万亿行数据。Mesa能进行跨数据中心复制,即使在整个数据中心故障时,也能以低延迟返回一致和可重复的查询结果。
针对数分钟更新吞吐量、跨数据中心等等严苛需求,已有的商业数据仓库系统(处理周期往往以天和周来计算)和Google的解决方案包括BigTable、Megastore、Spanner和F1都无法满足要求。BigTable无法提供必要的原子性,Megastore、Spanner和F1无法满足峰值更新需求。此外,Google自己开发的Tenzing、Dremel,以及Twitter开发的Scribe、LinkedIn的Avatara、Facebook的Hive以及HadoopDB等Web规模数据仓库处理的都是批量负载。
Mesa的主要特点是:
1、近实时的更新吞吐量。支持持续的更新,每秒支持数百万行的更新。
2、同时支持低时延查询性能和批量大量查询。99%的查询在几百毫秒之内返回。
3、跨数据中心备份。
今天先简单介绍下mesa的特点,具体的技术细节,后面再分享。大家可以到网上下载google的论文《Mesa:Geo-Replicated, NearReal-Time, ScalableData Warehousing》阅读以下。
相关推荐
9月在杭州举行的数据库学术会议VLDB 2014上,Google的工程副总Shivakumar Venkataraman与正在Google访问的UCSB教授、IEEE与ACM Fellow Divyakant Agrawal将做主题演讲,介绍Google的实时分析数据仓库Mesa。...
它被描述为Google Mesa的简化版和增强版,具有单一共享磁盘的架构,这与Oracle RAC和Exadata等系统有所不同。Palo的优势在于其能够同时处理大查询的高吞吐量和小查询的高并发性,这在传统的OLAP(在线分析处理)系统...
OLAP(Online Analytical Processing,联机分析处理)则不同,它是面向数据仓库中的大量数据分析和查询的。OLAP支持决策支持系统(DSS)和商务智能(BI),提供了诸如多维分析、报表分析、数据挖掘和在线挖掘等高级...
操作系统通常关注于实时的、面向记录的数据处理,而数据仓库则关注于历史数据的存储和分析,更适用于数据挖掘和历史趋势分析。 九、事务性数据库与分析型数据库的不同 事务性数据库如SQL DB(MySQL), NoSQL DB...
在本文中,我们将详细介绍如何在Ubuntu 12.04 LTS 64位系统上安装环境,以便编译Android R10.4的源码。首先,我们需要确保系统是最新的,然后安装必要的软件包和依赖项。 第一步是安装Ubuntu 12.04 LTS。在VMware ...
Doris是用于报告和分析的基于MPP的交互式SQL数据仓库。 它的原始名称是在百度开发的Palo。 捐赠给Apache Software Foundation之后,它更名为Doris。 1.许可证 2.技术 Doris主要集成了Google Mesa和Apache Impala的...
数据仓库,用于报告和分析。 原名Palo,由百度开发。 捐赠给 Apache 软件基金会后,它更名为 Doris。 1. 执照 2. 技术 Doris 主要集成了 Google Mesa 和 Apache Impala 的技术,基于列式存储引擎,可以通过 MySQL ...
Apache Doris(正在孵化)Doris是用于报告和分析的基于MPP的交互式SQL数据仓库。 它的原始名称是在百度开发的Palo。 将其捐赠给Apache Software Foundation之后,它被重命名为Doris。 Apache Doris(正在孵化)Doris...