`

大规模并行查询引擎 BlinkDB

 
阅读更多

BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。

为了达到这个目标,BlinkDB 使用两个核心思想:

  • 一个自适应优化框架,从原始数据随着时间的推移建立并维护一组多维样本;
  • 一个动态样本选择策略,选择一个适当大小的示例基于查询的准确性和(或)响应时间需求。

我们已经使用了 TPC-H 基准测试来评估 BlinkDB 的性能,实际分析工作负载来自 Conviva Inc. 和在 Facebook Inc 的部署。

在 VLDB 2012 中,BlinkDB 演示了在 Amazon EC2 集群部署了 100 个节点,大约 17TB 的数据中查询不到 2 秒钟,比 Hive 快 200 倍,错误率在 2-10%。

  • 大小: 22.1 KB
分享到:
评论

相关推荐

    大规模并行查询引擎BlinkDB.zip

    BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间,其数据的精度被控制在允许的误差范围内。 为了达到这个目标,BlinkDB 使用两个核心思想:...

    大规模并行处理器编程实战

    本书《大规模并行处理器编程实战》由David B. Kirk与Wen-mei Hwu合著,陈曙晖翻译,是一本深入探讨如何利用GPU(图形处理单元)进行并行计算的实践性技术书籍。本书不仅向读者介绍了CUDA编程语言,还详细阐述了GPU的...

    大规模并行处理机的并行程序设计

    ### 大规模并行处理机的并行程序设计:核心知识点解析 #### 一、引言 大规模并行处理(Massively Parallel Processing, MPP)技术作为超级计算领域的重要研究方向,其特点是拥有数百至数千个处理器节点,通过特定...

    大规模并行计算

    大规模并行计算是指在单个计算任务中使用大量计算单元同时进行处理的技术,这能够显著提升计算速度并有效处理复杂问题。随着技术的进步,GPU(图形处理单元)因其高度并行的架构成为大规模并行计算的重要硬件资源。...

    DM7大规模并行处理MPP

    ### DM7大规模并行处理MPP 知识点解析 #### 一、引言与背景 达梦数据库的大规模并行处理MPP(DM Massively Parallel Processing,简称DM MPP)是一种高性能的数据处理架构,旨在解决传统单节点数据库在面对大规模...

    sqlserver之并行查询

    并行查询可以应用于大表的查询优化,例如连接查询、大量数据的聚合操作、大型结果集的重复排序等操作。在这些情况下,使用并行查询可以明显地提高数据库性能。 二、并行查询的使用方法 并行查询可以通过以下三个...

    cuda超大规模并行机制介绍(赵开勇和一个台湾人ppt)

    在处理大规模并行计算时,CUDA提供了CUDA CUB和Thrust等库,帮助简化并行算法的实现。这些库包含了一系列预先优化的模板类和函数,用于并行排序、查找、归约等常见操作,大大减少了程序员的工作量。 最后,CUDA的...

    大规模并行计算.docx

    大规模并行计算 大规模并行计算是计算机科学领域中的一种高性能计算技术,旨在解决大规模数据处理的问题。随着数据规模的不断增长,传统的串行计算方法已经无法满足实际需求,而大规模并行计算技术可以将计算任务...

    清华超大规模并行计算教程

    在“清华超大规模并行计算教程”中,重点讲述了如何利用显卡(GPU)来替代传统的CPU,进行大规模的数据并行计算。GPU(图形处理器)最初设计用于加速图形渲染,但近年来,由于其并行计算能力的强大,已被广泛应用于...

    大规模并行处理系统GreenplumDB.zip

    Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力...

    oracle并行查询优化

    并行查询是Oracle为了提高大规模数据处理能力而引入的一种机制。当执行一个查询时,Oracle可以将其拆分成多个部分,这些部分可以在不同的处理器上同时运行,从而加速查询的执行过程。并行查询涉及到的关键概念包括:...

    PostgreSQL9.6并行查询(中文)

    PostgreSQL可以制定哪些SQL可以并行利用CPU的查询规划,用于增快SQL查询的响应速度。这个特性以并行查询而为大众所知。有些查询不能够从并行查询之中获益,要么受限于当前的实现,要么由于并行查询并不比串行查询...

    达梦数据库DM8大规模并行处理MPP-D.docx

    达梦数据库DM8的大规模并行处理(MPP)系统是一种高效的数据处理架构,它旨在处理海量数据并提供高速的查询性能。该技术尤其适用于大数据分析、商业智能和企业级数据仓库等场景。本文档旨在为数据库管理员、开发...

    CUDA_超大规模并行程序设计(赵开勇)

    通过CUDA,科学家和工程师能够利用GPU的强大并行计算能力,大幅度提升计算效率,解决原本需要大量时间的计算问题。 总结来说,CUDA是一种强大的并行计算平台,它利用GPU的并行处理能力,为程序员提供了一种高效且...

    DM8大规模并行处理MPP.pdf

    - **并行执行引擎**:负责执行查询计划,协调各个节点的并行操作,合并最终结果。 - **分布式事务**:DM8支持分布式事务,保证跨节点操作的一致性和原子性。 - **负载均衡**:通过智能调度,确保数据处理负载在各...

    C++AMP用Visual C++ 加速大规模并行计算

    C++ AMP 并行计算,很好的一本书,中文版,想要学习并行计算的可以看看

Global site tag (gtag.js) - Google Analytics