`
gaojingsong
  • 浏览: 1183063 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

大数据之Presto 介绍

阅读更多

一、PRESTO是什么

Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。

Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。

 

 

二、PRESTO可以做什么

Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。

Presto以分析师的需求作为目标,他们期望响应时间小于1秒到几分钟。 Presto终结了数据分析的两难选择,要么使用速度快的昂贵的商业方案,要么使用消耗大量硬件的慢速的“免费”方案。

 

三、PRESTO运行原理

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker。



 

四、谁在使用PRESTO

Facebook使用Presto进行交互式查询,用于多个内部数据存储,包括300PB的数据仓库。 每天有1000多名Facebook员工使用Presto,执行查询次数超过30000次,扫描数据总量超过1PB。

领先的互联网公司包括Airbnb和Dropbox都在使用Presto。

 

Presto令人吃惊。 首席工程师Andy Kramolisch刚在生产环境使用了几天。 在大多数情况下它比Hive快几个数量级。 与Redshift不同,它直接从HDFS读取数据,在使用前不需要大量的ETL操作,就可以工作。

                                       ---------Christopher Gutierrez, 在线分析经理, Airbnb

我们对Presto感到非常兴奋。 我们打算用它快速获取用户使用Dropbox的不同方式,以及诊断他们遇到的问题。 在我们目前的测试中,它应用于某些最重要的特别用例,它表现稳定并且非常快。

                                       -----------Fred Wulff, 软件工程师, Dropbox

  • 大小: 32.9 KB
0
0
分享到:
评论

相关推荐

    尚硅谷大数据技术之Presto1

    尚硅谷大数据技术之 Presto Presto 是一个开源的分布式 SQL 查询引擎,适用于交互式分析查询,数据量支持 GB 到 PB 字节。Presto 的设计和编写完全是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理...

    Presto大数据查询引擎是用于大数据的分布式SQL查询引擎

    Presto大数据查询引擎环境要求: Mac OS X或Linux Java 8 Update 151或更高版本(8u151 +),64位。支持Oracle JDK和OpenJDK。 Maven 3.3.9+(用于建筑) Python 2.4+(用于与启动脚本一起运行) Presto大数据查询...

    大数据项目之电商数仓(4即席查询数据仓库).docx

    本文档是关于大数据项目之电商数仓的详细介绍,特别是关于Presto即席查询数据仓库的设计和实现。下面是从标题、描述、标签和部分内容中提炼出的知识点: Presto 概念 Presto 是一种开源的分布式SQL查询引擎,能够...

    大数据项目之电商数仓(5即席查询Presto&Kylin)V4.0.docx

    【大数据项目之电商数仓(5即席查询Presto&Kylin)V4.0】 在大数据领域,为了高效地处理和分析海量数据,即席查询系统扮演着至关重要的角色。本篇主要讨论两个流行的即席查询工具——Presto和Kylin,它们在电商数仓...

    Facebook 内部高效工作 PPT 指南

    ### Facebook内部高效工作PPT指南知识点详述 #### 一、时间管理的核心原则 1. **时间优先**:认识到时间的不可再生性,因此应当优先安排最重要的任务。 2. **有限工作时间**:建议每天仅规划4~5小时的高质量工作...

    尚硅谷大数据项目之电商数仓用户行为采集平台1

    【尚硅谷大数据项目之电商数仓用户行为采集平台1】是一个综合性的教程,旨在教授如何构建一个电商领域的数据仓库,特别关注用户行为数据的采集。本项目涵盖了从数据仓库的基本概念到具体实施的各个阶段,包括项目...

    presto, 分布式大数据SQL查询引擎,适用于交互式分析查询.zip

    Presto的核心优势在于其在大数据领域的灵活性和可扩展性,它能够整合多种数据源,如Hadoop HDFS、Amazon S3、Cassandra、MySQL等,允许用户在一个统一的接口下进行多源查询。 1. 开源特性:Presto是一个开源项目,...

    《大数据之路:阿里巴巴大数据实践》

    《大数据之路:阿里巴巴大数据实践》这本书是阿里巴巴集团在大数据领域的实践经验总结,涵盖了大数据技术的各个方面,包括数据采集、存储、处理、分析以及应用等环节。本文将深入探讨书中的核心知识点,旨在帮助读者...

    分布式大数据SQL查询引擎-Presto-0.229

    本资源是基于Presto官网0.229版本扩展了Oracle Connector功能编译而来的部署包。 服务端启动命令 非后台运行模式 cd presto-server-0.229 ./presto-run.sh 后台运行模式 cd presto-server-0.229 ./presto-...

    presto oracleplugin的jar包

    4. **分区和分片**:为了高效处理大数据,Presto支持分区和分片的概念。OraclePlugin根据Oracle表的结构和配置,将数据分成多个分区和分片,以便在工作节点上并行处理。 5. **SQL兼容性**:OraclePlugin尽可能地...

    大数据项目之电商数仓(5即席查询Presto&Kylin)V4.0.zip

    总的来说,"大数据项目之电商数仓(5即席查询Presto&Kylin)V4.0"是一个全面展示如何利用现代大数据技术提升数据分析能力的实例。通过深入了解Presto和Kylin的工作原理及其在实际项目中的应用,我们可以更好地理解和...

    Presto介绍、原理、安装使用

    ### Presto介绍、原理、安装使用 #### 一、Presto介绍 Presto是一款高性能的开源分布式SQL查询引擎,适用于对大规模数据集进行快速分析。它支持多种数据源,如Hive、Cassandra、PostgreSQL、Kafka、MySQL、Elastic...

    archive_ Presto大数据查询引擎 v0.28.0 [江西新余电信].zip.zip

    2. **文档**:官方文档通常会详细介绍如何安装、配置和使用Presto,包括配置文件的解释、SQL语法、最佳实践等。 3. **示例**:可能包含示例查询和数据,帮助用户快速上手Presto,理解其查询性能和功能。 4. **构建...

    Hadoop当下最简洁的大数据各种技术介绍与总结.docx

    本文详细介绍了大数据的发展历程及其核心概念,并对大数据平台的通用架构进行了阐述。从数据仓库到Hadoop,再到数据湖、大数据平台以及数据中台,每一次技术进步都标志着数据处理能力的重大飞跃。对于企业和个人而言...

    Java_Presto大数据分布式SQL查询引擎的官方主页.zip

    通过了解以上知识点,我们可以更好地理解和使用Presto这个强大的大数据查询工具。对于那些需要处理大量数据的企业或开发团队来说,Presto是一个值得考虑的选择。通过深入研究Presto的官方文档,开发者可以进一步掌握...

    ranger-2.0.0-presto-plugin.tar.gz

    Apache Ranger 是一个强大的安全框架,主要用于管理大数据生态系统中的访问控制和策略管理。它支持多种数据存储和服务,包括Hadoop、Hive、Kafka等,并且Ranger也提供了对Presto的支持。在本案例中,"ranger-2.0.0-...

    JD-Presto广州之行

    Presto是一款由Facebook在2012年秋天启动研发的大数据查询引擎,它能够对300PB以上的数据进行快速交互式的查询分析。这款工具一经推出便受到广泛关注,每天有超过1000名Facebook员工使用Presto来执行超过30000个查询...

    hive 和 presto sql的对比

    Hive和Presto SQL是两种广泛用于大数据处理的查询语言,它们在SQL语法和功能上有一定的相似性,但也存在明显的差异。以下是对这两者在常见函数使用、陷阱和特定...理解这些差异有助于优化大数据查询的效率和准确性。

    presto-hive-0.67.zip

    《Presto:开源大数据SQL查询引擎的探索与实践》 在大数据领域,Presto是一个备受关注的开源项目,其主要功能是提供一个高效、分布式的大数据SQL查询引擎。标题中的"presto-hive-0.67.zip"表明我们讨论的是Presto的...

Global site tag (gtag.js) - Google Analytics