`
duwu
  • 浏览: 273 次
  • 性别: Icon_minigender_2
  • 来自: 上海
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

从Kudu开始对快速数据执行快速分析

阅读更多
Getting Started with Kudu: Perform Fast Analytics on Fast Data
从Kudu开始对快速数据执行快速分析

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, and Ryan Bosshart
让-马克·斯帕加里、姆拉登·科瓦切维奇、布洛克·达拉和瑞安·博哈特

Dedication
献词

To all those data people who day-in and day-out lead hair-pulling, brain-teasing, late-night lives architecting, developing, or consulting on software that appears to have gone rogue and deliberately misbehaves.
致所有这些数据人,日复一日的抓头发、虐大脑、深夜设计,在软件上进行架构设计、开发或咨询,而这些软件看起来已经变得不正常并故意表现不良。

To our families, who may not even care about technology, yet still allowed us to give up time and energy to dedicate to this project with an enormous amount of patience and support, without which none of this was possible. We love you!
对我们的家庭,他们可能甚至不关心技术,但仍然允许我们放弃时间和精力,以极大的耐心和支持致力于这个项目,没有他们,这一切都是不可能的。我们爱你!

Preface
前言

Choosing a storage engine is one of the most important decisions anyone embarking on a big data project makes and is one of the most expensive to change. Apache Kudu is an entirely new storage manager for the Hadoop ecosystem. Its flexibility makes applications faster to build and easier to maintain. As a Hadoop developer, Kudu is a critical skill in your big data toolbox. It addresses common problems in big data that are difficult or impossible to implement on current generation Hadoop storage technologies.
选择存储引擎是任何着手大数据项目的人做出的最重要的决定之一,也是最昂贵的改变之一。Apache Kudu是Hadoop生态系统的全新存储管理器。它的灵活性使应用程序更容易构建和维护。作为一名Hadoop开发人员,Kudu是大数据工具箱中的一项关键技能。它解决了大数据中的常见问题,这些问题在当前一代Hadoop存储技术上很难或不可能实现。

In this book, you will learn key concepts of Kudu’s design and how to architect applications against it, resulting in Kudu applications that are fast, scalable, and reliable. Through hands-on examples, you will learn how Kudu integrates with
other Hadoop ecosystem components like Apache Spark, SparkSQL, and Impala.
在这本书里,你将学习Kudu设计的关键概念,以及如何根据它设计应用程序,从而使Kudu应用程序快速、可伸缩、可靠。通过实际操作的例子,您将了解到Kudu如何与其他Hadoop生态系统组件集成,如Apache Spark、SparkSQL和Impala。

This book assumes some limited experience with Hadoop ecosystem components like HDFS, Hive, Spark, or Impala. Basic programming experience using Java and/or Scala, experience with SQL and traditional RDBMS systems, and familiarity with the Linux shell is also assumed.
这本书假定您具备一些关于Hadoop生态系统组件的有限经验,如HDFS、Hive、Spark或Impala。还需要具备使用Java和/或Scala的基本编程经验、使用SQL和传统关系数据库管理系统的经验,以及熟悉Linux shell。
分享到:
评论

相关推荐

    网易视频云:Kudu,支持快速分析新型Hadoop存储系统.docx

    Kudu是Cloudera推出的一款开源的新型列式存储系统,旨在解决Apache Hadoop生态系统中快速数据分析的挑战。Kudu是为填补Hadoop存储层中快速变化数据处理的空白而设计的,它能够提供快速的分析能力和实时计算性能。...

    kudu安装包

    8. **查询与分析**:通过SQL查询或者编程接口对数据进行查询和分析,利用Kudu的高性能特性。 9. **备份与恢复**:定期备份Kudu的数据,以便在必要时进行数据恢复。 通过以上步骤,你可以成功部署并运行Apache Kudu...

    CDH 之 Kudu

    Kudu 能够高效地支持实时分析场景,特别是在对时间序列数据、物联网数据等进行快速读写时表现出色。 #### Kudu 与 Impala 集成 Kudu 与 Cloudera 的另一个重要组件 Impala 的集成使得用户能够通过 SQL 查询语言...

    kudu_1.13.tgz

    Kudu,作为一款由Cloudera开发的分布式存储系统,被广泛应用于实时分析和大数据处理场景。Kudu 1.13版本的发布,带来了性能优化、稳定性提升以及一些新功能的引入,使得数据处理能力更上一层楼。本篇文章将详细介绍...

    kudu-rpm-6个.zip

    Kudu能够与Hadoop生态系统无缝集成,比如与HDFS和HBase协同工作,提供对大规模数据的实时访问。而Spark作为流行的分布式计算框架,可以与Kudu结合,实现高效的批处理和流处理任务,提高数据分析的效率。 总之,Kudu...

    kudu1.15.zip

    Kudu是一款由Cloudera公司开发的开源数据存储系统,它提供了低延迟的在线事务处理(OLTP)能力,并支持实时分析(OLAP)。Kudu的设计目标是为现代大数据工作负载提供高性能、高可用性和可扩展性。本文将详细讲解如何...

    Apache Kudu在网易实时数仓的实践&mdash.pdf

    Kudu设计的核心特性使其非常适合处理大量实时数据,提供低延迟和高吞吐量的读写操作,以及对快速数据进行快速分析。 1. 列式存储引擎:Kudu采用了列式存储方式,这使得数据分析效率显著提高,因为列式存储允许只...

    Kudu- Storage for Fast Analytics on Fast Data

    Kudu(读音为“库杜”)是一个开源的...由于Kudu的这些特性,使得其成为处理高速数据和执行快速分析的理想选择。无论是企业还是个人,都可以利用Kudu强大的存储和分析能力,构建出更加强大高效的数据处理和分析系统。

    kudu-1.7.0+cdh5.15.1安装包

    例如,互联网广告系统可以利用Kudu的实时更新能力,对用户行为数据进行实时分析,从而实现精准推送;物联网(IoT)设备产生的大量实时数据也可以通过Kudu进行快速存储和分析,提升响应速度。 总结,Kudu作为一款强大...

    kudu1.14.tar.gz

    Kudu,作为一款开源的分布式存储系统,由Cloudera公司开发,旨在提供快速的在线分析处理(OLAP)和实时写入能力,广泛应用于大数据领域的实时数据仓库和流处理应用。在Kudu 1.14版本中,我们看到了一些关键的改进和...

    Kudu分布式存储引擎视频教程

    Kudu是Apache软件基金会下的一个开源项目,...无论是数据分析工程师还是运维人员,都能从中受益,提升对Kudu的理解和应用能力。附带的代码和课件将加深理论知识的理解,帮助您在实践中掌握Kudu分布式存储引擎的精髓。

    Apache Kudu在网易实时数仓的实践.pptx

    Apache Kudu是Apache软件基金会管理的一个开源存储系统,专门设计用于支持快速数据分析(Fast Analytics on Fast Data)。在网易的实时数仓实践中,Kudu扮演了关键角色,提供了低延迟和高吞吐量的数据读写能力,使其...

    apache Kudu 论文

    起初,项目的目标是对HBase进行改造以支持大规模数据更新操作,但由于涉及到的代码修改过于庞大且复杂,最终决定从零开始构建一个新的存储引擎——Kudu。自2015年开源以来,Kudu经历了快速的发展,至今已更新至1.10...

    Apache Kudu 介绍

    Apache Kudu 是一个高性能的数据存储系统,专门设计用于大数据环境中的实时分析场景。Kudu 的出现旨在解决传统的大数据存储方案(如 HBase 和 Parquet)在随机读写性能上的不足,并且能够很好地与现有的 Hadoop 生态...

    构建近实时分析系统.pdf.zip

    通过将Kudu集成到Hadoop生态系统中,可以弥补这一不足,实现快速的数据分析。 Impala是一款由Cloudera开发的MPP(Massively Parallel Processing)查询引擎,它可以无缝对接Hadoop和Kudu,提供亚秒级的查询速度。...

    构建近实时分析系统

    - **对变化中数据的快速响应**:企业在面对海量数据时,不仅需要处理历史数据,还需要对实时数据进行高效分析。 - **技术挑战**:传统Lambda架构虽然可以解决部分问题,但在处理实时数据时仍然存在延迟较高、架构...

    基于 Impala 构建实时用户行为分析引擎.pdf

    《基于Impala构建实时用户行为分析引擎》及《开源大数据分析引擎Impala实战》这两份文档,深入探讨了Impala在大数据分析领域的应用,特别是如何利用Impala来实现实时用户行为分析。Impala,全称为Interactive Query ...

    REDHAT7.2 安装 CDH5.10 和 Kudu1.2

    Kudu是一个为了快速分析和低延迟处理而设计的大规模数据存储。首先需要安装csd文件,这些文件是Cloudera特定的扩展,用于安装Kudu服务。随后,安装Kudu服务,并对Impala进行配置,以确保能够使用Kudu。 在集群安装...

    分析型数据仓库中读写分离的实现.pdf

    随着大数据时代的到来,企业对数据处理的需求日益增长,特别是对于数据分析的速度和灵活性提出了更高的要求。传统的关系型数据库如MySQL虽然在事务处理方面表现优异,但在面对海量数据分析时显得力不从心。相比之下...

    王雨舟-Druid分析平台实践

    例如,使用Kafka作为消息队列,Spark Streaming作为实时数据处理工具,Sqoop和Mysql进行批量数据的导入,还有Hive来执行批处理分析。 4. Druid的数据模型和查询功能:文中提及了对用户属性的跟踪和定位,包括client...

Global site tag (gtag.js) - Google Analytics