`
yangyangmyself
  • 浏览: 233266 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Druid 大数据分析之概况

阅读更多
一、概述
    随着互联网快速发展,数据量增长快,达到TB、PB,以交通车流量为例,如湖南省每月的车辆流量至少达到4亿,这个数据量远不止如此。数据量如此大,如何满足后期分析,传统面向OLTP型数据库(ORACLE、MYSQL等)无法要求,渐渐开始转向OLAP,如GreenPlum等,虽然很多OLAP数据库吸收分布式计算思想,数据达到20亿以上后,进行Count、聚合等操作性能仍然达不到客户实时分析要求。

     虽然相关大数据框架及组件已经很流行:Hadoop(离线分析)、Spark、storm、Hive、Impala、Hbase等,Hadoop生态系统大庞大,Spark一站式安装部署,但是满足实时分析还需借助其它组件、开发要求很高。

    Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟问题,当时试图使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需要。而Druid提供了以交互方式访问数据的能力,并权衡了查询的灵活性和性能而采取了特殊的存储格式。

     如下图所示,类似基于时间序列的数据库系统,Druid今年排情况:



 

 

二、Druid 数据
     Druid是一个开源的数据存储设计的事件数据的OLAP查询,提供一个高层次的概述如何存储数据和Druid集群的体系结构。

     我们先看看示例数据:


 
     数据集由三个不同的组件组成:

     1. 时间序列化列:以时间序列进行数据分片,所有查询以时间为中心轴。
     
     2. 维度列:Druid基于列式存储,查询结果展示列,常用于数据过滤,如示例数据集有四个维度:出

                        版商,广告商,性别和国家。 

     3. 聚合列:通常用于计算值,操作方法如:COUNT、SUM等。   

 

三、Druid 聚合
   上述例子数据集中的单条信息作用不大,因为这样的数据万亿。然而这种类型的数据研究概述可以产生经济效益。Druid使用我们称之为“聚合”的过程对这些原始数据聚合操作,类似(伪代码)如下:

 

GROUP BY timestamp, publisher, advertiser, gender, country
  :: impressions = COUNT(1),  clicks = SUM(click),  revenue = SUM(price)

 

   在实践中我们看到聚合数据可以大大减少需要被存储的数据的大小(高达100倍)。减少存储确实是以成本为代价的,聚合数据后无法查询单个数据的能力;另一种解决方式减少聚合粒度,尽量满足查询数据的最小粒度。因此Druid通过queryGranularity方法(或属性granularity)定义这个粒度查询数据,最低支持为毫秒。

 通过上述伪代码聚合后的数据:


 

 

四、Druid 分片数据
 Druid的分片称之为Segment(即段),通常按时间对数据进行分片。如对示例数据进行压缩,我们可以创建两个段,按每小时分片。

  段是保存时间间隔内数据,段包含按列存储的数据以及这些列的索引,Druid查询索引扫描段。段由数据源、间隔、版本的唯一标识,和一个可选的分区号。段命名规范如:

datasource_interval_version_partitionnumber

例如:


 
 

 

五、Druid 索引数据
   Druid查询速度取决于如何存储数据。从搜索基础架构借用想法,Druid创建只读数据快照,查询分析存储在高度优化的数据结构。

    Druid是一个列存储,每列被单独存储。Druid查询相当好,是因为只查询所需的列。不同的列还可以采用不同的压缩方式,不同的列也可以有与它们相关的不同的索引。

   Druid 索引数据在数据分片级别上。

 

六、Druid 数据加载
   Druid有两方式获取数据,实时和批量,Druid实时获取很费劲,确切的说Druid不能保证实时获取。批量获取可以保证批量创建段及相应数据。Druid通常采用实时管道获取实时数据(最近数据),采用批管道获取副本数据。

 

七、Druid 数据查询
    Druid的本地查询语言是JSON通过HTTP,虽然社区在众多的语言中提供了查询库,包括SQL查询贡献库;Druid设计用于单表操作,目前不支持联接。许多产品准备在ETL集成,数据加载到Druid之前需要规范化。

 

八、Druid 集群
  Druid是由不同角色的系统构建而成的一个整体系统,它的名字来自在许多角色扮演游戏中的Druid类:它是一个shape-shifter,可以在一个群组中采取许多不同的形式来满足各种不同的角色。Druid的整体架构中目前包括以下节点类型:

   1. Historical 

   对“historical”数据(非实时)进行处理存储和查询的地方。historical节点响应从broker节点发来的查询,并将结果返回给broker节点。它们在Zookeeper的管理下提供服务,并使用Zookeeper监视信号加载或删除新数据段。

   2. Realtime

   实时摄取数据,它们负责监听输入数据流并让其在内部的Druid系统立即获取,Realtime节点同样只响应broker节点的查询请求,返回查询结果到broker节点。旧数据会被从Realtime节点转存至Historical节点。

   3. Coordinator

   监控historical节点组,以确保数据可用、可复制,并且在一般的“最佳”配置。它们通过从MySQL读取数据段的元数据信息,来决定哪些数据段应该在集群中被加载,使用Zookeeper来确定哪个historical节点存在,并且创建Zookeeper条目告诉historical节点加载和删除新数据段。

   4. Broker 

   接收来自外部客户端的查询,并将这些查询转发到Realtime和Historical节点。当Broker节点收到结果,它们将合并这些结果并将它们返回给调用者。由于了解拓扑,Broker节点使用Zookeeper来确定哪些Realtime和Historical节点的存在。

    5. Indexer

    节点会形成一个加载批处理和实时数据到系统中的集群,同时会对存储在系统中的数据变更(也称为索引服务)做出响应。这种分离让每个节点只关心自身的最优操作。通过将Historical和Realtime分离,将对进入系统的实时流数据监控和处理的内存分离。通过将Coordinator和Broker分离,把查询操作和维持集群上的“好的”数据分布的操作分离。

数据流和各个节点的关系如下图:



        相关节点和集群管理所依赖的其他组件(Zookeeper)如下:



  

  • 大小: 64.1 KB
  • 大小: 21.7 KB
  • 大小: 17.2 KB
  • 大小: 25.7 KB
  • 大小: 98.2 KB
  • 大小: 120.8 KB
分享到:
评论

相关推荐

    Druid实时大数据分析原理与实践__欧阳辰

    《Druid实时大数据分析原理与实践__欧阳辰》是一本深度探讨Druid系统在实时大数据分析领域的应用和技术细节的专业书籍。Druid作为一个高效、可扩展的开源数据存储和查询引擎,广泛应用于在线分析处理(OLAP)场景,...

    druid数据分析原理与实践

    《Druid数据分析原理与实践》一书主要涵盖了Druid这一高效大数据分析组件的详细知识,由欧阳辰撰写,是理解数据仓库架构的重要参考资料。Druid以其实时性、高可用性和可扩展性在大数据处理领域备受青睐,尤其适用于...

    Druid实时大数据分析:原理与实践

    Druid实时大数据分析:原理与实践

    druid多维数据分析 .pptx

    - **Hadoop时代的挑战**:随着Hadoop成为大数据处理的标准,传统OLAP引擎在大规模数据处理方面显得力不从心,特别是在数据导入导出方面存在局限性。 #### 四、Druid:实时多维数据分析的解决方案 - **Druid简介*...

    Druid实时大数据分析原理

    Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,Druid仍能够保持...

    Druid实时大数据分析

    Druid实时大数据分析,主要讲的是Druid的使用以及Druid如何与其他大数据插件之间关系

    druid 源码分析 逐层详解

    标题所指的知识点为“Druid 源码分析 逐层详解”,意味着我们需要深入分析Druid这一开源数据处理工具的源码,并从不同的层面揭示其内部实现机制。 首先,我们来看Druid的构架设计。Druid采用了分层的架构,每个层次...

    大数据 欧阳辰-实时大数据分析之利器Druid

    它最初用于广告分析和程序化分析场景,经过多年的迭代和优化,已经发展成为一个成熟的实时大数据分析平台。目前,Druid拥有超过150位贡献者,并广泛应用于多个行业和领域。例如,品友互动每天处理300亿事件,Jolata...

    SpringBoot整合JDBC&Druid;数据源示例

    在本文中,我们将深入探讨如何在SpringBoot项目中整合JDBC和Druid数据源,并创建一个具有监控功能的示例。SpringBoot以其简洁的配置和快速的开发能力,深受Java开发者喜爱。而Druid作为一款优秀的数据库连接池,提供...

    Druid数据源操作指南

    * 适用于需要监控和扩展功能的应用场景,例如数据分析、数据挖掘等。 Druid 的下载地址: * Maven 中央仓库:http://central.maven.org/maven2/com/alibaba/druid/ * GitHub:https://github.com/alibaba/druid * ...

    Druid实时大数据分析原理与实践(欧阳辰)

    Druid 是一个分布式的、支持实时多维OLAP分析的数据处理系统。它既支持高速的数据实时摄入处理,也支持实时且灵活的多维数据分析查询。因此Druid最常用的场景就是大数据背景下、灵活快速的多维OLAP分析。 另外,...

    Storm整合Druid进行实时分析源码

    在大数据处理领域,Apache Storm和Druid是两个重要的工具。Storm是一个开源的分布式实时计算系统,它可以持续处理数据流,确保每个消息只被处理一次,适用于实时数据分析和事件驱动的应用。而Druid则是一个高性能、...

    Druid数据源配置监控页面(Demo)

    在本文中,我们将深入探讨如何在SpringBoot项目中配置并使用Druid数据源监控页面。Druid是一个功能强大的数据库连接池,它提供了丰富的监控和管理功能,有助于优化数据库操作和性能。SpringBoot作为轻量级的Java框架...

    SpringBoot+druid+多数据源示例

    本示例将详细讲解如何在SpringBoot项目中集成Druid并实现多数据源的自动切换。 首先,我们需要理解多数据源的概念。多数据源意味着应用程序可以同时连接和操作多个不同的数据库,这对于数据分层、高可用性和分布式...

    Springboot+Mybatis+Druid多数据源配置

    本教程将围绕"Springboot+Mybatis+Druid多数据源配置"这一主题,详细介绍如何实现这一功能。 首先,Spring Boot简化了Spring应用的初始化和配置。在多数据源场景下,我们可以通过Spring Boot的@...

    Springboot Druid多数据源 多线程

    在实际应用中,多数据源和多线程的组合常常用于大数据处理、分布式系统以及需要跨数据库操作的场景。例如,一个电商系统可能需要同时使用MySQL存储用户信息,而Oracle用于订单和库存管理。通过Druid的监控和多线程...

    理“ Druid 元数据”之乱.doc

    【Druid元数据详解】 Druid是一个高性能的数据存储和分析系统,特别适合处理大规模的数据集。...通过深入研究Druid的元数据结构和管理机制,我们可以更好地设计和维护Druid系统,以满足复杂的大数据处理需求。

    spring boot 整合mybtis druid 多数据源 源代码

    在现代企业级应用开发中,数据源管理是一个关键部分,特别是在大数据量和高并发的场景下。Spring Boot、MyBatis和Druid是常见的Java Web开发框架和组件,它们能够帮助开发者高效地处理数据库交互。本项目展示了如何...

Global site tag (gtag.js) - Google Analytics