Cloudera Impala架构设计要点 -

kavy

浏览: 901722 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Cloudera Impala架构设计要点

博客分类：

大数据

http://shiyanjun.cn/archives/507.html

我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。但是如果在一些实时性要求相对较高的应用场景中，哪怕处理时间能够在原有的基础有大幅度地减少，也能很好地提升用户体验。对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。
Impala是Cloudera开发的一款用来进行大数据实时查询分析的开源工具，它能够实现通过我们熟悉的传统关系数据库的SQL风格来操作大数据，数据可以是存储到HDFS或HBase中的。
下面，我们从不同的角度来认识和理解Cloudera Impala：

设计目标

官网给出的介绍是，使用Impala来实现SQL on Hadoop，实现对海量数据的实时查询分析，它的优势有如下几点：

快速

可以方便地执行SQL语句，在数秒内返回查询分析结果。
这一点，其实还要依赖于你在HDFS或HBase上存储的数据的规模，依赖于你对Impala系统的配置调优情况，可能还依赖于你写的SQL语句的执行效率。

灵活

可以直接查询存储在HDFS上的原生数据，也可以查询经过优化设计而存储的数据，只要数据的格式它们能够兼容MapReduce、Hive、Pig等等。

整合&开放

可以非常容易地与Hadoop系统整合，并使用Hadoop生态系统的资源和优势，也不需要将数据迁移到特定的存储系统就能满足查询分析的要求。

可伸缩性

可以很好地与一些BI应用系统协同工作，如Microstrategy、Tableau、Qlikview，等等。

支持特性

Impala支持的特性，主要包括如下几点：

对 ANSI-92 SQL标准的支持

Impala支持ANSI-92 SQL所有子集，包括CREATE、ALTER、SELECT、INSERT、JOIN、GROUP BY以及子查询。它还支持分区JOIN、常用的聚合函数（SUM、COUNT、MAX、MIN、AVG等等）、topN查询。你使用这些语句时，可以像使用关系数据库中使用的SQL语句一样去设计，很容易上手。

数据来源与数据格式

Impala可以操作HDFS、HBase中存储的数据，支持如下HDFS的支持文件格式：Text file、SequenceFile、RCFile、Avro file、Parquet，支持的压缩格式有：Snappy、GZIP、Deflate、BZIP，其中Snappy压缩格式的性能更好一些。

支持的数据访问接口

主要包括Hive所支持的如下接口：JDBC Driver、ODBC Driver、Hue Beeswax、Cloudera Impala Query UI.，另外，还可以通过CLI接口（也就是Impala Shell）访问。

架构设计要点

Impala的架构设计视图，如图所示：
Impala Architecture
上面可以看出，位于Datanode上的每个impalad进程，都具有Query Planner、Query Coordinator、Query Exec Engine这几个组件，每个Impala节点在功能集合上是对等的，也就是说，任何一个节点都能接收外部查询请求。当有一个节点发生故障后，其他节点仍然能够接管，这还要得益于，在HDFS上，数据的副本是冗余的，只要数据能够取到，某些挂掉的impalad进程所在节点的数据，在整个HDFS中只要还存在副本（impalad进程正常的节点），还是可以提供计算的。除非，当多个impalad进程挂掉了，恰好此时的查询请求要操作的数据所在的节点，都没有存在impalad进程，这是肯定是无法计算了。
Cloudera Impala在实际应用场景中所处的位置，如图所示：
Impala Position
上图展示了Impala方案的相关的各种组件，简单说明如下：

客户端

有三类客户端可以与Impala进行交互：基于驱动程序的客户端（ODBC Driver和JDBC Driver，其中JDBC Driver支持Hive1与Hive2风格的驱动形式）；Hue接口，可以通过Hue Beeswax接口来与Impala进行交互；Impala Shell命令行接口，类似关系数据库提供一些命令行即可，可以直接使用SQL语句与Impala交互。

Hive Metastore

Impala使用Hive Metastore来存储一些元数据，为Impala所使用，通过存储的元数据，Impala可以更好地知道整个集群中数据以及节点的状态，从而实现集群并行计算，对外部提供查询分析服务。

Cloudera Impala

Impala会在HDFS集群的Datanode上启动进程，协调位于集群上的多个Impala进程（impalad），以及执行查询。在Impala架构中，每个Impala节点都可以接收来自客户端的查询请求，然后负责解析查询，生成查询计划，并进行优化，协调查询请求在其他的多个Impala节点上并行执行，最后有负责接收查询请求的Impala节点来汇总结果，响应客户端。

HBase和HDFS

HBase和HDFS存储着实际需要查询的大数据。

总结

Cloudera官网所言，使用Impala比使用Hive能提高3~90的效率，我们可以参考Cloudera的官网博客。我相信，使用Impala比使用Hive能大大提升计算性能，这是真实的。Impala从发布到现在也不过一年左右时间，它还在发展之中，能有这样的表现我还是感觉很欣慰，至少让我们看到了一些商业系统能够实现的功能已经在开源项目中落地。
在我们使用Impala的过程中，我总结一下遇到的相关问题：

SQL解析

我发现Impala目前在SQL解析方面还有优化的余地，当前的问题，一个是SQL解析速度很慢，另一个是如果SQL比较复杂的话存在硬解析的问题，非常耗时。虽然和现在更加成熟的关系数据库Oracle、MySQL等还有一定差距，但是我相信这些只是时间问题。

稳定性

可能是因为依赖于Hive的原因，通过Thrift接口来与后端进行交互，并发性比较差。当并发稍微高一点点的时候，就会出现impalad进程挂掉的问题，有时候可能还会出现类似的僵尸进程。

参考链接

Impala与HBase整合实践

分享到：

2015-06-30 14:40
浏览 1068
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于 Impala 构建实时用户行为分析引擎: Impala架构及特性 - **MPP架构**：Impala采用了MPP架构设计，能够在多个节点上并行执行查询任务，显著提高查询效率。 - **实时查询能力**：Impala可以直接查询HDFS或HBase中的数据，无需导入到专门的数据库中，...

构建近实时分析系统: **Impala** 是 Cloudera 推出的一款开源的分布式 SQL 查询引擎，其特点是能够以近实时的速度执行 SQL 查询，特别适合用于 OLAP 场景。Impala 直接运行在 HDFS 或 Kudu 上，无需中间层，提供了高性能的查询体验。 **...

Hadoop技术选型分析报告V4.0.pdf: 7. 注意事项：在选型和部署Hadoop时，需要关注的其他要点和最佳实践。以上知识点概括了Hadoop技术选型分析报告的主要内容，涉及Hadoop的基础架构、核心组件、不同Hadoop产品对比以及使用场景推荐，为大数据环境下...

大数据开发资源.docx: - **学习目标**：熟悉ETL（Extract, Transform, Load）流程，掌握数据抽取、清洗、转换及加载的技术要点。 - **学习途径**：参考专业书籍和实践项目。 #### 三、数据管理与查询 **3.1 数据仓库体系** - **学习...

OFDM、OOK、PPM、QAM 的误码率模拟【绘制不同调制方案的误码率曲线】附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

8c71b76fb2ec10cf50fc6b0308d3dcfc_9545878e2b97a84b2e089ece58da9e82.png: 8c71b76fb2ec10cf50fc6b0308d3dcfc_9545878e2b97a84b2e089ece58da9e82

Android SO逆向-对象的拷贝构造函数.pdf: Android逆向过程学习

基于S7-200 PLC的糖果包装控制系统设计与实现: 内容概要：本文详细介绍了基于西门子S7-200 PLC的糖果包装控制系统的设计与实现。首先阐述了PLC在工业自动化领域的优势及其在糖果包装生产线中的重要性。接着深入探讨了系统的硬件连接方式，包括传感器、执行机构与PLC的具体接口配置。随后展示了关键的编程实现部分，如糖果计数、包装执行、送膜控制、称重判断以及热封温度控制等具体梯形图代码片段。此外，还分享了一些实用的经验技巧，如防止信号抖动、PID参数优化、故障诊断方法等。最后总结了该系统的优势，强调其对提高生产效率和产品质量的重要作用。适合人群：从事工业自动化控制、PLC编程的技术人员，尤其是对小型PLC系统感兴趣的工程师。使用场景及目标：适用于糖果制造企业，旨在提升包装生产线的自动化程度，确保高效稳定的生产过程，同时降低维护成本并提高产品一致性。其他说明：文中不仅提供了详细的理论讲解和技术指导，还结合实际案例进行了经验分享，有助于读者更好地理解和掌握相关知识。

PLC与WinCC实现三部十层电梯协同控制及优化技巧: 内容概要：本文详细介绍了参与西门子杯比赛中关于三部十层电梯系统的博图V15.1程序设计及其WinCC画面展示的内容。文中不仅展示了电梯系统的基本架构，如抢单逻辑、方向决策、状态机管理等核心算法（采用SCL语言编写），还分享了许多实际调试过程中遇到的问题及解决方案，例如未初始化变量导致的异常行为、状态机遗漏空闲状态、WinCC画面动态显示的挑战以及通信配置中的ASCII码解析错误等问题。此外，作者还特别提到一些创意性的设计，如电梯同时到达同一层时楼层显示器变为闪烁爱心的效果，以及节能模式下电梯自动停靠中间楼层的功能。适合人群：对PLC编程、工业自动化控制、电梯调度算法感兴趣的工程技术人员，尤其是准备参加类似竞赛的学生和技术爱好者。使用场景及目标：适用于希望深入了解PLC编程实践、掌握电梯群控系统的设计思路和技术要点的人士。通过学习本文可以更好地理解如何利用PLC进行复杂的机电一体化项目的开发，提高解决实际问题的能力。其他说明：文章风格幽默诙谐，将严肃的技术话题融入轻松的生活化比喻之中，使得原本枯燥的专业知识变得生动有趣。同时，文中提供的经验教训对于从事相关领域的工作者来说非常宝贵，能够帮助他们少走弯路并激发更多创新思维。

慧荣量产工具合集.zip: 慧荣量产工具合集.zip

永磁同步电机FOC控制与SVPWM算法仿真模型解析: 内容概要：本文详细介绍了永磁同步电机（PMSM）的FOC（磁场定向控制）和SVPWM（空间矢量脉宽调制）算法的仿真模型。首先解释了FOC的基本原理及其核心的坐标变换（Clark变换和Park变换），并给出了相应的Python代码实现。接下来探讨了SVPWM算法的工作机制，包括扇区判断和占空比计算的方法。此外，文章还讨论了电机的PI双闭环控制结构，即速度环和电流环的设计与实现。文中不仅提供了详细的理论背景，还分享了一些实用的编程技巧和注意事项，帮助读者更好地理解和应用这些算法。适合人群：电气工程专业学生、从事电机控制系统开发的技术人员以及对永磁同步电机控制感兴趣的科研人员。使用场景及目标：① 学习和掌握永磁同步电机的FOC控制和SVPWM算法的具体实现；② 提供丰富的代码示例和实践经验，便于快速搭建和调试仿真模型；③ 探讨不同参数设置对电机性能的影响，提高系统的稳定性和效率。其他说明：文章强调了在实际应用中需要注意的一些细节问题，如坐标变换中的系数选择、SVPWM算法中的扇区判断优化以及PI控制器的参数调整等。同时，鼓励读者通过动手实验来加深对各个模块的理解。

spring-ai-qianfan-1.0.0-M5.jar中文文档.zip: # 压缩文件中包含：中文文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

Android安全之旅系列博客导读.pdf: Android逆向过程学习

【图像处理】基于双目视觉的物体体积测量算法研究附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

3dmax插件按面积分离.ms: 3dmax插件

spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar中文文档.zip: # 【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar中文文档.zip】中包含：中文文档：【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar中文文档.zip,java,spring-ai-autoconfigure-vector-store-qdrant-1.0.0-M7.jar,org.springframework.ai,spring-ai-autoconfigure-vector-store-qdrant,1.0.0-M7,org.springframework.ai.vectorstore.qdr

【ARIMA-WOA-LSTM】差分自回归移动平均方法-鲸鱼优化算法-LSTM预测研究附python代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

永磁同步电机控制系统中平方根容积卡尔曼滤波(SRCKF)的应用及优化: 内容概要：本文详细介绍了平方根容积卡尔曼滤波(SRCKF)在永磁同步电机(PMSM)控制系统中的应用及其相对于传统CKF的优势。文章首先指出传统CKF在处理协方差矩阵时存在的数值不稳定性和非正定问题，导致系统性能下降。接着，作者通过引入SRCKF，利用Cholesky分解和QR分解来确保协方差矩阵的正定性，从而提高状态估计的精度和稳定性。文中展示了具体的电机模型和状态方程，并提供了详细的代码实现，包括状态预测、容积点生成以及观测更新等关键步骤。此外，文章还分享了实际调试过程中遇到的问题及解决方案，如选择合适的矩阵分解库和处理电机参数敏感性。最终，通过实验数据对比，证明了SRCKF在突加负载情况下的优越表现。适合人群：从事永磁同步电机控制研究的技术人员、研究生及以上学历的研究者。使用场景及目标：适用于需要高精度状态估计的永磁同步电机控制系统的设计与优化，特别是在处理非线性问题和提高数值稳定性方面。其他说明：文章引用了相关领域的权威文献，如Arasaratnam的TAC论文和Zhong的《PMSM无传感器控制综述》，并强调了实际工程实践中代码调试的重要性。

tokenizers-0.31.1.jar中文文档.zip: # 【tokenizers-***.jar***文档.zip】中包含： ***文档：【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【tokenizers-***.jar***文档.zip】，再解压其中的【tokenizers-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package（包）： ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class（类）： ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

3.png: 3

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Cloudera Impala架构设计要点

相关文章

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Cloudera Impala架构设计要点

相关文章

评论

发表评论

相关推荐

RocksDB数据库简介及使用分享

你用过Excel，却不知还有一款神器“FineReport”

Redis底部的几种存储结构（sds、dict、ziplist、intset、skiplist）

Structured Streaming + Kafka 集成 + Redis管理Offset（Kafka broker version 0.10.0 or h

LibSVM文件转换为csv格式

生成libSVM的数据格式及使用方法总结

hadoop、hbase、spark环境变量配置

本地文件上传hadoop再导入hbase

spark 将DataFrame所有的列类型改为double

spark– 如何定义DataFrame的分区？

Spark 创建RDD、DataFrame各种情况的默认分区数

spark的JDBC连接池（Scala版）

Spark中foreachRDD、foreachPartition和foreach

Spark读写Phoenix

HBase读写的几种方式（三）flink篇

HBase读写的几种方式（一）java篇

HBase读写的几种方式（二）spark篇

Hive教程

StructuredStreaming消费kafka的数据案例

理解Spark中Job-Stage-Task之间的关系

最近访客更多访客>>