Drill:大数据的交互式分析
简介
Dril是开源世界中“交互式”的数据分析系统。目标是可以组建超过10000台机器的集群,并且可以在秒级处理PB级别或者万亿条数据。Hadoop作为大数据处理的事实标准,设计目标是实现大数据处理的高吞吐量。MapReduce处理一个数据,需要分钟级的时间。而业界对交互式的低延迟的数据分析和挖掘提出了新的需求,Google的Dremel希望将处理时间缩短到秒级。当前Dremel已经为Google的bigquery提供服务。Drill作为Google Dremel的开源实现,并非Hadoop的替代品,只是其补充。和Dremel一样,Drill可以高效的处理嵌套式数据格式。此外,Drill加入了额外的特性,支持更广泛的查询语言,数据格式和数据源。
概念模型
现在Drill的已经完成了初始的需求,架构。实现了一个包括一个执行引擎和DrQL的初始系统。和Hadoop一样,Drill想要支持多种存储系统(通过文件系统API)和文件格式(通过输入输出API)。同时,Drill希望支持多种查询语言,数据格式和数据源。
Drill的架构分为了四个组件:
- 查询语言:这一层是用来分析用户的查询并生成一个查询计划。初始目标是支持类似Dremel和Goolgle BigQuery 使用的 SQL-Like 语言,我们叫做DrQL。当然,Drill也会支持更多的查询语言,比如Mongo Query Language, Cascading 和 Plume。
- 低延迟的分布式执行引擎:这一层是用来执行物理计划,提供在10000台服务器上高效分析PB级别数据的扩展性和容错性。Drill的执行引擎参考了一些分布式执行引擎(Dremel,Dryad,Hyracks, CIEL, Stratosphere)和列式存储。这里要提一下,Drill的执行引擎非常灵活,同时支持基于列的查询和基于行的查询。
- 嵌套式数据类型:这一层是为了支持多种数据格式。初始目标是支持Dremel使用的基于列的格式。后期准备支持Protocol Buffers/Dremel, Avro/AVRO-806/Trevni, CSV,JSON, BSON , YAM等格式。
- 可扩展的数据源:这一层用来支持多种数据源,目前计划支持Hadoop和Hbase。
drill的发布计划
Milestone 1: 基本功能 2013年9月份已发布
JDBC,分布式执行,Parquet and JSON可读
Milestone 2: 执行时验证
性能,全排序,节点缓存,诊断工具,度量,parquet写
Milestone 3:查询完善
TPC-H, Hive UDF, Hive read SerDe and HBase
Milestone 4:用户交互完善
Pushdown,优化,复杂的向量操作,Hive metastore,额外的文件格式
Milestone 5:产品质量
ODBC,额外的优化器,稳定性,资源调度
相关资料:相关资料
http://online.liebertpub.com/doi/pdfplus/10.1089/big.2013.0011
相关推荐
"dril to dril (pbuh)-crx插件"是一款专为谷歌浏览器Chrome设计的扩展程序,其主要功能是将网页中出现的特定文本"DRIL"替换为"DRIL(pbuh)"。这款插件以英文为操作语言,旨在为用户提供一种自定义浏览器体验的方式...
DRIL是一个简单的反向域工具
### TOEFL分类词汇——地理类详解 #### altitude/5Altitju:d/ - **定义**: 海拔高度,指某一点相对于海平面的...- **应用场景**: 地质地貌学中的重要概念之一,风景名胜区的特色地貌之一。 #### Grand Canyon/^rAnd/ ...
在PCB生产过程中,CNC钻孔是至关重要的步骤之一。 PCB是所有电子设备的基础,它承载并连接了电路中的各个组件。在PCB制造中,CNC钻孔用于在覆铜层上精确地打孔,这些孔用来安装电子元件,如电阻、电容、晶体管以及...
z-transform dril detail
drilipo 是一个有趣的概念,它结合了Oulipo文学运动的限制创作原则与网络文化中的知名角色dril。Oulipo(Ouvroir de Littérature Potentielle,潜在文学工场)是一个法国文学小组,其成员致力于探索并使用各种形式...
2021年的数据表明,全球套管连接器市场的主要参与者包括NOV、Dril-Quip、Oil States International、Baker Hughes和OMS Oilfield Services等。这些公司在全球市场中的占有率总计约为53%,显示出高度的市场集中度。...
在Altium Designer中输出Gerber文件是电路板制造的重要步骤之一,它能够确保设计者的设计意图准确无误地传递给制造商。以下是详细的步骤: **Step1:放置分孔图列表字符串** - 打开所需转换的PCB布局文件,通常为...
python main.py --imitation [AIRL|BC|DRIL|FAIRL|GAIL|GMMIL|PUGAIL|RED] 选项包括: 仅状态模仿学习: --state-only 吸收状态指示器 --absorbing R1梯度正则化 :-- --r1-reg-coeff 1 (默认值) 结果 PPO ...
将【OII(Oceaneering International, Inc.)】、【RIG(Transocean Ltd.)】和【DO(Diamond Offshore Drilling, Inc.)】的评级提升至“增持”,而将【DRQ(Dril-Quip, Inc.)】的评级调整为“持有”。 报告的...
Disk Drill Enterprise 是一款专业级的文件恢复软件程序,旨在保护您的数据并恢复您的文件免于丢失。 Disk Drill 是一款适用于 Windows 的免费硬盘数据恢复应用程序(它支持 XP、Vista、7、8 、10和 11)。这是一个...
它的图表类型丰富,从简单的条形图或者饼图到高级的缩放&滚动图表或者专业的销售&市场图表,所有这些图表都支持交互式选项,如工具提示、dril-down、导出image/PDF/CSV和Javascript集成。 总的来说,Fusioncharts ...
为了应对高速公路控制与诱导问题,文章引入了分布式强化学习(DRIL)。强化学习是一种机器学习方法,通过与环境的交互不断优化策略。在交通网络中,可以设定动作空间,例如调整匝道控制和可变显示牌的诱导控制,以...
播放@dril和@reamldonaldtrump推文 tril:转换@dril和@reamldonaldtrump推文上的Chrome扩展名。 github(哦,是的,它是开源):https://github.com/nick-gottschlich/tril 我的推特(Plz跟随我需要吃):...
https://twitter.com/dril/status/989005654517075968 此扩展程序统计您每天在Twitter上点击的次数。 支持语言:English
采用同轴送粉激光熔化沉积技术制备了纯钛构件, 并利用小孔法对样件扫描面不同部位的残余应力进行了测试, 研究了激光功率、扫描速度及送粉率对样件扫描面上残余应力分布的影响。研究结果表明:沉积件与基材结合区为...