`
wbj0110
  • 浏览: 1604433 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

在线分析查询系统mdrill

阅读更多

1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。
2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。
3:mdrill是一个分布式的在线分析查询系统,基于hadoop,lucene,solr,jstorm等开源系统作为实现,基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的,他的底层因使用了索引、列式存储、以及内存cache等技 术,使得数据扫描的速度大为增加。mdrill是分布式的,它以并行的方式工作,通过并行处理加快处理速度。

4:mdrill在adhoc项目中,mdrill使用了10台机器,存储了400亿的数据,每次扫描30亿的行数,响应时间在20秒~120秒左右(取决不同的查询条件)。

https://github.com/alibaba/mdrill

 
分享到:
评论

相关推荐

    mdrill源代码

    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80...

    mdrill的源代码

    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。 在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80...

    Mdrill项目在lucene的改进上的10点心得1

    Mdrill通过分析源码,发现Lucene的随机写主要用在文件头部预留空间和CRC32校验。通过避免预留空间,改为顺序写入另一个文件,成功解决了这一问题。这一改进不仅提高了创建索引的速度,还消除了对大硬盘的依赖,充分...

    基于Spark的大数据即席检索与分析.pptx

    - **基于Spark的索引方法**:通过构建索引,避免数据的暴力扫描,显著提升查询和分析效率。对开源Spark进行大量bug修复,优化性能和响应时间。 - **分布式索引**:在HDFS之上构建分布式索引,这是技术的关键,经过...

    分布式数据库实践(上)万亿数据库核心存储引擎实现与应用.pdf

    总的来说,录信软件的分布式数据库实践展示了在万亿级别数据处理中的创新思路和技术优势,通过优化索引、全栈设计和高效的数据分片策略,不仅提升了查询和分析速度,还降低了系统的复杂性和成本,为大数据时代的业务...

    延云YDB 大数据 万亿数据秒查

    ### 延云YDB:万亿数据秒级查询与分析引擎 #### 一、概述 随着信息技术的飞速发展,大数据已经成为推动企业决策、产品创新和业务增长的关键力量。面对日益增长的数据规模和复杂的数据结构,传统的数据分析工具已经...

    alimama-adhoc.tar.gz(1)

    mDrill中lib缺少的jar文件。 将alimama.part1.rar、alimama.part2.rar两个文件下载下来之后解压出来将里面的lib中的jar复制到mdrill lib中

Global site tag (gtag.js) - Google Analytics