前言:
在数据部门工作已经是第三个年头,做过很多的数据产品,也接触了很多的业务数据和业务数据的生产。我的工作经历也大致分为这样几个阶段:第一阶段就是做数据产品,主要的工作就是把生产好的数据根据具体的业务把数据搬到网页上;第二个阶段开始尝试做了数据产品的产品,以配置化和平台化的方式玩出数据产品的页面;第三个阶段开始尝试做了数据仓库的产品,直接基于数据仓库模型组织的明细粒度数据进行即席OLAP分析从而快速获取统计分析的结果数据,这其中随着当前业务数据的急速膨胀,我们必须要面对如何在千万级别、亿级别甚至是百亿级别的数据进行聚合统计计算的问题,大家都知道在做聚合计算一般都是比较耗费资源的,一台单机关系型数据库在面对百万级别数据做类似Group by计算时在一定的并发量下经常会遭遇CPU load严重吃紧从而导致服务不可用的情况,所幸,我们集团内有很多团队做了很多努力,陆续出来Higo、Garuda等等可直接基于大数据进行统计分析的分析型数据库产品,我本人也亲身体验和使用过这些产品,本着知其然知其所以然的技术精神,我对这些即时计算的产品原理做下大概的总结,才疏学浅,还望大牛们指正。
相关概念:
即时计算:针对只读数据进行即时数据的获取和计算。
即时计算的特点:海量数据、低延迟、计算准确、高可用、以及SQL访问。
聚合统计查询:一般查询形式为select count(xx),sum(xx),count(distinct xx),Avg(xx) where<过滤条件> group by XXX having<分组后过滤条件>
技术原理核心要点:
- 列式存储:减少IO,更少扫描(只选择需要的列),分块存储顺序访问
- 索引:利用lucene倒排索引、正排索引快速定位列存储位置
- 分布式MPP架构计算:多节点并行计算充分发挥分布式本地计算能力
- 压缩技术:内存压缩和磁盘压缩,降低内存IO、磁盘IO以及网络IO
- 高效的内存计算:bitMap和bitSet
- 缓存:列存储分块(Block)缓存、BitMap缓存等,LRU淘汰策略。
- 多级Merge:多路归并计算合并,优化网络
- 资源管理调度:自动failover机制保证可用性,表上下线管理
以上是海量数据即时计算的技术总纲,另外面对海量数据的计算处理还需要一定的硬件支持,比如应对随机访问需要SSD磁盘特性,而对于缓存和内存计算也需要一定容量的内存来支撑。接下来我会针对每个技术的要点来进行分期讲解,争取把原理都讲清楚。
相关推荐
规划涵盖了大数据基础设施建设、数据资源开发利用、大数据技术创新、人才培养、政策法规完善等多个方面,旨在构建一个创新驱动、协同共享、安全可靠的大数据产业发展环境。通过实施这一规划,赣州市将有望借助大数据...
《贵州省大数据产业发展规划纲要2014-2020年》的实施,标志着贵州省在大数据领域的前瞻布局和坚定决心。大数据产业是基于大量、多样化的数据进行快速获取、处理、分析,以挖掘其中的价值,它涵盖了数据中心、网络...
3. 战略定位:将成都市定位为国内大数据技术创新高地、数据资源汇聚中心和大数据应用示范城市,打造具有国际影响力的大数据产业基地。 4. 发展目标:短期目标是提升大数据产业规模和创新能力,中期目标是形成完善的...
月国务院印发《促进大数据发展行动纲要》。9月,贵州启动建设首个大数据综合试验区试 点。次年,国家公布第二批国家级大数据综合试验区建设名单,包括北京、天津、河北、内 蒙古、辽宁、河南、上海、重庆、广东 参照...
### 大数据技术与应用基础知识点详解 #### 一、课程背景与意义 - **国家战略层面**:大数据技术被国家列为重大发展战略之一,这表明了大数据对于推动经济发展和社会进步的重要作用。 - **政策支持**:从《促进...
国家十三五规划纲要中提出:“实施国家大数据战略,推进数据资源开放共享” 国发【2015】50号《促进大数据发展行动纲要》中明确提出“鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据...
纲要明确提出,贵州省将依托大数据技术推动社会经济的全面转型升级。大数据产业并不仅局限于某个单一的领域,它包含数据的产生、集聚、管理、分析、应用和服务等多个环节,涵盖了基础设施建设、信息服务、电子产品...
《贵州省大数据产业发展规划纲要(2014-2020年)》提出了贵州省在大数据领域的战略目标和发展路径,旨在利用大数据技术推动经济和社会的快速发展。这份纲要强调了大数据产业的重要性和对贵州省的深远影响,同时也明确...
这份规划纲要明确了大数据产业的定义,强调了其在信息技术领域的核心地位,以及对经济社会发展的重要影响。 大数据产业涵盖了多个层面,包括数据的生成与集聚、组织与管理、分析与发现、应用与服务,涉及到数据中心...
《贵州省大数据产业发展规划纲要(2014-2020年)》不仅是贵州省大数据产业发展的蓝图,更是引领贵州省信息技术产业崛起的行动纲领,预示着贵州将在全国乃至全球信息产业格局中扮演更加重要的角色。
《贵州省大数据产业发展规划纲要(2014-2020年)》提出了贵州省在大数据领域的战略目标和发展路径,旨在利用大数据技术推动贵州省的经济社会发展。这份纲要明确指出,大数据产业涵盖从数据采集、处理到应用服务的全...
《促进大数据发展行动纲要》(国发[2015]50号)政策文件信息
同时也将有效促进当地教育、文化、社会管理等各个方面与大数据技术的深度融合,进而为贵州省的长远发展打下坚实的基础。大数据产业的崛起,将成为贵州省历史上的重要里程碑,书写出区域经济发展的新篇章。
根据提供的文档内容,以下是关于“GZ-2021041 大数据技术与应用赛项规程”的知识点详细说明: 1. 赛项概述:本次赛项为2021年全国职业院校技能大赛的一个环节,面向高职院校的参赛选手,以大数据技术与应用为主题。...
培训旨在应对国家“互联网+”行动计划战略和大数据发展行动纲要,响应培养大数据技术高端人才的需求。通过系统性的课程设计,参与者将全面提高在大数据项目管理、平台架构设计、开发与应用设计等方面的技能,并加深...
《促进大数据发展行动纲要》(国发[2015]50号)
课程体系的设置应当重点突出数据科学与大数据技术的核心内容,如数据挖掘、知识发现、并行计算和分布式计算等。同时,课程体系还应包括跨学科的基础知识,如数学、统计学和计算机科学等相关领域。 五、数据科学与...
管理学原理-组织与管理复习题-复习纲要.doc
5. 国家大数据战略与大数据技术人才需求:国家“十三五”规划纲要提出实施国家级大数据战略,推动数据资源开放与共享。随着各行各业新建大数据平台与数据中心,大数据技术人才的需求量急剧上升。因此,高职院校在...