下面以GBase 8a分析型数据库为例,描述列存储对数据存储与管理的作用。
面对海量数据分析的 I/O 瓶颈,GBase 8a 把表数据按列的方式存储,其优势体现在以下几个方面。
不读取无效数据:降低 I/O 开销,同时提高每次 I/O 的效率,从而大大提高查询性能。查询语句只从磁盘上读取所需要的列,其他列的数据是不需要读取的。例如,有两张表,每张表100GB 且有100 列,大多数查询只关注几个列,采用列存储,不需要像行存数据库一样,将整行数据取出,只取出需要的列。磁盘 I/0 是行存储的 1/10或更少,查询响应时间提高 10 倍以上。
高压缩比:压缩比可以达到 5 ~ 20 倍以上,数据占有空间降低到传统数据库的1/10 ,节省了存储设备的开销。
当数据库的大小与数据库服务器内存大小之比达到或超过 2:1 (典型的大型系统配置值)时,列存的 I/O 优势
就显得更加明显;
GBase 8a 分析型数据库的独特列存储格式,对每列数据再细分为“数据包”。这样可以达到很高的可扩展性:无论一个表有多大,数据库只操作相关的数据包,性能不会随着数据量的增加而下降。通过以数据包为单位进行 I/O 操作提升数据吞吐量,从而进一步提高I/O效率。
由于采用列存储技术,还可以实现高效的透明压缩。
由于数据按列包存储,每个数据包内都是同构数据,内容相关性很高,这使得GBase 8a 更易于实现压缩,压缩比
通常能够达到 1:10 甚至更优。这使得能够同时在磁盘 I/O 和 Cache I/O 上都提升数据库的性能,使 GBase 8a 在某些场景下的运算性能比传统数据库快 100 倍以上。
GBase 8a 允许用户根据需要设置配置文件,选择是否进行压缩。在启用压缩的情况下GBase 8a 根据数据的不同特性以及不同的分布状况,自动采用相应的压缩算法,如:
行程编码(适用于大量连续重复的数据,特别是排序数据);
基于数据的差值编码(适用于重复率低,但彼此差值较小的数据列);
基于位置的差值编码(适用于重复率高,但分布比较随机的数据列)。
分享到:
相关推荐
3. **并行处理能力**:列式存储更易于支持并行处理机制,提高了大规模数据处理的速度。 #### 八、列式数据库的基本存储:FP索引 FP索引是列式数据库中的一种常用索引技术,它通过对数据进行预处理和分组,能够有效...
Apache ORC(Optimized Row Columnar)文件格式是Hadoop生态系统中的一种高效、紧凑的列式存储格式,尤其适用于大数据处理场景。它由Apache Hive项目发展而来,旨在提高数据分析的性能,减少磁盘I/O,并优化内存使用...
Apache Spark系列技术直播大数据列式存储之Parquet_ORC ...本资源为大数据处理和分析领域的开发者提供了丰富的技术知识,涵盖了列式存储、Parquet和ORC的技术细节,可以帮助开发者更好地理解和应用这些技术。
### 列式数据库存储原理 #### 一、传统行式存储概述 在传统的数据库系统中,数据主要采用行式...通过采用合适的列式存储技术和索引机制,可以极大地提升数据查询的速度和效率,从而更好地支持决策分析和业务需求。
此特性将数据以列式存储的方式保留在内存中,从而加速查询处理,特别是对于复杂的分析查询。列式存储与传统的行式存储相比,更适合大规模数据分析,因为它允许对大量数据进行并行处理,减少了I/O操作。 列式存储的...
- **向量化操作**:列式存储使得数据更容易进行向量化处理,进一步提升处理速度。 - **示例** - **Parquet**:这是一种流行的列式存储格式,广泛应用于大数据领域。 - **ORC (Optimized Row Columnar)**:另一种...
列式存储是大数据处理中的一个重要概念,它不同于传统的关系型数据库行式存储,更适合于分析查询和数据挖掘任务。 “并行MPP扩展”是指MariaDB支持大规模并行处理(MPP)架构。MPP允许数据库系统通过多个处理节点...
【基于列式存储的铁道供电监控信息快速查询与压缩处理研究】 随着我国电气化铁路和高速铁路的迅速发展,铁道供电系统的自动化和智能化程度不断提升,相应的调度监控系统也日益综合自动化,导致监控信息的容量和规模...
- 静态导入是一种数据导入技术,一次性将数据从外部源加载到列式存储系统中,而不是通过批处理或流处理方式逐步导入。 - 这种方法减少了数据移动量,简化了数据管理,并且显著提高了导入效率和查询性能。 - **...
一个由java语言编写的列式计算器,有基本的运算和检错功能,也有次方,开方运算功能,至于其他功能可自己扩展!涉及到很强的逻辑结构和数据结构,很适合初学者,本程序是本人花了两个星期开发的学期作业!想要深沉次...
TiFlash 是 TiDB 和 TiDB Cloud 的列式存储组件,TiDB 是 TiDB 的全托管服务。在 TiDB 的混合事务/分析处理 (HTAP) 架构中,它主要扮演分析处理 (AP) 的角色。TiFlash 以列式格式存储数据,并通过 Raft 日志实时...
在本文中,我们将深入探讨阿里巴巴搜推实验基于JSONB列式存储的降本提效实践,这是在大数据处理和实时分析领域中的一个重要案例。首先,我们来看一下业务背景。 阿里搜推(Search & Recommendation)是阿里巴巴集团...
本文主要探讨的是如何在分布式列式存储环境中高效地处理大规模轨迹大数据的k近邻查询,即点到轨迹k最近邻(P2T_kNN)查询。随着移动设备和定位技术的普及,轨迹数据的收集和分析变得越来越重要,尤其在交通、社交...
在传统的行式存储中,数据以行的形式存储,适合于频繁的更新操作,但在进行大规模数据分析时,列式存储则展现出更高的效率,因为它可以更有效地处理聚合查询和列扫描。IMCS的设计目标是提升PostgreSQL在大数据分析...
例如,许多数据仓库现在选择列式存储来提升分析性能,而OLTP(在线事务处理)系统可能会利用内存数据库来提高事务处理速度。IDC的研究预测,未来五年内,大部分数据仓库将采用列式存储,OLTP数据库可能通过集成内存...
文章总结了基于HBase列式存储压缩策略优化的研究,强调了排序在提升压缩效果中的重要性,并指出了未来可能的研究方向,包括对不同类型数据进行更深入的压缩策略分析,以及优化压缩策略选择过程的自动化,以便于在大...
《基于列存储的智能双引擎分析系统及方法》这一主题涉及到大数据处理与分析领域的核心技术,主要探讨了如何通过列式存储提升数据分析效率,并结合智能双引擎优化数据处理流程。列式存储是现代大数据分析系统中一种...