`
lwfshr
  • 浏览: 150424 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论

列存储的优点--Sybase IQ 列存储、数据压缩和索引技术

阅读更多

Sybase IQ —— 革命性的产品

Sybase的数据仓库方法从根本上不同于其他的关系型数据库提供商。Sybase认为,传统的关系型方法以及ROLAP方法效率很低,要想获得足够的性能,必须通过高额的成本,在额外的硬件、软件、资源、钱、时间上进行大量投资,否则不可能达到。因此Sybase已经开发了一个新的关系型数据库——逆向关系型数据库可能是对此最好的解释,它使用一个传统的关系型结构以及类似的非常熟悉的术语,但是却是基于列的,而非基于行的。

我们开始审视Sybase IQ时,我们正是从此点开始,我们发现,Sybase对其使用列方法的好处所作的论述“相当令人信服”。然而,通过对数据仓库不断增加需求、迅猛增长的来自Web的数据与用户所带来的分析和报表(更不必提即将到来的RFID应用),以及客户的经验等等,我们现在可以证明,Sybase IQ提供了一个远比那些传统的关系型供应商更优越的方法。

列存储

不同于传统的关系型数据库,其数据在表中是按行存储的,Sybase IQ是通过表中的列来存储与访问数据的。尽管这种方式很明显的不太适合于交易环境,在交易环境中,一个事务与一行数据有效对应,而在查询进程环境中,很显然,查询是基于特定的列来选择的。

列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。事实上,情况并不象上述的这样简单,Sybase IQ有各种方法支持基于列的索引,我们将在下面就此讨论。

使用列方法的另一个结果就是,Sybase IQ在压缩方面比传统的关系型数据库更加有效(根据Sybase所称,效果可达5倍之好)。这个原因,无消说,是由于同一列中的所有数据域有相同的数据类型。因此,每一列都可以为优化的效率与检索进行压缩。相比来讲,基于行的存储,各个不同的域拥有各不相同的数据类型,这非常适合于交易进程。在这样的环境中,不断变换理想的压缩算法是不可行的,这意味着任何压缩都将可能是一种最低通用的规则。

基于列的方法的另一个重要优势完全基于所有读出的数据量。无论何时你从传统的数据库中访问数据,你需要读出完整的每一行,而不管你实际所感兴趣的是哪些域。实际上,这可能意味着读300个字节的数据仅仅检索20个字符的数据。但是,基于列来读取数据,你仅仅需要读出你想要了解的数据。当然,读取一条单独的记录时,性能上的不同可以忽略,但是许多查询需要进行全表扫描。当读取数百万行数据时,性能的不同就会非常显著。

Sybase认为,Sybase IQ的列存储天然的比普通的ROLAP方法提供更佳的性能,IQ不需要象多数竞争对手或者Sybase Adaptive Server Enterprise(ASE)一样支持硬件的并行处理。尤其是,Sybase指出,与数据分区相关的问题就是需要支持硬件的并行机制。显而易见,不论如何进行分区,分区都会带来很多问题(更不必说额外的维护了),不过,它打开了性能改进的实质性途径。然而,Sybase进一步阐述道,这仅仅是对基于行的方法所与生俱来的糟糕性能的一种补偿机制。

Sybase有很多事实支持它的论断,但这并不意味着Sybase避免任何形式的数据分区。然而,不同于水平分区,Sybase IQ实施的是垂直分区,也就是说分区是按照列而不是按照行进行的。该方法的优势之一是分区从来不会变得不均衡,这是由于每个表中的每列都有相同数量的域。这大大降低了管理分区的维护需求,同时消除了数据库的重新组织,而在分区变得不均衡从而开始影响性能的时候,数据库重新组织是必需进行的。

最后,需要注意的是,Sybase IQ并没有避免使用OLAP。对于那些希望在聚合层次下以一个相对预先定义的方式进行查询的用户来讲,OLAP具有明显的优势。基于此,Sybase 支持OLAP功能属性如排列、百分比、平均。

数据压缩

传统的数据库引擎不能以一种通用的方式进行数据压缩,主要是由于存在以下三个问题:

1. 按行存储的数据存储方式不利于压缩。这是因为数据(大多为二进制数据)在以这种方式存储时重复并不多。我们发现,按行存储的数据,最多能有5-10%的压缩比例;

2. 对于许多2K 和4K 的二进制数据页来说,为压缩和解压缩而增加的开销太大;

3. 在OLTP 环境中,大量读取和更新混杂在一起。每一次更新需要进行压缩操作,而读取只需解压缩操作,大多数的数据压缩算法在压缩时比解压缩时慢4 倍。这一开销将明显降低OLTP 数据库引擎的事务处理效率而使得数据压缩的代价昂贵到几乎不能忍受。

在数据仓库应用中,数据压缩可以用小得多的代价换取更大好处。其中包括减少对于存储量的要求;增大数据吞吐量,这相当于减少查询响应时间。

Sybase IQ 使用了数据压缩。这是由于数据按列存储,相邻接的字段值具有相同的数据类型,其二进制值的范围通常也要小得多,所以压缩更容易,压缩比更高。Sybase IQ 对按列存储的数据通常能得到大于50%的压缩。更大的压缩比例,加上大页面I/O,使得Sybase IQ在获得查询的优良性能的同时,减少了对于存储空间的需求。
在传统的数据库中,为提高查询性能所建的索引占用的磁盘空间往往需要比数据本身需要的磁盘空间多出3-10倍。而Sybase IQ 存储数据所占用的磁盘空间通常只是原数据文件的40%-60%,是传统数据库所占用空间的几分之一。



图:Sybase IQ与传统数据库在数据压缩方面的典型对比

智能压缩技术,与精巧的索引结构和列存储结合,给了IQ 比其他数据库引擎高的多的存储效果。这将获得更低的存储成本与更高的性能(因为系统仅需很少的磁盘I/O读取或写入任何给定的数据库块)。

索引

Sybase IQ的秘密在于其索引。随着Sybase 客户发现了新的分析需求,Sybase可以简捷地建立新的索引以满足这些需求。这种方法的奇妙之处在于为数据仓库增加新的索引几乎不会(即使有也是微乎其微)影响数据仓库的架构或使用仓库的分析型应用。在实时企业与闭环应用领域,Sybase将索引视为在TB数量级(将来)甚至PB数量级数据仓库中获得更高查询性能的关键。今天,Sybase实际上已使用了7种索引机制:

Low Fast 索引——这些是低基数索引,它使用一个被称之为“代号化”的进程。使用该进程,数据被转换为代号,然后存储这些代号而不是数据。这对于减少冗余数据的数量尤其有用。例如,在整个英国拥有大量客户群的公司,将需要存储客户的地址。这将意味着巨大数量的重复的郡的名称。因此,不是保存大量的“班夫郡”的实例,例如,Sybase将会用一个数字代替每个郡的名称。因此,由于班夫郡按照拼音排列在英国是第5个郡(排在Aberdeen,Armagh,Avon与Ayrshire之后)因此,它可能就会被设值为5。如果一个列包含一个数字值,该值自身可以一用于代号化的基础。一旦建立了代号(这是一个自动进行的进程),一个位图索引将被建立以表示这些代号。代号化典型地应用于列数据存在有限数量的可能取值。这也是为什么Sybase称之为低基数索引的原因,典型的,它仅用于不同的取值个数在1500以内的域。

Bit-Wise索引——对于高基数的域,那些取值个数超过1500个(如金额值),Sybase使用其专利的被称之为Bit-Wise索引的技术。这在你希望在范围搜索的时候同时进行计算的情况下,尤为有用,例如,查找销售价格低于50欧元的货品数量及总收入。如同位图的其他变量,该方法的优势之一就是计数(count)查询可以直接通过读取索引获得答案,而无需读取数据。

High Group索引——实际上,它是B-树索引。然而,此处的原则是,用户仅仅在几个列有可能作为一个组来使用的情况下,尤其是高基数与低基数的联合搜索时,才定义这些索引。比如可能有这样的例子,按照商店(低基数)查询产品销售清单与价格(高基数)。

Fast Projection 索引——该索引类型(缺省的)就是列存储本身。如果用户总是打算检索整个列的数据,则列存储事实上意味着列可以直接映射到表或查询中,而无需显式的定义任何索引。这非常有用,例如在“Where”从句中。

Word 索引——这是一个文本索引。它基于关键词或短语字符串搜索。这种类型的索引,历史上一直没有用于数据仓库中。然而,它有着大量重要的市场,在这些市场上,能够联合定量与定性的分析非常重要。例如,在医疗横业,医生的诊断通常就是:笔记。为了获取信息,例如发病率,因此可能必须访问这种非结构化的数据。


Compare索引——这个索引技术允许数据列的比较,从效果上讲,类似于“if…then…else”表达式。例如,“if支出大于收入,then…”。该类型的索引对于在Web应用中实时比较尤其有用。

Join 索引——正如索引的名称所示,它是为消除表连接的需要而设计的。正象大多支持索引的情况,它可能在预先已知的查询需求下更为有用。


Time Analytic 索引——这为基于日期、时间、日期与时间建立索引提供了选项。需要注意的是,对于传统的关系型数据库,处理基于时间的查询尤为困难。

大量扩展工具用以支持在各种情况下使用这些索引。这包括为减少硬盘(或内存——位图可能存在缓冲中)需求的索引压缩,联合使用不同类型索引的能力,以及使用布尔操作如AND与OR过滤比特队列等。这些特性表明,Sybase IQ克服了传统的位图的缺陷,即不适合于表连接或数据聚合。Sybase IQ在最近发布的版本中增加了一个索引顾问(Index Advisor),这一点尤其令人欢欣:这将建议管理员何时应该增加新的索引以及增加那种类型的索引。

总结

上面我们对Sybase IQ的几个重要的技术特点进行了简单的描述。作为数据仓库领域革命性的产品,Sybase IQ最新版本12.7发展了更多创新的技术,这些技术正在被全球越来越多的企业所运用。Gartner2006年的报告认为,Sybase IQ的卓越表现使它逐渐展现出一个市场领导者的风采。

分享到:
评论

相关推荐

    Sybase IQ 技术白皮书.pdf

    根据提供的文档信息,我们可以从标题、描述以及部分内容中提取出关于Sybase IQ的关键知识点。...通过阅读这份文档,读者可以了解到Sybase IQ 在现代数据管理和分析领域的重要地位及其实现高性能查询处理的方法和技术。

    Sybase IQ 数据仓库领域革命性产品

    综上所述,Sybase IQ通过列存储、高效数据压缩和智能分区等技术,为数据仓库领域带来了革新。它的设计理念和实施策略,尤其是在应对大数据量和复杂查询时的出色表现,使其成为数据分析和决策支持系统的理想选择。...

    SybaseIQ系统管理1-10

    - **数据垂直存储与高效压缩**:Sybase IQ通过按列存储数据,大大减少了磁盘I/O,提高了查询效率。同时,它采用高效的压缩技术,减少了存储空间需求。 - **Bit-wise 存储技术**:对于低基数和高基数字段,Sybase IQ...

    Sybase IQ 学习资料(ppt教程)

    - IQ特性:探讨Sybase IQ的独特优势,如列式存储、压缩技术和并行处理。 2. **Sybase IQ架构** - 存储结构:深入理解其列式存储方式如何提升查询效率。 - 并行处理:解析IQ的并行查询执行机制,包括分区和并行...

    Sybase IQ参考手册

    - Sybase IQ采用了列存储技术,这种存储方式将表中的每一列存储为一个独立的数据块,相比于传统的行存储方式,能够极大地提高数据查询速度,尤其是在进行大量的聚合计算时表现更为出色。 - 列存储的优势在于,当...

    SyBaseIQ按列存储介绍.docx

    数据压缩是Sybase IQ的另一个重要特点,它能够以更高的比率压缩数据,甚至在使用索引后,存储空间也不会超过原始数据大小。这不仅节省了存储成本,还减少了数据传输和处理的时间,提高了整体性能。实际应用中,...

    SybaseIQ数据库64位Windows系统服务器v16.0安装包

    - **优化的列式存储**:Sybase IQ的列式存储设计允许快速查询大量数据,因为列式存储在读取特定列时只需要访问必要的数据,而不是整个行。 - **并行处理**:通过并行执行查询,v16.0版本能够充分利用多核处理器的...

    SybaseIQ中的大对象管理

    Sybase IQ是一款高性能的列式数据库管理系统,尤其适用于数据仓库和商业智能应用。Sybase IQ 12.7版本进一步增强了对大对象(Large Object, LOB)的支持,使得在处理大量文本、图像、音频和视频等非结构化数据时更加...

    Sybase IQ 培训资料(PPT)

    Sybase IQ的特性包括数据压缩、并行处理和低内存消耗,使得其在处理海量数据时能提供卓越的性能。 **二、列式存储的优势** 与传统的行式存储相比,Sybase IQ采用列式存储方式,这意味着每个表的列被独立地存储。...

    SybaseIQ_Architecture and Terminology IQ15

    Sybase IQ 是一款高性能的企业级列式数据库管理系统,以其卓越的数据压缩技术和高效的查询处理能力著称于世。它专为数据仓库、商业智能及分析处理等应用场景而设计。 #### 支持平台 Sybase IQ 12.6 版本支持多种...

    Sybase_IQ_SQL开发指南_v1.1.pdf

    - **理解数据存储方式**:Sybase IQ 采用了独特的列式存储技术,因此在编写SQL时应充分考虑这一点。 - **性能调优**:利用索引优化、查询优化等手段提高SQL执行效率。 ### 如何编写高效的 SQL 为了提高Sybase IQ 中...

    SYBASE IQ参考手册

    与传统的行式数据库相比,SYBASE IQ采用了独特的列式存储技术,能够显著提高查询性能和压缩数据的能力。 #### 二、SYBASE IQ的特点 1. **列式存储**:这是SYBASE IQ最核心的技术之一,通过将同一列的数据物理地存储...

    sybase iq

    综上所述,Sybase IQ是专为大数据分析设计的一款强大数据库系统,其列式存储、并行处理、数据压缩和查询优化等功能使其在海量数据分析领域具有显著优势。通过有效的架构设计和管理策略,企业可以充分利用Sybase IQ来...

    SYBASE IQ培训教材一

    SYBASE IQ是一个高性能、列式存储的数据库系统,特别适合于复杂查询和数据分析。它优化了数据处理,尤其在处理大量数据时,能够提供极高的性能和效率。 2. **IQ框架与特点** IQ的架构设计以并行处理和数据分区为...

    Sybase IQ 15.4中文参考手册(系统管理上册)

    Sybase IQ采用了列式存储技术,这种存储方式相较于传统的行式存储,可以极大提高查询性能,特别是在涉及到大量数据聚合和统计分析的场景中。 数据存储是数据库系统的核心,Sybase IQ中的数据存储采用了列式存储的...

    Sybase IQ教程

    ### Sybase IQ 教程知识点概述 ...通过以上知识点的学习,用户不仅可以深入了解Sybase IQ的各项功能和技术细节,还能掌握其实现高效数据分析和管理的最佳实践。这对于提高数据处理效率、增强业务洞察力具有重要意义。

    SybaseIQ 中文管理指南

    Sybase IQ 提供了一系列高级特性,如分区、并发控制、并行处理和数据压缩。这些特性可以进一步提升系统性能,适应大数据环境。本章将详细介绍这些功能的使用和优势。 **章节六:安全性与权限管理** 在企业环境中,...

    sybase iq培训文档

    总结来说,Sybase IQ 是一个专为数据分析设计的高性能数据库系统,其特点是列式存储、压缩技术和位索引,能够有效地处理大数据查询,同时提供了丰富的管理和监控工具,确保系统的稳定性和安全性。通过深入理解和熟练...

    Sybase IQ 16.0中文版本 装载管理

    - **NBit字典压缩**:此版本采用了连续NBit字典压缩技术,作为默认的列存储机制,代替了之前的1、2、3字节字典压缩。除了LOB(字符和二进制)和BIT数据类型之外,所有其他数据类型都可以被存储为NBit列。通过这种...

    SybaseIQ培训手册

    ### Sybase IQ 培训手册知识点概览 #### 一、基础知识 ...以上内容详细介绍了 Sybase IQ 培训手册中的关键知识点,覆盖了从基础知识到高级应用的各个方面,旨在帮助读者全面掌握 Sybase IQ 的使用方法和技术要点。

Global site tag (gtag.js) - Google Analytics