转:
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的行存储,Lexst是二进制型的行存储。在这里,我不讨论这些软件的技术和优缺点,只围绕机械磁盘的物理特质,分析行存储和列存储的存储特点,以及由此产生的一些问题和解决办法。
一.结构布局
行存储数据排列
列存储数据排列
表格的灰色背景部分表示行列结构,白色背景部分表示数据的物理分布,两种存储的数据都是从上至下,从左向右的排列。行是列的组合,行存储以一行记录为单位,列存储以列数据集合单位,或称列族(column family)。行存储的读写过程是一致的,都是从第一列开始,到最后一列结束。列存储的读取是列数据集中的一段或者全部数据,写入时,一行记录被拆分为多列,每一列数据追加到对应列的末尾处。
二. 对比
从上面表格可以看出,行存储的写入是一次完成。如果这种写入建立在操作系统的文件系统上,可以保证写入过程的成功或者失败,数据的完整性因此可以确定。列存储由于需要把一行记录拆分成单列保存,写入次数明显比行存储多,再加上磁头需要在盘片上移动和定位花费的时间,实际时间消耗会更大。所以,行存储在写入上占有很大的优势。
还有数据修改,这实际也是一次写入过程。不同的是,数据修改是对磁盘上的记录做删除标记。行存储是在指定位置写入一次,列存储是将磁盘定位到多个列上分别写入,这个过程仍是行存储的列数倍。所以,数据修改也是以行存储占优。 数据读取时,行存储通常将一行数据完全读出,如果只需要其中几列数据的情况,就会存在冗余列,出于缩短处理时间的考量,消除冗余列的过程通常是在内存中进行的。列存储每次读取的数据是集合的一段或者全部,如果读取多列时,就需要移动磁头,再次定位到下一列的位置继续读取。 再谈两种存储的数据分布。由于列存储的每一列数据类型是同质的,不存在二义性问题。比如说某列数据类型为整型(int),那么它的数据集合一定是整型数据。这种情况使数据解析变得十分容易。相比之下,行存储则要复杂得多,因为在一行记录中保存了多种类型的数据,数据解析需要在多种数据类型之间频繁转换,这个操作很消耗CPU,增加了解析的时间。所以,列存储的解析过程更有利于分析大数据。
三. 优化
显而易见,两种存储格式都有各自的优缺点:行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性,缺点是数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略;数量大可能会影响到数据的处理效率。列存储在写入效率、保证数据完整性上都不如行存储,它的优势是在读取过程,不会产生冗余数据,这对数据完整性要求不高的大数据处理领域,比如互联网,犹为重要。
改进集中在两方面:行存储读取过程中避免产生冗余数据,列存储提高读写效率。
如何改进它们的缺点,并保证优点呢?
行存储的改进:减少冗余数据首先是用户在定义数据时避免冗余列的产生;其次是优化数据存储记录结构,保证从磁盘读出的数据进入内存后,能够被快速分解,消除冗余列。要知道,目前市场上即使最低端CPU和内存的速度也比机械磁盘快上100-1000倍。如果用上高端的硬件配置,这个处理过程还要更快。
列存储的两点改进:1.在计算机上安装多块硬盘,以多线程并行的方式读写它们。多块硬盘并行工作可以减少磁盘读写竞用,这种方式对提高处理效率优势十分明显。缺点是需要更多的硬盘,这会增加投入成本,在大规模数据处理应用中是不小的数目,运营商需要认真考虑这个问题。2.对写过程中的数据完整性问题,可考虑在写入过程中加入类似关系数据库的“回滚”机制,当某一列发生写入失败时,此前写入的数据全部失效,同时加入散列码校验,进一步保证数据完整性。
这两种存储方案还有一个共同改进的地方:频繁的小量的数据写入对磁盘影响很大,更好的解决办法是将数据在内存中暂时保存并整理,达到一定数量后,一次性写入磁盘,这样消耗时间更少一些。目前机械磁盘的写入速度在20M-50M/秒之间,能够以批量的方式写入磁盘,效果也是不错的。
四. 总结
两种存储格式各自的特性都决定了它们不可能是完美的解决方案。 如果首要考虑是数据的完整性和可靠性,那么行存储是不二选择,列存储只有在增加磁盘并改进软件设计后才能接近这样的目标。如果以保存数据为主,行存储的写入性能比列存储高很多。在需要频繁读取单列集合数据的应用中,列存储是最合适的。如果每次读取多列,两个方案可酌情选择:采用行存储时,设计中应考虑减少或避免冗余列;若采用列存储方案,为保证读写入效率,每列数据尽可能分别保存到不同的磁盘上,多个线程并行读写各自的数据,这样避免了磁盘竞用的同时也提高了处理效率。 无论选择哪种方案,将同内容数据聚凑在一起都是必须的,这是减少磁头在磁盘上的移动,提高数据读取时间的有效办法。
分享到:
相关推荐
总之,大数据存取的选择并不是非此即彼的决策。行存储和列存储各有优劣,关键在于如何根据应用场景的具体需求,选择适合的存储策略,并在此基础上进行针对性的优化。理解这两种存储方式的特点和适用场景,能够帮助...
本文将深入探讨行存储与列存储之间的差异,并分析各自的优势与劣势,以帮助企业在大数据存取中做出更为明智的选择。 行存储,也就是传统的关系型数据库采用的存储方式,其设计理念是将一条记录的所有字段连续存储在...
* 大数据技术:数据采集、数据存取、基础架构支持、计算结果展现等。 * 存储技术:结构化数据、semi-structured data 和非结构化数据等。 四、大数据的应用场景 * 精准营销:通过用户行为分析实现精准营销。 * ...
在实时处理方面,Oracle NoSQL数据库成为了最佳选择,它提供了并行扫描、无固有结构、大量写入数据库索引存储和简单的数据结构,以支持大量的随机读写操作。 Hadoop架构管理与监视采用了MapReduce这一编程范式,它...
10. 关键词:文章提到的关键词包括大数据兼容性存储、关系数据模型、大数据存储模型、云计算、信息储存、并行处理等,这些关键词涵盖了存储系统设计的主要研究领域和重点技术。 文章讨论了在云计算环境中设计大数据...
在这个“大数据漫谈系列之:大数据怎么发挥大价值”的主题中,我们将深入探讨大数据如何在各行各业中创造巨大价值,以及与C#编程语言的相关性。 大数据的核心在于其“大”,不仅仅体现在数据量的庞大,更在于数据的...
4. 管理大数据“易”理解大数据“难”:大数据管理需要解决高并发数据存取的性能要求及数据存储的横向扩展,同时也需要对非结构化数据的内容理解进行实质性的突破和进展。 大数据技术: 1. 分析技术:包括数据处理...
HDFS(Hadoop Distributed File System)是大数据存储的重要组成部分,具有高容错性、适合大数据处理的特点,但不擅长低延迟数据访问和小文件存取。 15. 云计算概念:云计算是一种通过互联网将计算分布到大量分布式...
#### 大数据存取选择:行存储VS列存储 在特别专题部分,《架构师》深入分析了大数据环境下行存储与列存储的选择。随着数据量的爆炸式增长,传统的行存储数据库面临性能瓶颈,而列存储因其在特定查询场景下的高效性...
【大数据概念解析】 大数据,顾名思义,指的是那些具有大量、多样性、高速以及价值密度低等特征的数据。其中,“4V”特性是大数据的核心特点: 1. **体积(Volume)**:数据量巨大,超过了传统数据处理系统的处理...
**VC使用ADO技术存取BLOB二进制大数据** 在微软的Visual C++(简称VC)开发环境中,处理大数据,尤其是二进制大数据(如图像、视频等),通常会涉及BLOB(Binary Large Object)类型的数据。BLOB是数据库中用于存储...
理解HBase的行键(Row Key)设计和Region分裂策略对于优化数据存取性能至关重要。 **MapReduce**是Hadoop处理大数据的主要计算模型。在Eclipse中编写MapReduce程序,你可以亲身体验数据处理的"分而治之"思想。Map...
2. 大数据平台构建:大数据平台的构建主要包括数据存储技术、数据开发技术、数据计算技术等,其中数据开发技术主要负责搭建平台的上层架构,用于数据的处理和应用。 3. 商业大数据类型:商业大数据包括传统企业数据...
在大数据存储及分层实践中,腾讯大数据调度平台扮演着至关重要的角色。这个平台是腾讯内部大规模数据处理的核心组件,旨在高效、稳定地管理并调度海量数据的计算任务。本实践主要探讨了如何利用该平台实现大数据的...
大数据技术的核心价值在于对海量数据进行存储和分析。 大数据技术的4V特点: 1. Volume(大量):大数据的体量巨大,从TB级别跃升到PB级别。 2. Velocity(高速):大数据的处理速度快,需要实时分析和处理。 3. ...
3. 存储模块:这一模块提供透明的数据存取功能,确保用户可以方便地存储和访问数据。透明性保证了用户不必了解复杂的存储细节就可以使用系统。 4. 文件读写模块:它的作用是将上层逻辑处理和底层存储进行隔离,这...
### 用Visual C++实现大数据量的快速存取 #### 摘要 随着卫星遥感及航空遥感技术的迅速发展,通过遥感获得的数据量急剧增加,尤其是在高分辨率传感器的应用背景下,数据的增长呈现出几何级数的趋势。如何有效地...