大数据的存储和管理
任何机器都会有物理上的限制:内存容量、硬盘容量、处理器速度等等,我们需要在这些硬件的限制和性能之间做出取舍,比如内存的读取速度比硬盘快得多,因此内存数据库比硬盘数据库性能好,但是内存为2GB的机器不可能将大小为100GB的数据全部放入内存中,也许内存大小为128GB的机器能够做到,但是数据增加到200GB时就无能为力了。
数据不断增长造成单机系统性能不断下降,即使不断提升硬件配置也难以跟上数据的增长速度。然而,当今主流的计算机硬件比较便宜而且可以扩展,现在购置八台8内核、128GB内存的机器比购置一台64内核、TB级别内存的服务器划算得多,而且还可以增加或减少机器来应对将来的变化。这种分布式架构策略对于海量数据来说是比较适合的,因此,许多海量数据系统选择将数据放在多个机器中,但也带来了许多单机系统不曾有的问题。
下面我们介绍大数据存储和管理发展过程中出现的四类大数据存储和管理数据库系统。
并行数据库[1]是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。
水平划分的主要思想就是根据某种策略将关系表中的元组分布到集群中的不同节点上,这些节点上的表结构是一样的,这样就可以对元组并行处理。现有的分区策略有哈希分区、范围分区、循环分区等。例如,哈希分区策略是将表T中的元组分布到n个节点上,可以使用统一的哈希算法对元组中的某个或某几个属性进行哈希,如hash(T.attribute1) mod n,然后根据哈希值将元组放置到不同的节点上。
在分区存储的表中处理SQL查询需要使用基于分区的执行策略,如获取表T中某一数值范围内的元组,系统首先为整个表T生成总的执行计划P,然后将P拆分成n个子计划{P1,…,Pn},子计划Pi在节点ni上独立执行,最后每个节点将生成的中间结果发送到某一选定的节点上,该节点对中间结果进行聚集产生最终的结果。
并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。最近一些年不断涌现一些提高系统性能的新技术,如索引、压缩、实体化视图、结果缓存、I/O共享等,这些技术都比较成熟且经得起时间的考验。与一些早期的系统如Teradata必须部署在专有硬件上不同,最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上,这些数据库系统可以称得上准云系统。
并行数据库系统的主要缺点就是没有较好的弹性,而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的,若需要对集群进行扩展和收缩,则必须为数据转移过程制订周全的计划。这种数据转移的代价是昂贵的,并且会导致系统在某段时间内不可访问,而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。
并行数据库的另一个问题就是系统的容错性较差,过去人们认为节点故障是个特例,并不经常出现,因此系统只提供事务级别的容错功能,如果在查询过程中节点发生故障,那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询,因为在这类集群中节点的故障经常发生。基于这种分析,并行数据库只适合于资源需求相对固定的应用程序。不管怎样,并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。
NoSQL[5]一词最早出现于1998年,它是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的关系型数据库(他认为,由于NoSQL悖离传统关系数据库模型,因此,它应该有一个全新的名字,比如“NoREL”或与之类似的名字[6])。
2009年,Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论[7],来自Rackspace的Eric Evans再次提出了NoSQL的概念,这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。
2009年在亚特兰大举行的“no:sql(east)”讨论会是一个里程碑,其口号是"select fun, profit from real_world where relational=false;"。因此,对NoSQL最普遍的解释是“非关系型的”,强调键值存储和文档数据库的优点,而不是单纯地反对关系型数据库。
传统关系型数据库在处理数据密集型应用方面显得力不从心,主要表现在灵活性差、扩展性差、性能差等方面。最近出现的一些存储系统摒弃了传统关系型数据库管理系统的设计思想,转而采用不同的解决方案来满足扩展性方面的需求。这些没有固定数据模式并且可以水平扩展的系统现在统称为NoSQL(有些人认为称为NoREL更为合理),这里的NoSQL指的是“Not Only SQL”,即对关系型SQL数据系统的补充。NoSQL系统普遍采用的一些技术有:
简单数据模型。不同于分布式数据库,大多数NoSQL系统采用更加简单的数据模型,这种数据模型中,每个记录拥有唯一的键,而且系统只需支持单记录级别的原子性,不支持外键和跨记录的关系。这种一次操作获取单个记录的约束极大地增强了系统的可扩展性,而且数据操作就可以在单台机器中执行,没有分布式事务的开销。
元数据和应用数据的分离。NoSQL数据管理系统需要维护两种数据:元数据和应用数据。元数据是用于系统管理的,如数据分区到集群中节点和副本的映射数据。应用数据就是用户存储在系统中的商业数据。系统之所以将这两类数据分开是因为它们有着不同的一致性要求。若要系统正常运转,元数据必须是一致且实时的,而应用数据的一致性需求则因应用场合而异。因此,为了达到可扩展性,NoSQL系统在管理两类数据上采用不同的策略。还有一些NoSQL系统没有元数据,它们通过其他方式解决数据和节点的映射问题。
弱一致性。NoSQL系统通过复制应用数据来达到一致性。这种设计使得更新数据时副本同步的开销很大,为了减少这种同步开销,弱一致性模型如最终一致性和时间轴一致性得到广泛应用。
通过这些技术,NoSQL能够很好地应对海量数据的挑战。相对于关系型数据库,NoSQL数据存储管理系统的主要优势有:
避免不必要的复杂性。关系型数据库提供各种各样的特性和强一致性,但是许多特性只能在某些特定的应用中使用,大部分功能很少被使用。NoSQL系统则提供较少的功能来提高性能。
高吞吐量。一些NoSQL数据系统的吞吐量比传统关系数据管理系统要高很多,如Google使用MapReduce每天可处理20PB存储在Bigtable中的数据。
高水平扩展能力和低端硬件集群。NoSQL数据系统能够很好地进行水平扩展,与关系型数据库集群方法不同,这种扩展不需要很大的代价。而基于低端硬件的设计理念为采用NoSQL数据系统的用户节省了很多硬件上的开销。
避免了昂贵的对象-关系映射。许多NoSQL系统能够存储数据对象,这就避免了数据库中关系模型和程序中对象模型相互转化的代价。
NoSQL向人们提供了高效便宜的数据管理方案,许多公司不再使用Oracle甚至MySQL,他们借鉴Amzon的Dynamo和Google的Bigtable的主要思想建立自己的海量数据存储管理系统,一些系统也开始开源,如Facebook将其开发的Cassandra捐给了Apache软件基金会。
虽然NoSQL数据库提供了高扩展性和灵活性,但是它也有自己的缺点,主要有:
数据模型和查询语言没有经过数学验证。SQL这种基于关系代数和关系演算的查询结构有着坚实的数学保证,即使一个结构化的查询本身很复杂,但是它能够获取满足条件的所有数据。由于NoSQL系统都没有使用SQL,而使用的一些模型还未有完善的数学基础。这也是NoSQL系统较为混乱的主要原因之一。
不支持ACID特性。这为NoSQL带来优势的同时也是其缺点,毕竟事务在很多场合下还是需要的,ACID特性使系统在中断的情况下也能够保证在线事务能够准确执行。
功能简单。大多数NoSQL系统提供的功能都比较简单,这就增加了应用层的负担。例如如果在应用层实现ACID特性,那么编写代码的程序员一定极其痛苦。
没有统一的查询模型。NoSQL系统一般提供不同查询模型,这一定程度上增加了开发者的负担。
人们曾普遍认为传统数据库支持ACID和SQL等特性限制了数据库的扩展和处理海量数据的性能,因此尝试通过牺牲这些特性来提升对海量数据的存储管理能力,但是现在一些人则持有不同的观念,他们认为并不是ACID和支持SQL的特性,而是其他的一些机制如锁机制、日志机制、缓冲区管理等制约了系统的性能,只要优化这些技术,关系型数据库系统在处理海量数据时仍能获得很好的性能。
关系型数据库处理事务时对性能影响较大、需要优化的因素有:
通信。应用程序通过ODBC或JDBC与DBMS进行通信是OLTP事务中的主要开销。
日志。关系型数据库事务中对数据的修改需要记录到日志中,而日志则需要不断写到硬盘上来保证持久性,这种代价是昂贵的,而且降低了事务的性能。
锁。事务中修改操作需要对数据进行加锁,这就需要在锁表中进行写操作,造成了一定的开销。
闩。关系型数据库中一些数据结构,如B树、锁表、资源表等的共享影响了事务的性能。这些数据结构常常被多线程读取,所以需要短期锁即闩。
缓冲区管理。关系型数据将数据组织成固定大小的页,内存中磁盘页的缓冲管理会造成一定的开销。
为了解决上面的问题,一些新的数据库采用部分不同的设计,它取消了耗费资源的缓冲池,在内存中运行整个数据库。它还摈弃了单线程服务的锁机制,也通过使用冗余机器来实现复制和故障恢复,取代原有的昂贵的恢复操作。这种可扩展、高性能的SQL数据库被称为NewSQL,其中“New”用来表明与传统关系型数据库系统的区别,但是NewSQL也是很宽泛的概念。它首先由451集团[1]在一份报告中提出,其主要包括两类系统:拥有关系型数据库产品和服务,并将关系模型的好处带到分布式架构上;或者提高关系数据库的性能,使之达到不用考虑水平扩展问题的程度。前一类NewSQL包括Clustrix、GenieDB、ScalArc、ScaleBase、NimbusDB,也包括带有NDB的MySQL集群、Drizzle等。后一类NewSQL包括Tokutek、JustOne DB。还有一些“NewSQL即服务”,包括Amazon的关系数据库服务、Microsoft的SQL Azure、FathomDB等。
当然,NewSQL和NoSQL也有交叉的地方,例如,RethinkDB可以看作NoSQL数据库中键/值存储的高速缓存系统,也可以当作NewSQL数据库中MySQL的存储引擎。现在许多NewSQL提供商使用自己的数据库为没有固定模式的数据提供存储服务,同时一些NoSQL数据库开始支持SQL查询和ACID事务特性。
NewSQL能够提供SQL数据库的质量保证,也能提供NoSQL数据库的可扩展性。VoltDB是NewSQL的实现之一,其开发公司的CTO宣称,它们的系统使用NewSQL的方法处理事务的速度比传统数据库系统快45倍。VoltDB可以扩展到39个机器上,在300个CPU内核中每分钟处理1600万事务,其所需的机器数比Hadoop集群要少很多。
随着NoSQL、NewSQL数据库阵营的迅速崛起,当今数据库系统“百花齐放”,现有系统达数百种之多,图1-1将广义的数据库系统进行了分类[2]。
图1-1 数据库系统的分类[3]
图1-1中将数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库四大类。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
高容量、高分布式、高复杂性应用程序的需求迫使传统数据库不断扩展自己的容量极限,这些驱动传统关系型数据库采用不同的数据管理技术的6个关键因素可以概括为“SPRAIN”,即:
可扩展性(Scalability)——硬件价格
高性能(Performance)——MySQL的性能瓶颈
弱一致性(Relaxed consistency)——CAP理论
敏捷性(Agility)——持久多样性
复杂性(Intricacy)——海量数据
必然性(Necessity)——开源
作者简介
陆嘉恒,中国人民大学教授,博士生导师。2006年毕业于新加坡国立大学计算机科学系,获博士学位;2006-2008年在美国加利福尼亚大学尔湾分校(University of California, Irvine)进行博士后研究;2008年加入中国人民大学,2012年破格晋升为教授。主要研究领域包括数据库技术和云计算技术。先后在SIGMOD、VLDB、ICDE、WWW等国际重要会议和期刊上发表数据库方向的论文40多篇,主编多本云计算和大数据的教材和著作。
本文节选自《大数据挑战与NoSQL数据库技术》一书。陆嘉恒编著,由电子工业出版社出版。
相关推荐
多样化的存储解决方案不仅包括硬件,还包括软件技术,如自动化工具、重复数据删除、压缩等,它们可以提高存储效率,减少数据占用的空间,同时简化管理和维护。软件定义的存储解决方案可以帮助企业灵活调整存储策略,...
99-山西省大数据存储和管理规范0613V2.0.docx
华为大数据存储教程系列
大数据存储管理大趋势
最后,如何有效地管理和维护PCM存储系统仍需进一步研究和探索。 结论 本次演示对基于PCM的大数据存储与管理研究进行了全面的综述。通过探讨PCM在大数据存储与管理领域的应用现状、方法、成果和不足,发现PCM存储...
智慧林业是指通过借助信息化技术和大数据分析手段,实现在林业领域的智能化管理和服务。它旨在实现林业资源的高效利用、生态环境的保护和林业产业的可持续发展。 智慧林业八大核心 智慧林业的八大核心包括: 1. ...
综上所述,大数据存储与处理的关键技术主要涵盖大数据存储架构的优化、重复数据删除技术和编码优化。这些技术对于应对大数据体量大、速度快和价值密度低的挑战至关重要。通过高效的存储架构,我们可以实现数据的有效...
### 大数据存储技术和标准化 #### 一、引言 随着信息技术的快速发展,大数据已成为推动社会进步的关键力量之一。大数据不仅包含着巨大的商业价值和社会意义,同时也带来了前所未有的技术挑战,尤其是在数据存储...
在当前信息化社会中,大数据已成为各行各业的重要资源,而如何有效存储、管理和分析这些海量数据是信息技术领域的重要挑战。这份大纲详细列出了大数据存储课程的教学目标、内容结构、教学方法以及评估标准,旨在为...
在政务方面,大数据存储和分析技术可以用于智能管理和决策,提高政府工作效率和公共服务水平;在电商方面,大数据存储和分析技术可以用于精准营销和个性化推荐,提高用户体验和平台收益;在物流方面,大数据存储和...
5. **安全性考量**:考虑到大数据存储的安全性问题,需要采取措施确保数据的安全性和合规性,例如通过自主研发或合作引进第三方工具,增强数据保护能力。 #### 四、大数据在各行业的应用 1. **能源行业**:利用...
大数据管理的工作职责包括推进大数据管理、制订数据资源采集、存储、登记、开发利用和共享的标准规范、协调大数据发展和应用、指导大数据工作创新、负责大数据行业管理、信息化应急协调工作等。这些职责是大数据管理...
大数据存储技术是应对当前信息化社会中数据爆炸性增长的关键...目前,Amazon、Google和Apache等公司已经在提供成熟的大数据存储解决方案,但仍有大量的研究工作需要做,以解决上述挑战,并推动大数据存储技术的进步。
大数据存储课程设计实践课程教学大纲是高等教育中针对大数据领域的一项重要教学内容,旨在培养学生的实践能力和理论知识,使他们能够理解和应用大数据存储技术。在这个3页的教学大纲中,可能涵盖了以下关键知识点: ...
为了解决这些问题,大数据存储管理的关键技术主要包括分布式文件系统、分布式数据库、NoSQL数据库和云数据库。 分布式文件系统,如Hadoop的HDFS,是大数据存储的基础。HDFS通过在网络中分布数据到多台计算机上,...
在大数据时代背景下,管理会计作为专门负责企业数据分析与预测的角色,其职能和作用均发生了显著变化。管理会计在企业中的应用现状,所面临的问题以及解决对策是本文探究的核心内容。 首先,大数据时代为管理会计...
首先,大数据技术在教育管理中的应用可以实现管理工作的数据化发展,提升管理和决策的科学性。随着技术的进步,数据的采集、存储、分析和处理能力有了显著提高。这使得教育管理者可以借助大数据平台进行更加准确和...
大数据技术的发展为各行各业带来了变革,尤其在应急管理领域,它为应对突发事件提供了前所未有的技术支持和管理思路。本文将重点探讨大数据在应急管理中的应用,包括其基本概念、技术特点以及实际应用框架,并且分析...
- **建立大数据基础设施**:投资建设大数据存储和处理平台,确保数据的安全性和可用性。 - **培养数据人才**:培养或引进具备数据分析能力的专业人才,提升团队的数据素养。 - **采用先进的分析工具**:引入大数据...