`

hadoop和传统rdbms的比较(翻译)

 
阅读更多

翻译自:hadoop权威指南;

 

和RDBMS的比较:

          为什么我们不能在许多磁盘上运用数据库机型大规模批量分析?为什么MapReduce是不可或缺的?

          问题的答案来自于另一个磁盘的发展趋势:寻道时间的提高远不如传输速率的提高。寻道是磁盘头移动到指定位置的过程,并在其读写数据。它使磁盘操作具有延迟效应,而传输速率仅受限于磁盘带宽。

          如果数据的访问模式主要是由查询而构成的,它将在大部分的数据集的读写上花上相当长的时间,相比于流式读写(工作效率取决于传输速率),另一方面,如果是更新数据集的一小部分记录,传统的B-Tree(传统的关系性数据库的组织结构)表现的很好,但如果是更新一数据库的大部分数据,B-Tree的效率就远不如MapReduce,后者通过排序/合并来重建数据库。

          从许多方面来讲,MapReuce似乎是RDBMS的补充。在需要分析整个数据集,批量查询,特别是即时指定分析的这些问题上,MapReduce的是很适合的,RDBMS适用于在那些为了提供低延迟检索和更新时间而建立索引的数据集上进行点查询和更新。而MapReduce的应用场景是那些数据一次写入,多次读取的应用程序,不同的是关系型数据库适用于数据集的不断更新。

          MapReduce和RDBMS的另一个不同点是在数据集上操作的结构化问题,结构化数据是能被有机整合到定义好的格式实体中的数据,像XML文档或者符合预定义好的模式的数据库表。这是RDBMS的范畴。半结构化数据,另一方面,是松散的,他们虽然有一个模式,但他们常常被忽略,所以仅作为结构化数据的引导:比如,电子表格,由网状单元组成,虽然这些单元是存储数据的地方。非结构化数据没有指定的内部结构:纯文本或者图片;MapReduce在半结构和结构化的数据上表现的性能非常好,因为它被设计在处理的时间内解释数据,换据话讲,键/值对不是数据的固有属性,而是被分析者有机的设计出来的。

          关系型数据经常是标准化,以保证其完整性,并且删除冗余的。而标准化给MapReduce带来的是问题,因为它的读取本就是一个非本地化操作,并且MapReduce的一个核心设想就是使高速流式读取成为可能。

          web服务器日志就是很好的非标准化数据集(比如,客户端每次都被指定完整的主机名,即使同一客户端会出现很多次),这就是为什么所有的日志都很适用于MapReduce进行分析。

          MapReduce是一个线性扩展的变成模型。程序员编写两个函数——一个Map,一个Reduce——它们都是定义了从key到value的映射。这些函数的运行和数据的大小及经营的集群无关,所以它们能不加改变的在小型数据集或大规模数据上运行。更重要的是,如果你的输入扩大至原先的2倍,那么运行时间也会变成原来的两倍,但是如果你同时扩大集群规模同样的大小,那么运行时间就会和原先的一致。这就不是传统RMBMS的查询了。

          然而,随着时间的推移,MapReduce和Rdbms的差别逐渐变得模糊。无论是传统关系型数据库融入了一些MapReduce的想法,还是基于MapReduce的高级查询语言的开发,都使MapReduce接近于传统的数据库。

 

 

分享到:
评论

相关推荐

    Hadoop与RDBMS混搭数据管理的研究和实现.pdf

    传统的关系型数据库管理系统(RDBMS)在对大量数据进行深度分析时表现出了局限性,而Hadoop及其MapReduce技术虽然在大数据处理方面表现出色,但其实时性不强,无法完全替代RDBMS。为了解决这个问题,出现了将RDBMS与...

    Defining your Big Data Arsenal NoSQL, Hadoop, and RDBMS Presentation

    - **迭代难度**:当需要添加新表或修改现有架构时,传统RDBMS难以灵活适应变化。 #### 从复杂到简单:NoSQL数据库 为了克服这些问题,NoSQL数据库(如MongoDB)应运而生。它们提供了一种更加灵活的方式来存储和...

    Hadoop 和 MPP 的比较.docx

    Hadoop 和 MPP 的比较 Hadoop 和 MPP 是两个不同的数据处理解决方案,它们都可以用于处理大规模数据。以下是对这两个解决方案的比较: MPP MPP 代表大规模并行处理,它是网格计算中所有单独节点参与协调计算的...

    RDBMS到Hadoop的迁移方案.pptx

    它是一个专门用于在RDBMS和Hadoop之间导入导出数据的工具,由Apache开发,最初由Cloudera贡献。Sqoop的出现解决了传统数据库与Hadoop之间数据交换的难题,支持批量数据传输,提高了数据迁移的效率和便利性。 **...

    Hadoop技术对比分析

    本文将从企业应用的角度,对比Hadoop技术与其他传统技术之间的差异,并分析其比较优势。 首先,我们来看Hadoop的主要技术特性以及它面向的企业应用案例。Hadoop的设计初衷是为了处理大规模数据集,尤其适用于互联网...

    hbase与rdbms比较

    4. 应用场景:HBase适应大规模数据存储和高性能应用场景,而RDBMS适应传统的企业应用系统。 HBase与RDBMS是两种不同的数据库管理系统,分别适用于不同的应用场景。HBase适应大规模数据存储和高性能应用场景,而...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第15期_HBase、Hive与RDBMS 共15页.pdf

    【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第15期_HBase、Hive与RDBMS 共15页.pdf】这篇资料主要探讨了Hadoop生态系统中的两个重要组件——HBase和Hive,以及它们与传统关系型数据库管理系统(RDBMS)...

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Apache框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的...

    hadoop培训资料

    5. **Sqoop**:Sqoop是一个用于在Hadoop和传统关系型数据库管理系统(RDBMS)之间传输数据的工具。它支持数据导入导出,帮助用户轻松地将结构化数据迁移到Hadoop,或从Hadoop导出到RDBMS。 6. **ZooKeeper**:...

    Hadoop the definition guide

    这表明Hadoop提供了与传统关系型数据库不同的存储和分析机制,特别是在处理非结构化数据方面。 8. Hadoop历史:文中的“ABriefHistoryofHadoop”部分说明了Hadoop的发展史,这有助于读者理解Hadoop技术的起源、演进...

    Hadoop权威指南 第二版(中文版)

     1.4 和传统数据库进行比较  1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite)  1.4.2 更新、事务和索引  1.5 HiveQL  1.5.1 数据类型  1.5.2 操作和函数  1.6 表  1.6.1 托管表(Managed Tables)...

    Hadoop学习笔记.pdf

    在选择HBase时,如果需要处理大量数据,且不依赖于传统的关系数据库管理系统(RDBMS)的特性,如列数据类型、二级索引、事务处理和高级查询语言,那么HBase可以是一个很好的选择。 ZooKeeper是Hadoop生态中的另一个...

    大数据hadoop分享.pptx

    Sqoop用于在Hadoop和传统RDBMS之间传输数据;Oozie是工作流调度系统,管理Hadoop作业的执行;Zookeeper用于分布式协调和服务发现。 总结来说,Hadoop是一个强大且灵活的框架,它改变了我们处理大数据的方式,其生态...

    Hadoop权威指南(中文版)2015上传.rar

    1.4 和传统数据库进行比较 1.4.1 读时模式(Schema on Read)vs.写时模式(Schema on Write) 1.4.2 更新、事务和索引 1.5 HiveQL 1.5.1 数据类型 1.5.2 操作和函数 1.6 表 1.6.1 托管表(Managed Tables)和外部表...

    中国移动hadoop运用.pdf

    3. **规模问题**:传统的RDBMS解决方案无法满足大规模数据存储和实时查询需求,限制了用户体验和服务质量。 #### 解决方案:Hadoop与英特尔技术的融合 面对这些挑战,中国移动广东分公司采取了以下策略,利用...

    hadoop权威指南第三版(英文).pdf

    首先,作者将Hadoop与传统的数据库管理系统的RDBMS进行了比较。接着,介绍了网格计算、志愿者计算等概念,并追溯了Hadoop的历史发展。书中还对Apache Hadoop及其生态系统进行了概述,解释了与Hadoop相关的各种工具和...

    Apache Hadoop Goes Realtime at Facebook

    3. **最佳实践分享**:通过分享自己的实践经验,Facebook希望能够帮助其他公司更好地评估和部署基于Hadoop的解决方案,而不是传统的分片RDBMS部署方案。 综上所述,Facebook选择Hadoop和HBase作为其实时应用的基础...

Global site tag (gtag.js) - Google Analytics