`

转-Hadoop虽强大,但不是万能的

阅读更多

注:本文翻译自 http://www.cyanny.com/2013/12/05/hadoop-isnt-silver-bullet/

 

Hadoop是一个分布式海量数据计算的伟大框架。但是,hadoop并不是万能的。比如,以下场景就不适合用hadoop

 

1、低延迟数据访问

需要实时查询并在毫秒级内进行低延时访问数据就不适合用hadoopHadoop并不适用于数据库。

数据库的索引记录可降低延时的时间,提高响应的速度。但是,如果你在数据库这方面确实有

实时查询的需求,可以尝试一下HBase,这是一个适合随机访问和实时读写的列式数据库。

 

2、结构化的数据

Hadoop不适用于处理关联紧密的结构化数据,但非常适合处理半结构化和非结构化的数据。

它以文件形式存储数据,不像RDBMS使用索引来存储。因此,每一个查询都要用mapReduce作业

来处理,这样就面临着延时问题。

 

3、数据量并不大的时候

Hadoop到底处理多大的数据量呢?答案是TBPB级别。当待分析的数据只有几十个G的时候,

使用hadoop并不划算。不要一味跟随潮流的去使用hadoop,而要看看你自己的需求。

 

4、大量的小文件

当有大量的小文件时,由于NameNode需存储block块的映射信息和元数据信息,导致namenode

临着巨大的内存压力。为了解决nameNode的这个瓶颈,hadoop使用了HDFS Federation(联邦)机制。

 

5、频繁的写操作和文件更新

HDFS使用一次写入多次读取的方式。当有太多的文件需要更新时,hadoop并支持这种情况。

 

 

6、MapReduce(以下简称MR)或许不是最佳的选择

MapReduce是一个简单的并行编程模型。由于并行性,因此你需要确保每一个MR作业所处

理的数据和其他的作业相互独立开来。每个MR不应该有依赖关系。

 

如果你在MR中共享一些数据的话,你可以这样做:

迭代:运行多个MR作业,前一个的输出结果作为下一个作业的输入。

共享状态信息:不要在内存中共享信息,因为每个MR作业是运行在单个JVM实例上的。

 

 

分享到:
评论

相关推荐

    Hadoop技术对比分析

    然而,Hadoop并不是万能的,它与其他数据存储和处理技术相比,既有优势也有局限性。本文将从企业应用的角度,对比Hadoop技术与其他传统技术之间的差异,并分析其比较优势。 首先,我们来看Hadoop的主要技术特性以及...

    Hadoop 在大数据运算中的限制

    然而,尽管Hadoop在某些大数据处理方面表现出色,但它并非万能的。本文将探讨Hadoop在处理大数据运算中的局限性,并试图澄清有关Hadoop的优势与弱点的常见误解。 首先,Hadoop主要是为了支持某些批处理形式的分布式...

    完整版大数据课件集合2-大数据导论-第二章-大数据处理架构Hadoop(共44页).rar

    为了弥补这些不足,后来出现了如Spark、Flink等新一代大数据处理框架,它们在速度和易用性上有所提升,但Hadoop仍然是大数据处理的基础,对理解整个大数据领域至关重要。 44页的课件中,可能会详细讲解Hadoop的安装...

    Informatica与Hadoop

    然而,Hadoop并非万能,它并不取代现有的系统,而是作为补充,强化传统系统对大量数据的处理能力。在这个背景下,数据集成显得尤为重要,因为组织需要将Hadoop与其他系统的数据结合,以实现深度的业务洞察。...

    hadoop是什么共3页.pdf.zip

    总结来说,Hadoop是一个强大的分布式计算框架,通过其核心组件HDFS、MapReduce和YARN,以及丰富的生态系统,为企业提供了解决大数据存储、处理和分析问题的有效途径。在实际应用中,需要根据具体业务需求选择合适的...

    基于Hadoop的大数据处理关键技术综述22.pptx

    然而,Hadoop并非万能,它不适合存储小文件,不支持频繁的文件修改,且随机读取性能不佳,更适合写一次读多次的应用场景。Hadoop体系还包括如Pig、Hive等工具,Pig提供了一个高级的数据流语言来简化Hadoop上的大规模...

    导出万能Excel(最精开发版)

    在IT行业中,"导出万能Excel"通常指的是利用编程技术生成或操作Excel文件的能力,以便处理大量数据、实现自定义格式化或者自动化数据分析。这个标题暗示了一个集合,里面包含了各种用于高效、灵活地导出Excel文件的...

    大数据存储与处理-第三讲84.pptx

    【大数据存储与处理-第三讲84.pptx】的内容主要涵盖了Hadoop的基本架构、...然而,尽管Hadoop在处理特定类型的任务上表现出色,但它并非万能,对于某些CPU密集型任务或需要高度一致性的应用场景,可能不是最佳选择。

    万能数据库 连接工具,dbeaver7.0工具

    《万能数据库连接工具——DBeaver7.0详解》 DBeaver是一款广受欢迎的开源、免费的数据库管理工具,适用于多种操作系统,包括Windows、Linux和Mac OS。这款工具以其强大的功能和友好的用户界面,深受广大数据库管理...

    sqlDbPersonal 万能数据库连接器

    sqlDbPersonal以轻量化为设计理念,体积小巧,但功能强大。它在保证功能全面的同时,避免了大型软件的资源占用,适合于各种硬件环境,特别是对于服务器和嵌入式设备,其低资源消耗的特性显得尤为突出。 三、数据库...

    大数据存储与处理第三讲84.pptx

    总的来说,Hadoop是一种强大的大数据处理工具,适用于那些需要处理PB级数据,且对延迟不敏感的应用场景。随着大数据的持续增长,Hadoop及其生态系统将继续在大数据处理领域发挥重要作用,为企业提供更高效的数据洞察...

    万能的搜索引擎免费代码

    6. **分布式搜索引擎**:对于大规模数据,单机处理效率低下,所以搜索引擎往往采用分布式架构,如Hadoop或Spark。这些框架可以分布式存储数据、并行处理任务,提高性能。 7. **免费代码与开源**:开源搜索引擎项目...

    淘宝海量数据技术收集.pdf

    然而,Hadoop并不是万能的,它并不适合所有大数据场景,特别是在实时计算和流处理方面。淘宝作为一家以数据驱动为核心的企业,面对的挑战是数据量的巨大、数据类型的多样、数据维度的丰富以及数据质量的参差不齐。 ...

    PB级大数据存储技术与分析技术解析44.docx

    此外,Hadoop的生态系统虽然强大,但需要合理的架构设计和优化才能充分发挥其潜力。 【开源文件系统】 为了支持大数据分析,有多个优秀的开源文件系统可供选择,如Hadoop的HDFS、GlusterFS、Ceph等。这些文件系统...

    Zookeeper学习笔记

    然而,需要注意的是,尽管Zookeeper提供了强大的功能,但它并不是解决所有问题的万能工具,正确理解和使用Zookeeper是关键。在实际应用中,应根据具体需求和Zookeeper的特性进行适配,以实现最佳效果。

    中国人民大学王珊-大数据分析——RDBMS与MapReduce的竞争与共生

    尽管MapReduce在处理大数据方面表现出色,但其并非万能。对于需要低延迟查询和复杂事务处理的应用,如在线交易系统,RDBMS仍然具有不可替代的优势。此外,MapReduce的编程模型较为复杂,对开发者的技能要求较高,而...

    CSDN大数据应用大会PPT――09-赵昆:淘宝海量数据技术.pdf

    此外,他还强调了在选择技术栈时不应盲目追求单一工具的“万能”性,如认为Oracle、GreenPlum或Hadoop可以解决所有问题,而忽视了这些工具各自的适用场景。 - **分布式存储计算**:淘宝采用了大规模的分布式存储和...

Global site tag (gtag.js) - Google Analytics