注:本文翻译自 http://www.cyanny.com/2013/12/05/hadoop-isnt-silver-bullet/
Hadoop是一个分布式海量数据计算的伟大框架。但是,hadoop并不是万能的。比如,以下场景就不适合用hadoop:
1、低延迟数据访问
需要实时查询并在毫秒级内进行低延时访问数据就不适合用hadoop。Hadoop并不适用于数据库。
数据库的索引记录可降低延时的时间,提高响应的速度。但是,如果你在数据库这方面确实有
实时查询的需求,可以尝试一下HBase,这是一个适合随机访问和实时读写的列式数据库。
2、结构化的数据
Hadoop不适用于处理关联紧密的结构化数据,但非常适合处理半结构化和非结构化的数据。
它以文件形式存储数据,不像RDBMS使用索引来存储。因此,每一个查询都要用mapReduce作业
来处理,这样就面临着延时问题。
3、数据量并不大的时候
Hadoop到底处理多大的数据量呢?答案是TB或PB级别。当待分析的数据只有几十个G的时候,
使用hadoop并不划算。不要一味跟随潮流的去使用hadoop,而要看看你自己的需求。
4、大量的小文件
当有大量的小文件时,由于NameNode需存储block块的映射信息和元数据信息,导致namenode面
临着巨大的内存压力。为了解决nameNode的这个瓶颈,hadoop使用了HDFS Federation(联邦)机制。
5、频繁的写操作和文件更新
HDFS使用一次写入多次读取的方式。当有太多的文件需要更新时,hadoop并支持这种情况。
6、MapReduce(以下简称MR)或许不是最佳的选择
MapReduce是一个简单的并行编程模型。由于并行性,因此你需要确保每一个MR作业所处
理的数据和其他的作业相互独立开来。每个MR不应该有依赖关系。
如果你在MR中共享一些数据的话,你可以这样做:
迭代:运行多个MR作业,前一个的输出结果作为下一个作业的输入。
共享状态信息:不要在内存中共享信息,因为每个MR作业是运行在单个JVM实例上的。
相关推荐
然而,Hadoop并不是万能的,它与其他数据存储和处理技术相比,既有优势也有局限性。本文将从企业应用的角度,对比Hadoop技术与其他传统技术之间的差异,并分析其比较优势。 首先,我们来看Hadoop的主要技术特性以及...
然而,尽管Hadoop在某些大数据处理方面表现出色,但它并非万能的。本文将探讨Hadoop在处理大数据运算中的局限性,并试图澄清有关Hadoop的优势与弱点的常见误解。 首先,Hadoop主要是为了支持某些批处理形式的分布式...
为了弥补这些不足,后来出现了如Spark、Flink等新一代大数据处理框架,它们在速度和易用性上有所提升,但Hadoop仍然是大数据处理的基础,对理解整个大数据领域至关重要。 44页的课件中,可能会详细讲解Hadoop的安装...
然而,Hadoop并非万能,它并不取代现有的系统,而是作为补充,强化传统系统对大量数据的处理能力。在这个背景下,数据集成显得尤为重要,因为组织需要将Hadoop与其他系统的数据结合,以实现深度的业务洞察。...
总结来说,Hadoop是一个强大的分布式计算框架,通过其核心组件HDFS、MapReduce和YARN,以及丰富的生态系统,为企业提供了解决大数据存储、处理和分析问题的有效途径。在实际应用中,需要根据具体业务需求选择合适的...
然而,Hadoop并非万能,它不适合存储小文件,不支持频繁的文件修改,且随机读取性能不佳,更适合写一次读多次的应用场景。Hadoop体系还包括如Pig、Hive等工具,Pig提供了一个高级的数据流语言来简化Hadoop上的大规模...
在IT行业中,"导出万能Excel"通常指的是利用编程技术生成或操作Excel文件的能力,以便处理大量数据、实现自定义格式化或者自动化数据分析。这个标题暗示了一个集合,里面包含了各种用于高效、灵活地导出Excel文件的...
【大数据存储与处理-第三讲84.pptx】的内容主要涵盖了Hadoop的基本架构、...然而,尽管Hadoop在处理特定类型的任务上表现出色,但它并非万能,对于某些CPU密集型任务或需要高度一致性的应用场景,可能不是最佳选择。
《万能数据库连接工具——DBeaver7.0详解》 DBeaver是一款广受欢迎的开源、免费的数据库管理工具,适用于多种操作系统,包括Windows、Linux和Mac OS。这款工具以其强大的功能和友好的用户界面,深受广大数据库管理...
sqlDbPersonal以轻量化为设计理念,体积小巧,但功能强大。它在保证功能全面的同时,避免了大型软件的资源占用,适合于各种硬件环境,特别是对于服务器和嵌入式设备,其低资源消耗的特性显得尤为突出。 三、数据库...
总的来说,Hadoop是一种强大的大数据处理工具,适用于那些需要处理PB级数据,且对延迟不敏感的应用场景。随着大数据的持续增长,Hadoop及其生态系统将继续在大数据处理领域发挥重要作用,为企业提供更高效的数据洞察...
6. **分布式搜索引擎**:对于大规模数据,单机处理效率低下,所以搜索引擎往往采用分布式架构,如Hadoop或Spark。这些框架可以分布式存储数据、并行处理任务,提高性能。 7. **免费代码与开源**:开源搜索引擎项目...
然而,Hadoop并不是万能的,它并不适合所有大数据场景,特别是在实时计算和流处理方面。淘宝作为一家以数据驱动为核心的企业,面对的挑战是数据量的巨大、数据类型的多样、数据维度的丰富以及数据质量的参差不齐。 ...
此外,Hadoop的生态系统虽然强大,但需要合理的架构设计和优化才能充分发挥其潜力。 【开源文件系统】 为了支持大数据分析,有多个优秀的开源文件系统可供选择,如Hadoop的HDFS、GlusterFS、Ceph等。这些文件系统...
然而,需要注意的是,尽管Zookeeper提供了强大的功能,但它并不是解决所有问题的万能工具,正确理解和使用Zookeeper是关键。在实际应用中,应根据具体需求和Zookeeper的特性进行适配,以实现最佳效果。
尽管MapReduce在处理大数据方面表现出色,但其并非万能。对于需要低延迟查询和复杂事务处理的应用,如在线交易系统,RDBMS仍然具有不可替代的优势。此外,MapReduce的编程模型较为复杂,对开发者的技能要求较高,而...
此外,他还强调了在选择技术栈时不应盲目追求单一工具的“万能”性,如认为Oracle、GreenPlum或Hadoop可以解决所有问题,而忽视了这些工具各自的适用场景。 - **分布式存储计算**:淘宝采用了大规模的分布式存储和...