Hadoop不是万能的,有些场景适用,有些不适用。
Hadoop设计的目的主要包括下面几个方面,也就是所谓的适用场景:
1:超大文件
可以是几百M,几百T这个级别的文件。
2:流式数据访问
Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析。
3:商业硬件
也就是说大街上到处都能买到的那种硬件,这样的硬件故障率较高,所以要有很好的容错机制。
接下来说说不适用的场景:
1: 低延迟数据访问
Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化,如果要求低延迟, 可以看看Hbase。
2: 大量的小文件
由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的,再多的话就有问题了。
3: 多用户写入,任意修改
Hadoop现在还不支持多人写入,任意修改的功能。也就是说每次写入都会添加在文件末尾。
相关推荐
Hadoop学习资料(一)包含了从第一周到第十六周的课程笔记,是作者在深入学习Hadoop过程中积累的知识结晶。这份资料对于那些想要踏入大数据处理领域的初学者或者是正在提升Hadoop技能的人来说,无疑是一份宝贵的资源...
### Hadoop 学习资源概览 #### 一、Hadoop 官方文档 ...以上资源覆盖了Hadoop学习的各个方面,从理论到实践,从基础到高级,旨在帮助初学者系统地掌握Hadoop及其相关技术。希望这些资源能够对你有所帮助!
* 大数据的基石——Hadoop技术和应用:Hadoop技术的基本概念、技术架构和应用场景 * 近期发展势头最猛的技术——Spark的应用:Spark技术的基本概念、技术架构和应用场景 * “中档价格买中档车的配置”——MPP数据库...
根据提供的文件信息,我们可以推断出这是一份关于大数据领域内Hive技术的学习资源,包含视频教程及相关的学习笔记。接下来将围绕这份资料的核心内容——Hive在大数据处理中的应用,进行详细的阐述与解析。 ### ...
- **使用内嵌Derby作为元数据库**:这种方式适用于单机测试或学习目的,但不适合生产环境下的使用,因为Derby数据库不具备多用户访问的支持。 - 准备工作:确保安装Hive的机器上有Hadoop环境(安装目录,HADOOP_...
【传智博客大数据三阶段笔记】是一份详细记录了大数据技术学习进程的资源集合,主要集中在第三阶段——实时处理。这份笔记涵盖了大数据领域的核心概念、工具和技术,旨在帮助读者深入理解并掌握大数据实时处理的各个...
《大数据技术精要——以BigData-Notes-master为线索》 大数据,作为21世纪信息技术领域的重要里程碑,正引领着一场深刻的科技革命。在我们所探讨的“BigData-Notes-master”项目中,包含了对大数据处理、分析及应用...
《开源数据分析平台——Apache Zeppelin深度解析》 在大数据时代,数据分析成为了企业决策的重要依据,而Apache Zeppelin作为一款开源的数据分析平台,以其强大的协作功能和丰富的可视化能力,深受广大数据分析师和...
- Storm 支持与其他大数据处理工具如 Hadoop、Kafka 等进行集成。 - **1.4.2 简单的API** - Storm 提供了简洁易用的 API,便于开发者快速上手。 - **1.4.3 可扩展的** - Storm 的架构设计使其易于扩展,可以根据...
6. **教育应用**:在教学场景中,Jupyter Notebook被广泛用来创建教程和课程,因为它允许教师混合代码、解释和示例,使学生能够直接在文档中实验和学习。 7. **IPython内核**:Jupyter Notebook基于IPython,后者是...