Hadoop的几个明显缺点如下:
1. 采用Java实现。Java的IO处理虽然没有性能瓶颈,但是对于CPU密集型的任务是一个噩耗。这点可以通过对比HBase和Hypertable两个开源的Bigtable实现来做初步的验证。
2. 开源项目。开源本身是一柄双刃剑,它方便了大多数人,但是对于一个有一定规模的公司,项目发展方向的把握,技术保密,技术支持等都是采用Hadoop这种开源项目必须考虑的问题。另外,Hadoop作为一个比较新的项目,性能和稳定性的提升还需要一定时间。
1. 简化运维:在大规模集群中,机器宕机,网络异常,磁盘错都属于正常现象,因此错误检查,自动恢复是核心架构目标。Google的解决方案就已经做到了机器随时加入/离开集群。
2. 高吞吐量:高吞吐量和低延迟是两个矛盾的目标,Hadoop优先追求高吞吐量,设计和实现中采用了小操作合并,基于操作日志的更新等提高吞吐量的技术。
3. 节省机器成本:Hadoop鼓励部署时利用大容量的廉价机器(性价比高但是机器故障概率大),数据的存储和服务也分为HDFS和HBase两个层次,从而最大限制地利用机器资源。
4. 采用单Master的设计:单Master的设计极大地简化了系统的设计和实现,由此带来了机器规模限制和单点失效问题。对于机器规模问题,由于 Hadoop是数据/计算密集型系统,而不是元数据密集型系统,单Master设计的单个集群可以支持成千上万台机器,对于现在的几乎所有应用都不成问题;而单点失效问题可以通过分布式锁服务或其它机制有效地解决。
分享到:
相关推荐
标题中的“hadoop相关的十几篇论文”表明这些文档聚焦于Hadoop技术,这是一个开源的分布式计算框架,由Apache软件基金会维护。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们共同...
- **Hadoop 框架组成**:主要包括 HDFS(Hadoop Distributed File System)、MapReduce、YARN(Yet Another Resource Negotiator)等几个主要组件。 - **Hadoop 官网地址**:官方网站提供了详细的文档和技术支持,是...
- **知识点说明**:Hadoop的核心配置主要包括以下几个文件:`core-site.xml`、`hdfs-site.xml` 和 `mapred-site.xml`(或 `yarn-site.xml` 在YARN环境中)。这些文件包含了Hadoop运行所需的各项参数设置。 10. **...
在Hadoop面试中,可能会遇到以下几个关键知识点: 1. Hadoop的架构:理解Hadoop的主节点(NameNode)和从节点(DataNode)的角色,以及Secondary NameNode的作用。 2. HDFS的工作原理:深入理解数据块的概念,以及...
本篇文章将详细介绍Hadoop中的几种常见调度算法,包括FIFO(先进先出)、公平调度算法以及计算能力调度算法。 1. FIFO调度算法: FIFO调度算法是最简单的调度策略,其基本思想是按照作业提交的顺序进行调度。所有...
通常,Hadoop中的Join可以分为几种类型:Bucket Join、Sort-Merge Join、Replicated Join和Map-Side Join等。每种Join策略都有其适用场景和优缺点。 `hadoop_join.jar`是一个针对Hadoop环境设计的Join查询工具,它...
JVM的架构可以分为以下几个部分: - **程序计数器(Program Counter Register)**:当前线程所执行的字节码的行号指示器。 - **虚拟机栈(Java Virtual Machine Stack)**:每个线程私有的,用于存储局部变量表、操作数...
本文旨在探讨Hadoop框架下的几种常见压缩算法,并对其性能特点进行对比分析。 #### 大数据的特点 大数据通常具有三个显著特征:体积(Volume)、多样性(Variety)以及价值密度(Value Density)。 - **体积...
在分析和实践OpenStack与Hadoop的整合过程中,我们可以看到几个重要的知识点和实践领域。首先,云计算与大数据技术的结合是现代IT领域的一个主要发展趋势。云计算提供了基础设施,使得大数据应用能够在这一平台上...
通过对比Hadoop和Lustre的结构设计,可以更好地理解两种系统的优缺点,为进一步优化Hadoop平台提供更多的启示和借鉴。 综上所述,本文不仅提供了Hadoop平台性能优化的实用指南,也为后续研究指明了方向。随着技术的...
### 基于Hadoop的几大开源类SQL查询系统对比 #### 1. Hive **简介** Hive是一款基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为数据库表,并支持SQL查询功能。它能将SQL语句转换为MapReduce任务执行,为...
这一决策基于以下几个关键因素: 1. **一致性(Consistency)**:为了确保用户能够获得一致的数据体验,Facebook 需要一个能够在大规模数据操作中保持数据一致性的系统。 2. **可用性(Availability)**:鉴于 ...
HDFS的组成架构主要包括以下几个部分: * Namenode(NN):负责管理HDFS的元数据,例如文件的名称、权限、块信息等。 * Datanode(DN):负责存储和管理HDFS的数据块。 * Secondary Namenode(2NN):负责 Namenode...
本文从几个方面详细分析了Hadoop在大数据处理中的应用优势,并在结尾部分指出了其存在的缺点。 首先,Hadoop的分布式架构允许其存储和处理TB级别的数据,而其处理速度之快,可以做到在几分钟内处理完数TB的非结构化...
Yarn的工作机制可以概括为以下几个步骤: 1. 用户提交MapReduce程序到客户端节点。 2. YarnRunner向RM申请一个新的Application,并将应用资源提交至HDFS的指定路径。 3. RM为应用程序分配一个ApplicationId,并将...