如何让Hadoop支持优先级且性能可预测

资讯频道 → 数据库

0顶
0踩

2016-06-17 11:15 by 副主编 mengyidan1988 评论(0) 有5820人浏览

Hadoop

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

引用

让运行Hadoop的公司产品都能够确保高优先级任务按时完成。

Apache Hadoop近十年的成长证明，用开源技术处理与访问海量数据并不是什么炒作。然而，Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成，也不能完全发挥集群的性能。

YARN（一种新的Hadoop资源管理器）能够实现任务抢占，为队列中的其它任务腾出调度空间。容量调度器与公平调度器可以通过静态配置杀死那些占用集群资源的任务，从而让高优先级任务进行调度。

当队列中堆积了等待资源的任务，这些工具就可以派上用场了。不幸的是，它们无法处理已经发生实时争用问题（contention problems）的任务。YARN不会检测正在运行任务的资源利用率。因此，如果低优先级应用正在独占磁盘I/O或者使得其他硬件资源处于饱和状态，即使是高优先级也需要等待。

随着企业对Hadoop的使用更加深入，开始在多租户集群中执行关键业务，他们需要确保高优先级任务不被低优先级任务阻碍。这是Hadoop提供服务质量（QoS）的先决条件，但目前开源项目尚未解决。

让我们通过图1展示的3个节点简单集群来研究这个问题。这个例子中，队列中有两个任务准备由YARN资源管理器调度。资源管理器决定对HBase流关键业务和低优先级ETL任务在集群上同时运行，并对它们进行调度执行。

图2展示了没有QoS的集群运行情况。YARN确定集群有充足的资源可以同时运行低优先级和关键业务任务。在大多数情况下，需要关键业务任务在（服务级协议 SLA）给定的时间内执行完毕。低优先级任务没有这样的要求，它会先等待高优先级任务并延迟执行。

在这种情况下，低优先级任务开始访问HDFS。接下来，关键业务任务需要访问HDFS相同地址的数据。由于两个任务的读写请求重叠，因此关键业务任务需要等待低优先级任务完成磁盘I/O操作。虽然在这个小例子里，这段等待时间不会导致严重的延迟或者对关键业务的SLA保证造成影响，但是在Hadoop多节点部署时，低优先级负载会很快累积并且争夺对硬件的访问。结果会对高优先级任务执行时间造成不可接受的严重影响。

要解决这个问题有以下几种方法。第一种是为业务关键任务和低优先级应用分别部署到不同的集群。这是一种通常推荐的最佳实践，同时也是确保QoS的完美逻辑解决方案。这种方法的缺点是浪费资源以及对不同集群的额外维护开销。另一种“保证QoS”的方法是维持一个集群，但是手动将低优先级任务限制在非高优先级任务调度的时间段执行。而实际操作中，通常公司会发现这些方法管理起来都过于复杂，不能使用。

一种更加高效的解决方法是监控集群中每个节点的硬件资源，通过实时数据了解哪些任务在控制资源（比如，磁盘I/O），以此解决资源竞争。

Hadoop开源社区将大多数注意力和焦点都专注于让Hadoop使用更简单，部署和操作更容易。尽管如此，还是有技术能够解决实时性能瓶颈。我所在的Pepperdata公司开发了一个解决方案，能够在集群上提供实时秒级监测。可以获得每个集群节点上各个人物运行时占用的硬件资源。利用这些信息，Pepperdata能够在算法上构建一个全局的实时视图，为RAM、CPU、磁盘和跨集群的网络利用率，并且根据需要对资源自动重新分配。与YARN资源管理器相反，后者能够控制任务执行的时间和方式。Pepperdata对硬件使用控制本身也是作为任务运行。

通过在配置文件中指定简单的集群配置，管理员可以指定哪些集群的硬件资源分配给特定分组、用户或任务。Pepperdata可以在实际运行中发现资源争夺并在繁忙的集群上动态预防性能瓶颈。这样就可以让低优先级任务变慢，从而使得高优先级任务可以满足SLA要求，并且最大程度让大量用户和任务能够在单集群上可靠地运行。Pepperdata会根据预设的优先级上下文中查找实时资源分配，以此决定哪些任务允许实时访问硬件资源。

任务执行性能取决于优先级和集群目前的条件，排除对硬件资源致命的争夺以及负载隔离。软件搜集了200个与CPU、RAM、磁盘I/O和网络带宽相关的统计数据。这些数据精确地指出了正在发生哪些问题。这样IT组就可以快速识别并修复问题任务。由于Pepperdata是在一个集中式Hadoop部署中测量真实的硬件使用情况，因此软件可以让IT精确跟踪和界定按部门、用户和任务分摊的共享几圈使用情况。通过保证稳定和可靠的集群性能，Pepperdata能够确保集群的QoS。

Sean Suchter是Pepperdata公司的CEO和联合创始人。他曾经担任微软硅谷技术研究中心的第一任总经理，领导将Facebook和Twitter集成到必应搜索。在加入微软之前，他管理雅虎搜索技术团队，也是Hadoop的第一个产品用户。Sean由于雅虎对Inktomi的收购加入到雅虎团队。他毕业于加利福尼亚理工学院，获得工程和应用科学学士学位。

引用

原文：Prioritize predictable performance in Hadoop
作者： Sean Suchter
译者：赖信涛
责编：钱曙光

查看图片附件

分享到：

0
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop

Hadoop知识点

Hadoop学习笔记

YARN（集群资源管理，任务调度） Hadoop 3.0架构组件和Hadoop 2.0类似3.0着重于性能优化通用方面：精简内核，类路径隔离，shell脚本重构 Hadoop HDFS: EC纠删码，多NameNode支持 Hadoop MapReduce: 任务本地化...

Hadoop的调度器总结

支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。Constraint-based Scheduler（参考资料[6]...

[学习笔记]黑马程序员-Hadoop入门视频教程

hadoop面试题

2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失，宕机后直接导致client无法访问，内存中的元数据丢失，但是硬盘中的元数据应该还存在，如果只是节点挂了，重启即可，如果是机器挂了，重启机器后看节点是否...

大数据学习之路-Hadoop

Hadoop1. 大数据导论1.1 大数据概念1.2 大数据特点1.3 大数据应用场景1.4 大数据部门组织结构2. Hadoop简介与大数据生态2.1 Hadoop的介绍2.2 Hadoop三大发行版本2.3 Hadoop组成2.3.1HDFS架构概述2.3.2 YARN架构概述...

基于Python的大数据Hadoop平台2-2、MapReduce

推荐系统----模板，融会贯通（检索、反作弊、预测）：架构思维，思考方式，解决方法。在正式介绍MR之前，先铺垫一些Hadoop生态圈组件，如图所示，这些组件从下到上看，底层偏存储，上层多是计算框架，而zookeeper...

Hadoop yarn 调度器与算法

Hadoop 作业调度器主要有三种：FIFO（First In First Out）、容量（Capacity Scheduler）和公平（Fair Scheduler）。Apache Hadoop3.1.3 默认的资源调度器是 Capacity Scheduler。 Hadoop: First In First Out ...

Hadoop YARN Cgroups 资源隔离讲解

Hadoop YARN (Yet Another Resource Negotiator) 使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CPU、...

hadoop总结

hadoop总结 Hadoop第一天 1.Vmwarey有三种模式：桥接模式，nat模式，host-only模式一般情况下用nat 2./etc是配置文件的目录/var是储存各种变化的文件。 3.修改主机名：vi/etc/sysconfig/network 修改原 hostname ...

Hadoop YARN的调度器

在选择调度器时，需要根据集群的特性、工作负载和性能需求来做出选择。容量调度器适合需要对不同队列进行资源划分和管理的场景，而公平调度器适合需要在多个作业之间公平共享资源的场景。

Hadoop yarn中Scheduler资源调度器

Constraint-based Scheduler主要针对的是硬实时作业，该调度器根据作业的deadline和当前系统中的实时作业运行情况，预测新提交的实时作业能不能在deadline时间内完成，如果不能，则将作业反馈给用户，让他重调整作业...

EMC：数据中心全闪存年，机架级闪存可让Hadoop提速10倍

针对当前的数字化转型，EMC公司认为，现代数据中心应当具备全闪存、云赋能...其中，DSSD D5可将高级数据分析等应用提速多达10倍，并且可以改变Hadoop的三副本存储机制。EMC预测，到2020年，用于生产应用的所有存储系...

大数据基础——Hadoop大数据平台搭建

文章目录前言Hadoop大数据平台搭建一．Hadoop原理和功能介绍二．Hadoop安装部署三．Hadoop常用操作总结此文章摘自充电了么创始人，CEO兼CTO陈敬雷先生的新书《分布式机器学习实战》（人工智能科学与技术丛书）。更...

管理大数据之初探Hadoop发行版

Hadoop是一项开源技术，它是当今与大数据应用最为息息相关的数据管理平台。该分布式处理框架主要由Yahoo创建于2006年，部分是基于由Google在一些技术论文中所阐述的思想;很快，诸如Facebook，Linkedln以及Twitter之...

Apache Hadoop YARN：另一个资源协调者

历史和基本原理2.1 专用集群的时代2.2 Hadoop on Demand的缺点2.3 共享集群3. 架构3.1 概述3.2 Resource Manager (RM)3.3 Application Master (AM)3.4 Node Manager (NM)3.5 YARN框架/应用程序写入者3.6 容错能力和...

大数据Hadoop生态圈常用面试题

OS有可能会接着又让这个进程进入运行状态； j.4、当线程刚进入可运行状态（注意，还没运行），发现将要调用的资源被synchroniza（同步），获取不到锁标记，将会立即进入锁池状态，等待获取锁标记（这时的锁池...

【Hadoop】Hadoop官方文档翻译——MapReduce Tutorial

官方文档是程序员最好的学习资料，本篇是Hadoop官方文档中MapReduce Tutorial篇的翻译，希望能帮助大家更好地学习Hadoop。

网络编程Netty框架深度解析：NIO核心技术、线程模型与高性能网络应用设计

内容概要：本文档详细介绍了Netty框架的核心概念、特点、线程模型、序列化协议选择及其实现细节。首先对比了BIO、NIO和AIO的区别，重点阐述了NIO的非阻塞特性及其基于事件驱动的工作原理。接着深入讲解了Netty的高性能表现，包括零拷贝技术、心跳机制、内存管理、流量整形等方面。文档还探讨了Netty的线程模型，包括单线程、多线程和主从多线程模型，并解释了NIOEventLoopGroup的源码实现。此外，文档讨论了TCP粘包/拆包问题及其解决方案，以及常见的序列化协议（如JSON、Protobuf、Thrift等）的特点和适用场景。适合人群：具备一定网络编程基础，特别是对Java NIO和Netty框架有一定了解的研发人员和技术专家。使用场景及目标：①理解NIO与传统BIO的区别，掌握NIO的非阻塞特性和事件驱动模型；②深入了解Netty的高性能设计原则，包括零拷贝、心跳检测、内存管理和线程模型；③掌握TCP粘包/拆包的原理及解决方案；④根据具体应用场景选择合适的序列化协议。阅读建议：本文档内容较为深入，建议读者在阅读过程中结合实际代码和应用场景进行理解。对于Netty的线程模型和序列化协议部分，可以通过实际编程练习加深理解。特别地，理解NIOEventLoopGroup的源码实现需要有一定的Java多线程编程基础。

0顶0踩