HDFS磁盘调度策略 - - ITeye博客

`

18901888895

浏览: 6901 次
性别:
来自: 上海

最近访客更多访客>>

依然任逍遥

543089122

8899man

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

HDFS磁盘调度策略

博客分类：

hadoop

阅读更多

callstack:

FsVolumeList.getNextVolume(StorageType,long)----->FsVolumeList.chooseVolume(List,long)----->RoundRobinVolumeChoosingPolicy.chooseVolumn(List,long)

OR

FsVolumeList.getNextVolume(StorageType,long)----->FsVolumeList.chooseVolume(List,long)----->AvailableSpaceVolumeChoosingPolicy.chooseVolumn(List,long)

前者： Choose volumes in round-robin order.

后者： A DN volume choosing policy which takes into account the amount of free space on each of the available volumes when considering where to assign a new replica allocation. By default this policy prefers assigning replicas to those volumes with more available free space, so as to over time balance the available space of all the volumes within a DN.

默认采用RoundRobinVolumeChoosingPolicy

可以通过配置dfs.datanode.fsdataset.volume.choosing.policy参数来使用AvailableSpaceVolumeChoosingPolicy策略

数据请求过来时候，会依次轮训判断每块盘的可用空间大小是否大于请求的大小，如果请求写入数据的空间大于一台机器上所有磁盘的空间时候，会抛 out of space异常

分享到：

Linux >/dev/null 2>&1，以及2>1 VS 2>&1

2016-03-29 10:15
浏览 1095
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop日记2.1：hdfs设计思想和基础概念: 但HDFS不支持用户磁盘配额和访问权限控制，也不支持硬链接和软链接。 **HDFS的元数据**：元数据维护HDFS文件系统中文件和目录的信息，分为内存元数据和元数据文件两种。元数据包含了数据块到文件的映射信息以及文件...

HDFS design: 这意味着为了减少数据传输的成本，HDFS倾向于将计算任务调度到数据所在的节点上执行，而不是将数据复制到计算节点上。 ##### 2.6 跨异构硬件和软件平台的可移植性 HDFS旨在能够在不同类型的硬件和操作系统之间轻松...

分布式HDFS部署和shell指令: - `hdfs-site.xml`：用于配置HDFS特定的属性，如副本数量、块大小、DFS副本策略等。 - `yarn-site.xml`：配置YARN相关属性，用于资源管理和作业调度。 - `mapred-site.xml`：配置MapReduce作业执行相关参数。在...

分布式文件系统hdfs - 副本.zip: 下面我们将深入探讨HDFS的基本原理、架构、工作流程以及其副本策略。 ### 1. HDFS基本概念 HDFS是一种基于块存储的分布式文件系统，将大文件分割成固定大小的块（默认为128MB），并将其分布在不同的节点上。每个...

行业分类-设备装置-Hadoop云平台下基于负载监控的混合调度方法.zip: 这个压缩包文件"行业分类-设备装置-Hadoop云平台下基于负载监控的混合调度方法.zip"聚焦于一个关键话题：如何在Hadoop环境下利用负载监控实现高效的混合调度策略。这个主题对于我们理解和优化大数据处理系统的性能至...

基于调度树的分布式文件系统数据流调度算法研究.pdf: 文章中提出的调度树算法旨在优化HDFS的数据写入性能，具体来说，它通过构建调度树来指导数据副本的分布。这种方法在异构环境下尤为有效，因为节点的网络和磁盘能力各不相同。在调度树中，首先根据各个节点的资源状态...

Hadoop技术内幕深入解析HADOOP COMMON和HDFS架构设计与实现原理高清完整书签: HDFS的设计原则包括数据冗余（通过复制策略保证数据可用性）、数据局部性（将计算任务调度到数据所在节点，减少网络传输）以及块级别的并行访问（提升数据读写效率）。 HDFS的实现原理包括以下几个方面： 1. 文件...

南京大学大数据期末题库 pdf: - YARN支持多种调度策略，如FIFO(先进先出)，Capacity Scheduler，Fair Scheduler等。FIFO简单但可能导致资源浪费，Capacity Scheduler和Fair Scheduler更智能，考虑资源利用率和公平性。 6. MapReduce与Spark： ...

行业分类-设备装置-大数据平台的任务调度方法.zip: 3. **调度策略**：常见的调度策略有FIFO（先进先出）、优先级调度、公平调度等。不同的策略适用于不同的业务场景，例如，实时分析可能需要优先级调度，而批处理作业可能适合公平调度。 4. **容错与恢复**：大数据...

五分钟学大数据-Hadoop企业级调优手册1: 2. **测试HDFS读性能**：读性能测试同样重要，包括文件的随机读取和顺序读取速度，以及多线程读取时的性能表现，以调整缓存策略和I/O调度策略。 ### 三、HDFS多目录 1. **NameNode多目录配置**：在NameNode上设置...

hadoop-3.2.4-src.tar.gz: 通过分析源码，我们可以了解Hadoop内部的交互机制，如数据的读写流程、任务调度策略、故障恢复机制等。四、Hadoop 3.2.4新特性 1. 支持多NameNode：Hadoop 3.2.4引入了HA（High Availability）特性，允许多个...

Hadoop平台常见故障汇总以及操作系统性能调优.docx: - **CPU调度**：调整CPU调度策略，如使用CFS（Completely Fair Scheduler）来平衡Hadoop进程和其他系统进程的CPU使用。 - **网络优化**：配置合适的TCP/IP参数，如减少TCP延迟，增大接收缓冲区和发送缓冲区的大小。 ...

有关hadoop的四个实验: 实验2可能涉及HDFS的文件上传、下载、查看、删除等基本操作，以及HDFS的容错机制和数据复制策略。【VARN技术】 VARN（Versioned Architecture for Networked Applications）可能是指Hadoop中的YARN（Yet Another ...

hadoop练习题--带答案.pdf: 11. HDFS副本与NameNode：HDFS的副本策略减轻了数据丢失风险，但NameNode仍然是单点，需要通过其他方式解决单点问题。 12. Map槽与线程：每个map槽对应一个独立的执行线程。 13. Input Split与Block：Input Split不...

大数据面试题(1).docx: 26. **Hadoop默认调度器**：Hadoop默认的调度器策略是FIFO（先进先出），但可以通过配置使用更复杂的调度策略。 27. **RAID配置**：为了提高数据安全性，集群内推荐配置RAID，以防止单磁盘损坏导致的数据丢失。 28...

大数据面试题 (2).docx: 26. **默认调度器策略**：Hadoop的默认调度器策略是FIFO（先进先出），但可以通过配置使用更复杂的调度策略，如Capacity Scheduler或Fair Scheduler。 27. **RAID 配置**：虽然RAID可以在单磁盘故障时保护数据，但...

Hadoop平台搭建与应用_PPT课件.rar: 为了提高性能和稳定性，需要关注Hadoop的硬件配置、网络拓扑、副本策略、资源调度策略等。监控Hadoop集群的性能指标，如CPU、内存使用率，磁盘I/O，网络延迟等，及时发现并解决问题。总之，"52498-Hadoop平台搭建...

大数据课程-Hadoop集群程序设计与开发-5.Yarn资源调度器_lk_edit.pptx: 3. 熟悉Yarn的调度策略，如FIFO、Capacity Scheduler和Fair Scheduler，以及它们的优缺点。 4. 学会使用Yarn的命令行工具进行集群管理和任务监控。此外，课程还提供了实训文档和演示视频，以帮助学员将理论知识...

hadoop运维经验分享: 9. **资源调度与优化**：YARN提供了一种更灵活的资源调度机制，运维人员需了解如何根据作业特性配置调度策略，以最大化集群资源利用率。 10. **扩展与升级**：随着业务发展，可能需要扩大集群规模或升级组件。了解...

Global site tag (gtag.js) - Google Analytics