`
hsabby
  • 浏览: 20998 次
社区版块
存档分类
最新评论
  • Rainyn: 作者写的很好。有完整项目实例吗?这个是跑在tomcat还是je ...
    初识cometd
  • hwfrog: 这个没有看过具体的源码,猜测的,因为init是所有用户进程的父 ...
    inittab的使用
  • hwfrog: 确实简单,这个感觉和RCP很类似,RMI在某些地方还是有一定的 ...
    Java的RMI初探
  • hwfrog: 不错, 学习了; 这段时间也想研究一下源码, 多交流
    初识cometd
  • hwfrog: 后面准备总结一下java的接口和内部类; 请博主多关注哈
    Java访问修饰符

hadoop文件存储不均衡的分析

 
阅读更多
1.       Hadoop是如何判断集群内存储是否均衡的?

 

 

 

1)  获取集群平均使用率-各个节点使用率的平均值

 

例如,ABC三台机器的DFS Used%依次为0.1%, 0.01%, 13.1%,则平均使用率为(0.1%+0.01%+13.1%)/3 = 4.4%

 

 

 

2)  判断节点的使用率与集群平均使用率之间的差值是否在容许范围内,都在范围内,则认为存储平衡(默认的容许范围是10%

 

 

 

2.       Hadoop对上传文件的处理

 

Hadoop有一个处理原则是,从哪个节点上传的文件,原则上就放在哪个节点,以减少网络I/O,所以基本上所有的数据都存储在了C这台机器上。此外,因为我们配置的备份因子是1,即所有的数据只存储1份,所以,其他两个节点也没有备份数据。

 

 

 

3.       分析

 

根据上述两个前提,我们计算出每个节点使用率与平均使用率4.4%的差值都小于10%,系统认为当前的存储是平衡的。因为所有的文件都是通过C这台机器上传,我们配置的备份因子又是1,即所有的数据只存储1份,所以,大部分文件都在C这台机器上,其他两个节点数据很少。

 

 

 

4.       处理

 

C这台机器上被DFS文件占用了太多的空间,导致计算出的占用百分比不高,却没有太多空间可用。可以把非DFS文件放在另外的目录下,不占用划分给DFS的目录,这样的百分比就更准确。

 

修改偏差百分比,调整文件存储。以下命令的含义为修改偏差范围为3%,执行存储平衡(该过程可以和分析任务一起执行)

 

./start-balancer.sh -threshold 3

分享到:
评论

相关推荐

    Hadoop文件存储结构

    ### Hadoop文件存储结构:深入理解HDFS #### 引言与目标设定 Hadoop分布式文件系统(HDFS)作为一款专为运行在廉价硬件上的分布式文件系统设计,其架构和功能设定旨在应对大规模数据集的高效管理和处理。不同于...

    基于Hadoop分布式交通大数据存储分析平台设计.pdf

    在分布式文件存储方面,HDFS作为核心组件,承担了数据存储和访问的重任,同时保证了数据的容错性和高性能。 综上所述,Hadoop作为分布式系统中的重要组成部分,已经在大数据分析领域发挥着关键作用。它的分布式存储...

    使用Hadoop分布式文件系统检索云存储中的文件.pdf

    【使用Hadoop分布式文件系统检索云存储中的文件】 在当今的云计算时代,云存储系统已成为企业和个人存储大量数据的关键解决方案。这些系统由一系列独立的存储服务器组成,通过网络为用户提供服务,允许经过身份验证...

    Hadoop分布式文件系统的文件读写

    以下是对Hadoop文件读写及相关属性的详细说明。 ### 一、HDFS的文件写入 1. **Block分裂**:HDFS将大文件划分为多个固定大小的块(默认128MB),每个块最多存储在一个DataNode上。如果文件大小不足一个块,也会...

    文件系统、Mongodb、Hadoop_存取方案分析

    3. 小文件存储效率较低,需要额外开发索引机制。 四、MongoDB 与 Hadoop 存取性能对比 MongoDB 在存储和查询速度方面表现出色,尤其在批量操作时,每秒可处理上万条记录。相比之下,Hadoop 更擅长处理大规模数据集...

    7万字大数据Hadoop存储与分析处理平台建设方案.docx

    大数据Hadoop存储与分析处理平台建设方案 大数据Hadoop存储与分析处理平台建设方案是指通过Hadoop平台来存储和分析大数据的解决方案。该方案主要分为两个部分:Hadoop平台集成实施服务和大数据Hadoop存储与分析处理...

    大数据Hadoop存储与分析处理平台建设方案-大数据Hadoop平台集成实施服务解决方案.docx

    其中,文件格式是Hadoop文件系统的基本组成部分,用于存储和读取数据;机架感知是Hadoop的高可用性机制,用于确保数据的安全性;Java接口是Hadoop的编程接口,用于开发Hadoop应用程序。 Hadoop知识学习篇是该方案的...

    Hadoop分布式文件系统——翻译

    Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,旨在为大规模数据集提供高效可靠的存储解决方案。HDFS的设计原则强调了数据的分布式存储与处理,通过将计算任务部署在数据所在的节点上,有效提升了数据...

    大数据Hadoop存储与分析处理平台建设方案.docx

    大数据Hadoop存储与分析处理平台建设方案 大数据Hadoop存储与分析处理平台建设方案是基于Hadoop架构的数据处理平台,旨在实现大数据的存储、处理和分析。该平台是基于Hadoop的分布式计算框架,能够对大量数据进行...

    376页页8万字大数据Hadoop存储与分析处理平台建设方案.docx

    大数据Hadoop存储与分析处理平台建设方案 大数据Hadoop存储与分析处理平台建设方案是指通过Hadoop平台集成实施服务解决方案,建设大数据存储与分析处理平台,以满足智慧城市和人工智能等领域的数据处理需求。 一、...

    大数据处理系统:Hadoop源代码情景分析_大数据_大数据分析_大数据Hadoop_

    在大数据领域,Hadoop是一个至关重要的工具,它为海量数据的存储和处理提供了高效、可靠的解决方案。本主题将深入解析Hadoop的源代码,帮助理解其内部工作机制,从而更好地运用和优化这个分布式计算框架。 Hadoop的...

    Hadoop命令

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力。本教程将深入探讨Hadoop命令,帮助你更好地理解和运用这个强大的工具。 首先,我们要了解Hadoop的核心组件:HDFS(Hadoop ...

    Hadoop分布式文件系统的模型分析.pdf

    Hadoop分布式文件系统(HDFS)是云计算环境下应用广泛的一种分布式文件系统。其设计初衷及核心思想受到了Google文件系统(GFS)的启发,其后经过了广泛的研究与开发。HDFS的主要优势在于能够处理海量数据并具有高可...

    hadoop上传文件共5页.pdf.zip

    【标题】"hadoop上传文件共5页.pdf.zip" 暗示了这是一个关于Hadoop文件上传的教程或文档,被压缩成一个ZIP文件,包含了5页的PDF内容。Hadoop是一个开源的分布式计算框架,它允许在大规模数据集上进行高效、可靠和可...

    大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究.pdf

    1. 分布式存储结构:Hadoop分布式文件系统是Hadoop的一个核心组件,它构建在一个高度容错性的分布式文件存储系统上。HDFS能够在一个跨多个物理位置的服务器网络中存储数据,并且使得存储不受单点故障的影响。它的...

    Hadoop3.1.3.rar

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是处理和存储大量数据的能力。这个名为"Hadoop3.1.3.rar"的压缩包文件包含了Hadoop 3.1.3版本的所有组件和相关文件,使得用户可以下载并进行...

    利用Spring搭建基于Hadoop的大数据分析.zip

    HDFS提供了分布式文件存储,而MapReduce则是一种并行计算模型,用于处理HDFS中的数据。 Spring框架,另一方面,是一个广泛使用的Java企业级应用开发框架,提供了一整套服务和工具,如依赖注入、面向切面编程以及...

    常见的hadoop十大应用误解

    **正解:** 实际上,Hadoop 的并行计算架构(MapReduce)和分布式文件系统(HDFS)使其能够支持高速计算和大规模存储,因此在高能物理、生命科学等领域的研究中,Hadoop 已经被用于配合HPC或Grid Computing执行特定...

Global site tag (gtag.js) - Google Analytics