`
邢邢色色
  • 浏览: 229986 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

【转】修改hadoop的备份系数dfs.replication

阅读更多

出处:http://blog.csdn.net/awayyao/article/details/7616057

 

Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。本文就讨论一下这个问题。

 

Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.

 

如何变更备份系数?

 

首先stop-all.sh停止节点,修改master节点的hdfs-site.xml文件,设置dfs.relication值为目标值。启动hadoop集群。

 

查看文件的备份系数:hadoop dfs -ls [filename]  结果行中的第二列是备份系数 (注:文件夹信息存储在namenode节点上,所以没有备份,故文件夹的备份系数是横杠)

 

在操作后会发现,以前文件的备份系数仍是原来的值。原来hadoop并不会自动的按照新的备份系数调整,我们需要手动完成。

 

查看hadoop集群的备份冗余情况:hadoop fsck / 我很喜欢的命令,可以方便的看到各种类型block所占比例。

 

我们发现Average block replication的值仍然为旧值,所以我们需要修改hdfs中文件的备份系数。

 

修改hdfs文件备份系数:hadoop dfs -setrep [-R] <path> 如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1 就是把目录下所有文件备份系数设置为3.

 

如果再fsck时候出错,往往是由于某些文件的备份不正常导致的,可以用hadoop的balancer工具修复

 

自动负载均衡hadoop文件:hadoop balancer

 

查看各节点的磁盘占用情况 hadoop dfsadmin -report

分享到:
评论

相关推荐

    hadoop-3.1.3.tar.gz

    &lt;name&gt;dfs.replication &lt;value&gt;3 &lt;name&gt;dfs.namenode.name.dir &lt;value&gt;/app/hadoop/data/nn &lt;name&gt;dfs.datanode.data.dir &lt;value&gt;/app/hadoop/data/dn ``` 五、格式化NameNode 首次安装Hadoop时,...

    Hadoop2.7.3 Window10 hadoop.dll winutils.exe

    7. **启动Hadoop**:使用`start-dfs.cmd`和`start-yarn.cmd`命令启动Hadoop的DataNode、NameNode以及ResourceManager和NodeManager。 8. **测试Hadoop**:最后,你可以通过运行`hadoop fs -ls /`命令来检查HDFS是否...

    如何使用hadoop进行数据分析.zip

    如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop...

    hadoop调试工具hadoop.dll和hadoop.exp和winutils.exe

    在Hadoop生态系统中,调试工具对于开发者和管理员来说至关重要,特别是在Windows环境中。本文将深入探讨三个关键组件:hadoop.dll、hadoop.exp和winutils.exe,以及它们在64位系统中的应用。这些组件主要用于在...

    hadoop3.3.0.dllwinutil.zip

    hadoop3.3.0.dll&winutil工具连接 Apache Hadoop 3.3.0 incorporates a number of significant enhancements over the previous major release line (hadoop-3.2). Overview Users are encouraged to read the full...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop2.6,hadoop.dll、winutils.exe下载

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.6是Hadoop发展过程中的一个重要版本,它带来了许多性能优化和功能改进,旨在提高集群效率和稳定性。本资源提供了适用于64位...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会开发并维护的,旨在实现高效、可扩展的数据处理能力。Hadoop的核心由两个主要组件构成:Hadoop Distributed ...

    hadoop-2.6.0-hadoop.dll-winutils.exe

    windows上eclipse运行hadoop程序报NullPointerException错 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j ...

    hadoop-3.1.4.tar.gz

    6. 启动Hadoop服务:`start-dfs.sh` 和 `start-yarn.sh` 在运行Hadoop时,还需要考虑安全设置,比如启用Hadoop的Secure Mode,这需要配置Kerberos认证。另外,为了监控和管理Hadoop集群,可以安装Ambari工具,它...

    hadoop-3.3.1.tar.gz

    - **启动Hadoop**:通过`start-dfs.sh`和`start-yarn.sh`命令启动HDFS和YARN服务。 4. **HDFS操作** - **上传数据**:使用`hadoop fs -put`命令将本地文件系统中的文件上传到HDFS。 - **查看数据**:`hadoop fs ...

    hadoop-2.7.1.tar.gz.zip

    在安装和配置Hadoop时,你需要修改conf目录下的配置文件,如core-site.xml(定义HDFS的基本属性)、hdfs-site.xml(设置HDFS的参数)、mapred-site.xml(设置MapReduce参数)和yarn-site.xml(配置YARN)。...

    hadoop-0.20.205.0和hbase-0.90.5,集群和单机 安装配置

    &lt;name&gt;dfs.replication &lt;value&gt;3 ``` 3. **格式化HDFS**: 在Master节点上运行`hadoop namenode -format`命令来格式化HDFS。 #### 七、配置HBase 1. **安装HBase**: 下载并解压HBase安装包至相应目录。 2. ...

    hadoop2.7.4 插件 hadoop.dll 和 winutils.exe

    经本人亲自测试,本地可用,hadoop-eclipse-plugin-2.7.4.jar放到eclipse的插件目录,hadoop.dll 请放到system32目录,eclipse版本我本地下载的是Oxygen.1a Release (4.7.1a)。

    hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

    在Hadoop的配置中,需要修改`core-site.xml`来定义HDFS的默认FS(文件系统),`hdfs-site.xml`来设置HDFS的相关参数,如副本数量和数据节点位置,以及`mapred-site.xml`来配置MapReduce的相关参数。此外,还需要确保...

    hadoop-2.7.4.tar.gz

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,是大数据处理领域的重要工具。这个“hadoop-2.7.4.tar.gz”文件是针对Windows平台编译好的Hadoop 2.7.4版本安装包,提供了...

    Windows下hadoop3.1.0 64位hadoop.dll和winutils.exe

    也可以尝试将hadoop.dll和winutils.exe拷贝到bin目录下,NN命令添加:可以在start-dfs.cmd和stop-dfs.cmd中分别加入启动/关闭 secondarynamenode 的命令: start "Apache Hadoop Distribution" hadoop ...

    hadoop-2.9.2 bin.zip

    配置伪分布式模式,你需要修改Hadoop的配置文件,如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`和`mapred-site.xml`,设置相应的参数,比如在`hdfs-site.xml`中配置`dfs.replication`为1,表示数据只在一个...

    win32win64hadoop2.7.x.hadoop.dll.bin

    标题“win32win64hadoop2.7.x.hadoop.dll.bin”暗示了这是一个与Hadoop 2.7.x版本相关的二进制文件,适用于32位和64位的Windows操作系统。描述中提到,这些文件是用于在Windows环境下部署Hadoop时必需的组件,并且在...

Global site tag (gtag.js) - Google Analytics