出处:http://blog.csdn.net/awayyao/article/details/7616057
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。本文就讨论一下这个问题。
Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.
如何变更备份系数?
首先stop-all.sh停止节点,修改master节点的hdfs-site.xml文件,设置dfs.relication值为目标值。启动hadoop集群。
查看文件的备份系数:hadoop dfs -ls [filename] 结果行中的第二列是备份系数 (注:文件夹信息存储在namenode节点上,所以没有备份,故文件夹的备份系数是横杠)
在操作后会发现,以前文件的备份系数仍是原来的值。原来hadoop并不会自动的按照新的备份系数调整,我们需要手动完成。
查看hadoop集群的备份冗余情况:hadoop fsck / 我很喜欢的命令,可以方便的看到各种类型block所占比例。
我们发现Average block replication的值仍然为旧值,所以我们需要修改hdfs中文件的备份系数。
修改hdfs文件备份系数:hadoop dfs -setrep [-R] <path>
如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1
就是把目录下所有文件备份系数设置为3.
如果再fsck时候出错,往往是由于某些文件的备份不正常导致的,可以用hadoop的balancer工具修复
自动负载均衡hadoop文件:hadoop balancer
查看各节点的磁盘占用情况 hadoop dfsadmin -report
分享到:
相关推荐
<name>dfs.replication <value>3 <name>dfs.namenode.name.dir <value>/app/hadoop/data/nn <name>dfs.datanode.data.dir <value>/app/hadoop/data/dn ``` 五、格式化NameNode 首次安装Hadoop时,...
7. **启动Hadoop**:使用`start-dfs.cmd`和`start-yarn.cmd`命令启动Hadoop的DataNode、NameNode以及ResourceManager和NodeManager。 8. **测试Hadoop**:最后,你可以通过运行`hadoop fs -ls /`命令来检查HDFS是否...
如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop进行数据分析.zip 如何使用hadoop...
在Hadoop生态系统中,调试工具对于开发者和管理员来说至关重要,特别是在Windows环境中。本文将深入探讨三个关键组件:hadoop.dll、hadoop.exp和winutils.exe,以及它们在64位系统中的应用。这些组件主要用于在...
hadoop3.3.0.dll&winutil工具连接 Apache Hadoop 3.3.0 incorporates a number of significant enhancements over the previous major release line (hadoop-3.2). Overview Users are encouraged to read the full...
在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.6是Hadoop发展过程中的一个重要版本,它带来了许多性能优化和功能改进,旨在提高集群效率和稳定性。本资源提供了适用于64位...
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会开发并维护的,旨在实现高效、可扩展的数据处理能力。Hadoop的核心由两个主要组件构成:Hadoop Distributed ...
windows上eclipse运行hadoop程序报NullPointerException错 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j ...
6. 启动Hadoop服务:`start-dfs.sh` 和 `start-yarn.sh` 在运行Hadoop时,还需要考虑安全设置,比如启用Hadoop的Secure Mode,这需要配置Kerberos认证。另外,为了监控和管理Hadoop集群,可以安装Ambari工具,它...
在安装和配置Hadoop时,你需要修改conf目录下的配置文件,如core-site.xml(定义HDFS的基本属性)、hdfs-site.xml(设置HDFS的参数)、mapred-site.xml(设置MapReduce参数)和yarn-site.xml(配置YARN)。...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计是处理和存储大量数据,尤其适合大数据分析。Hadoop 3.1.4是该框架的一个稳定版本,提供了许多性能优化和新特性。这个压缩文件"hadoop-3.1.4....
<name>dfs.replication <value>3 ``` 3. **格式化HDFS**: 在Master节点上运行`hadoop namenode -format`命令来格式化HDFS。 #### 七、配置HBase 1. **安装HBase**: 下载并解压HBase安装包至相应目录。 2. ...
经本人亲自测试,本地可用,hadoop-eclipse-plugin-2.7.4.jar放到eclipse的插件目录,hadoop.dll 请放到system32目录,eclipse版本我本地下载的是Oxygen.1a Release (4.7.1a)。
- **启动Hadoop**:通过`start-dfs.sh`和`start-yarn.sh`命令启动HDFS和YARN服务。 4. **HDFS操作** - **上传数据**:使用`hadoop fs -put`命令将本地文件系统中的文件上传到HDFS。 - **查看数据**:`hadoop fs ...
在Hadoop的配置中,需要修改`core-site.xml`来定义HDFS的默认FS(文件系统),`hdfs-site.xml`来设置HDFS的相关参数,如副本数量和数据节点位置,以及`mapred-site.xml`来配置MapReduce的相关参数。此外,还需要确保...
配置伪分布式模式,你需要修改Hadoop的配置文件,如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`和`mapred-site.xml`,设置相应的参数,比如在`hdfs-site.xml`中配置`dfs.replication`为1,表示数据只在一个...
标题“win32win64hadoop2.7.x.hadoop.dll.bin”暗示了这是一个与Hadoop 2.7.x版本相关的二进制文件,适用于32位和64位的Windows操作系统。描述中提到,这些文件是用于在Windows环境下部署Hadoop时必需的组件,并且在...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理大量数据,是大数据处理领域的重要工具。这个“hadoop-2.7.4.tar.gz”文件是针对Windows平台编译好的Hadoop 2.7.4版本安装包,提供了...