(hadoop版本1.0.3)
hadoop增加节点操作
前提操作系统环境已经成功安装完成,步骤如下:
第一: master主机里的$HADOOP_HOME/conf下,修改slaves文件,增加新增节点主机名
第二:配置免登录设置
第三:新增节点启动datanode和tasktracker两个进程
$HADOOP_HOME/bin/hadoop-daemon.sh start datanode
$HADOOP_HOME/bin/hadoop-daemon.sh start tasktracker
第四:master刷新所有节点
$HADOOP_HOME/bin/hadoop dfsadmin -refreshNodes
数据均衡操作
[hadoop@master hadoop-1.0.3]# ./bin/start-balancer.sh
1) 如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低mapred的工作效率
2) 设置平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长
[hadoop@master hadoop-1.0.3]# ./bin/start-balancer.sh -threshold 5 hadoop balancer -Threshold 20
参数20是比例参数,表示20%,也就是平各个DataNode直接磁盘使用率偏差在20%以内。
3) 设置balance的带宽,默认只有1M/s
<property> <name>dfs.balance.bandwidthPerSec</name> <value>1048576</value> <description> Specifies the maximum amount of bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description> </property>
注意:
1. 必须确保slave的firewall已关闭;
2. 确保新的slave的ip已经添加到master及其他slaves的/etc/hosts中,反之也要将master及其他slave的ip添加到新的slave的/etc/hosts中
删除相关节点操作
1.集群配置
修改conf/hdfs-site.xml文件(需要排除节点配置存放路径)
<property> <name>dfs.hosts.exclude</name> <value>/home/hadoop/hadoop/conf/excludes</value> <description>Names a file that contains a list of hosts that are not permitted to connect to the namenode. The full pathname of the file must be specified. If the value is empty, no hosts are excluded.</description> </property>
2.确定要下架的机器
dfs.hosts.exclude定义的文件内容为,每个需要下线的机器,一行一个。这个将阻止他们去连接Namenode。如:
slave10 slave11
3.强制重新加载配置
[hadoop@master hadoop-1.0.3]# ./bin/hadoop dfsadmin -refreshNodes
它会在后台进行Block块的移动
4.关闭节点
等待刚刚的操作结束后,需要下架的机器就可以安全的关闭了。
[hadoop@master hadoop-1.0.3]# ./bin/ hadoop dfsadmin -report
可以查看到现在集群上连接的节点
正在执行Decommission,会显示: Decommission Status : Decommission in progress 执行完毕后,会显示: Decommission Status : Decommissioned
5.再次编辑excludes文件
一旦完成了机器下架,它们就可以从excludes文件移除了
登录要下架的机器,会发现DataNode进程没有了,但是TaskTracker依然存在,需要手工处理一下
注意下:
少用数据均衡操作。现在体验了下,集群节点不多,数据总量在2TB多,均衡起来时间非常长(起始时间:13:44:12 截止时间:16:56:37)。
少进行删除节点操作,因为也涉及到节点的数据迁移处理,非常耗时。
在使用的过程当中,应当注意此两项操作。除非真是业务需要,不然尽量避免这些操作。
相关推荐
在单节点模式下,需要配置 SSH 无口令登录,以便于远程管理 Hadoop 进程。可以使用以下命令生成 SSH 密钥: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 格式...
### Hadoop单节点部署指导知识点详解 #### 一、实验目的 - **理解Hadoop原理机制**:深入了解Hadoop的工作原理及其背后的技术架构。 - **熟悉Hadoop集群体系结构**:掌握Hadoop集群中各组成部分的功能及其交互方式...
Hadoop集群节点性能计算方法可以帮助管理员更好地了解每个节点的性能瓶颈,并对其进行优化,以提高集群的整体性能。 什么是多元线性回归模型? 多元线性回归模型是一种统计模型,用于描述多个自变量对因变量的影响...
1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...
在安装Hadoop集群时,需要关闭防火墙,以便Hadoop节点之间可以通信。关闭防火墙可以确保Hadoop集群的正常运行。 关闭SELinux SELinux是Linux操作系统的安全模块,用于控制访问控制和权限管理。在安装Hadoop集群时...
在单节点伪分布式模式下,所有Hadoop服务都在同一个节点上以独立Java进程的方式运行,模拟分布式环境的行为,但仍保持简单易管理。 **预备知识与要求** 1. **支持平台**:Hadoop主要支持GNU/Linux作为开发和生产...
本章旨在帮助读者深入了解并掌握Hadoop的管理技巧,包括但不限于HDFS命令行工具的使用方法、如何有效地添加或删除节点、使用Ganglia进行集群性能监控以及利用Sqoop实现数据导入与导出等功能。 #### HDFS命令行工具 ...
“hadoop杀僵尸节点”是一项关键的Hadoop运维实践,通过自动化脚本实现对集群内异常节点的有效管理,避免资源浪费,保障集群稳定高效运行。掌握这一技术,对于从事大数据处理的IT专业人士而言,是提升系统运维能力的...
Ansible基于SSH(Secure Shell)协议,无需在目标节点上安装任何代理,通过控制节点即可实现远程管理。它使用YAML格式的Playbook来定义任务,易于阅读和编写。 Hadoop作为大数据处理的核心组件,包括HDFS(Hadoop ...
文档可能包含单节点模式、伪分布式模式和完全分布式模式的安装教程,以及Hadoop环境变量配置、NameNode和DataNode的启动与管理等内容。 "大数据管理实验之三Hadoop基础命令与编程初步.docx"则深入到Hadoop的使用...
详细介绍了如何从入门到进阶搭建和管理Hadoop和Spark的多节点集群。首先,文章解释了多节点集群的概念和优势,然后提供了硬件和软件环境的准备步骤,包括Java和SSH配置。接着,文章分步骤指导如何下载、安装和配置...
YARN(Yet Another Resource Negotiator)是Hadoop 2.x中的资源管理系统,它负责调度任务和管理集群资源。在这个文件中,你需要配置YARN的地址和端口,如`yarn.resourcemanager.address`和`yarn.resourcemanager....
本篇文章将详细探讨在 Hadoop 和 HBase 集群管理中的几个关键知识点,包括处理各种节点宕机问题、添加新节点以及集群的重启过程。 首先,当 Hadoop 的 DataNode 宕机时,管理员应定位到 Hadoop 的安装目录,通过...
《基于Hadoop的网盘管理系统:深度解析与实践》 在当今大数据时代,高效的数据管理和处理成为企业核心竞争力的关键因素之一。"基于Hadoop的网盘管理系统"正是为解决这一问题而生,它利用Hadoop分布式文件系统(HDFS...
### 增加Hadoop名称节点的高可用性 #### 概述 本文档主要讨论了如何通过元数据复制来增强Hadoop名称节点(NameNode)的高可用性(High Availability,简称HA)。Hadoop作为分布式计算与存储平台的基础,其自身的...
在这个主题“4、Hadoop多节点部署和测试(HA_HDFS)”中,我们将深入探讨如何在高可用性(HA)模式下配置和测试Hadoop的HDFS(Hadoop分布式文件系统)组件。这里我们将详细讨论涉及的知识点: 1. **HDFS高可用性**:...
本资源"单节点hadoop-0.20.2"是一个针对初学者或快速测试环境的配置,它简化了Hadoop的安装和设置过程。这个压缩包包含了一个预配置的Hadoop环境,使得用户无需从头开始配置XML文件,只需解压即可运行,大大降低了...
Hadoop-Serverspec 是一个基于 Ruby 的测试框架,专门设计用于检查和验证 Hadoop 集群中的节点健康状况。这个框架利用了 ServerSpec 库,ServerSpec 是一个自动化基础设施验证工具,允许管理员以声明式的方式定义...