想要在运行中的hadoop集中中动态添加或删除节点,肿么办呢?
【准备工作:】
1. 如是添加节点,则需要将所有新增数据节点上的Hadoop环境都已经按已有环境部署完毕(host、ssh等)
2. 需要的配置项:
(1) dfs.hosts 配置存放待上线数据节点名字文件的绝对路径。(俺把所有线上节点都加上去了)
(2) dfs.hosts.exclude 配置存放待下线数据节点名字文件的绝对路径。
3. 具体配置如下:(hdfs-site.xml)
<property>
<name>dfs.hosts.exclude</name>
<value>/app/cdh4/hadoop-2.0.0-cdh4.3.0/etc/hadoop/hdfs_exclude</value>
</property>
<property>
<name>dfs.hosts</name>
<value>/app/cdh4/hadoop-2.0.0-cdh4.3.0/etc/hadoop/hdfs_include</value>
</property>
1. 下线节点
1) hdfs_exclude文件里每行添加一个服务器名,如我要下线server87,server88,server89,则如下:
server87
server88
server89
2) 选择任意一台节点执行:
./hdfs dfsadmin -refreshNodes
3) 这时可以通过hdfs dfsadmin -report或者web界面查看该datanode状态转为Decommission In Progress。
如果节点上数据比较多,下线会比较慢!一个字:等。。。
当datanode完成数据迁移时,姿态会变为Decommissioned,继续下面操作
4) 删除hdfs_exclude中下线节点的hosts,重新刷新:
./hdfs dfsadmin -refreshNodes
5) 删除slaves中下线节点的hosts
2. 上线节点
上线节点基本与下线相同
1) hdfs_include文件里每行添加一个上线服务器名,同时保证hdfs_exclude文件为空。
2) ./hdfs dfsadmin -refreshNodes
3) 在要上线的节点上启动datanode:
./hadoop-daemon.sh start datanode
4) 如需要启动nodemanager,则执行:
./yarn-daemon.sh start nodemanager
5) 修改slaves,添加上线节点的hosts
随笔原创,如有不当或错误之处,还望批评指正,感激涕零!!!
转载请说明出处:
http://xmaster.iteye.com/admin/blogs/1930231
分享到:
相关推荐
例如,需要规划NameNode、DataNode、NodeManager、ResourceManager等组件的配置。 1.3 所需要的软件资源 在搭建Cloudera大数据平台环境时,需要下载和安装相关的软件资源,例如Cloudera Manager、Hadoop、Hive、...
CDH4 是 Cloudera 提供的一个包含多个组件(如 Hadoop、HBase、Zookeeper 等)的集成解决方案,特别适合大规模数据处理和分析。本手册将详细阐述如何在 HA (High Availability,高可用性) 模式下安装 CDH4,并特别...
Hadoop000作为NameNode和ResourceManager的角色,hadoop001作为SecondaryNameNode和NodeManager的角色,hadoop002则作为DataNode和ZooKeeper的角色。HDFS(Hadoop Distributed File System)是Hadoop用来存储数据的...
每个服务都有特定的配置项,例如HDFS的NameNode和DataNode,YARN的ResourceManager和NodeManager,都需要根据实际需求进行配置。 6. **安全配置** CDH支持Kerberos等安全机制,可以实现身份验证和授权,保障大数据...
理解HDFS的数据块、NameNode和DataNode的角色、副本策略等对优化Hadoop性能至关重要。 2. **YARN (Yet Another Resource Negotiator)**:作为资源管理系统,YARN负责调度任务和分配资源。了解ResourceManager、...
1. **内存配置**:合理设置每个节点的内存分配,特别是对于HDFS DataNode、YARN NodeManager等组件。 2. **网络配置**:优化网络设置,提高节点间的数据传输效率。 3. **日志管理**:定期清理旧的日志文件,避免占用...
CDH5包含Hadoop的核心服务,如NameNode、DataNode、ResourceManager、NodeManager等,以及额外的数据处理工具如Hive、Spark等。 - **关键技术**:主要包括Hadoop的分布式文件系统(HDFS)、资源调度器(YARN)和...
5. 启动Hadoop服务,包括DataNode、NameNode、ResourceManager、NodeManager等。 6. 使用Hadoop提供的命令行工具或者开发应用程序进行数据处理。 Hadoop的应用场景广泛,包括大数据处理、日志分析、推荐系统、机器...
CDH5.10.0是Cloudera公司推出的一个Hadoop发行版,其集成了众多大数据处理组件,为用户提供了构建和管理大数据平台的一站式解决方案。CDH5.10.0的离线安装部署涉及到多种服务组件,其中包括HDFS(Hadoop Distributed...
4. **启动Hadoop服务**:依次启动DataNode、NameNode、ResourceManager、NodeManager等服务。 5. **测试HDFS**:使用`hadoop fs -ls /`命令查看HDFS根目录,确认系统运行正常。 6. **运行MapReduce任务**:编写...
4. **配置CDH**:安装完成后,需要配置各个组件的配置文件,包括`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`, `mapred-site.xml`, `hive-site.xml`等,以适应你的集群环境。 5. **格式化NameNode**:首次...
在安装和配置Hadoop 2.6.0-cdh5.10.1时,需要了解集群部署的基本概念,包括NameNode、DataNode、ResourceManager、NodeManager等节点的角色和配置。同时,为了保证集群的稳定运行,需要关注网络设置、安全性配置(如...
3. 集群规划:如何根据业务需求合理分配角色和资源,如HDFS的DataNode、YARN的NodeManager等。 最后,`软件包依赖.sql`和`CM用户.sql`可能用于: 1. 数据库初始化:`软件包依赖.sql`可能包含了CM数据库中关于软件包...
2. **配置规划**:规划好集群的架构,明确各个节点的角色,例如:NameNode、DataNode、ResourceManager、NodeManager、HBase Master、RegionServer等。根据数据量和处理需求来确定节点的数量和硬件配置。 3. **所需...
`yarn.nodemanager.resource.memory-mb`设置每个节点可分配的内存,`yarn.scheduler.minimum-allocation-mb`和`yarn.scheduler.maximum-allocation-mb`定义了容器分配的最小和最大内存限制。 3. **mapred-site.xml*...
- JobTracker和TaskTracker:在CDH4中,JobTracker负责任务调度和监控,而TaskTracker执行任务。 4. **YARN(Yet Another Resource Negotiator)** 在Hadoop 2.0中,MapReduce的资源管理和任务调度被分离出来,...
例如,在本文中,我们将搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署NameNode和ResourceManager服务。 前置条件 Hadoop的运行依赖JDK,因此需要预先安装JDK。...
4. **hosts**:更新所有主机的`/etc/hosts`文件,添加彼此的IP地址和主机名映射,确保集群内的通信畅通。 5. **SSH互信**:在所有节点之间建立SSH无密码登录,使用`ssh-keygen`生成密钥对,然后将公钥复制到其他...
然后,在Master节点上启动NameNode和ResourceManager,其他节点启动DataNode和NodeManager,形成Hadoop集群。 五、Hadoop应用 1. MapReduce编程模型:理解Map函数和Reduce函数的工作原理,编写自定义的Mapper和...