一、停止数据节点的方法:
向名称节点通知希望停止的节点,使其能在数据节点关闭之前,将数据块复制到其他数据节点中。
二、操作步骤:
1、必须先确认集群是在运行中。并且已经退出的安全模式。安全模式状态的查看:
-bash-3.2$ ./bin/hadoop dfsadmin -safemode get
Safe mode is OFF
2、首先建立一个slaves.exclude文件(此文件名可随机取).它是一个文本, 里面每行就是想要停掉的主机名或IP地址.这里slaves.exclude应放在 $HADOOP_HOME目录下。
文件内容可如下:
10.12.3.129
这样就表明要把这1台机器给停了.
3、在名称节点(master)上,配置conf/mapred-site.xml文件,增加以下配置项:
<property>
<name>dfs.hosts.exclude</name>
<value>slaves.exclude</value>
</property>
<property>
<name>mapred.hosts.exclude</name>
<value>slaves.exclude</value>
</property>
4、在名称节点上,运行以下命令,更新结点以及hadoop配置:
-bash-3.2$ ./bin/hadoop dfsadmin -refreshNodes
5、状态查看:
1)可以通过 bin/hadoop dfsadmin -report 查看更新信息,内容如下:
Name: 10.12.3.129:50010
Decommission Status : Decommission in progress
Configured Capacity: 3047210987520 (2.77 TB)
DFS Used: 9215509326 (8.58 GB)
Non DFS Used: 162038434994 (150.91 GB)
DFS Remaining: 2875957043200(2.62 TB)
DFS Used%: 0.3%
DFS Remaining%: 94.38%
Last contact: Thu Nov 03 14:55:11 CST 2011
2)可以通过HADOOP WEB(http://masterIP:50070/)查看更新信息;
节点状态有以下同种表示方式:
Normal:正常;
Decommission In Progress:撤消中;
Decommission:已撤消;
3)撤消成功后的节点信息如下:
Name: 10.12.3.129:50010
Decommission Status : Decommissioned
Configured Capacity: 0 (0 KB)
DFS Used: 0 (0 KB)
Non DFS Used: 0 (0 KB)
DFS Remaining: 0(0 KB)
DFS Used%: 100%
DFS Remaining%: 0%
Last contact: Thu Jan 01 08:00:00 CST 1970
分享到:
相关推荐
2. **索引分割**:生成的Lucene索引可能非常大,不适合一次性加载到Hadoop集群。因此,通常会将其分割成多个小块(块大小可以根据HDFS块大小来设置),以便在Hadoop中并行处理。 3. **索引存储**:使用Hadoop的API...
在Hadoop环境中运行这个分类器时,我们需要配置Hadoop集群,设置输入数据(即训练集和测试集)的路径,以及输出结果的位置。执行MapReduce作业后,结果将被写入Hadoop的分布式文件系统(HDFS),方便后续分析或直接...
在本项目中,Zabbix部署在一个包含三个节点的Hadoop集群上,每个节点都安装了Zabbix Agent,其中一个节点同时作为Zabbix Server。以下是部署步骤: - **集群规划**:确定每个节点的角色,例如hadoop102、hadoop103...
在Hadoop平台上,MapReduce模型能够将计算任务分配到集群的各个节点上,实现任务的并行处理。 本论文中的并行化实现方式可能涉及到以下几个步骤: 1. 文本预处理:包括文本清洗(去除无关字符、标点、停用词等)、...
为了访问Hadoop集群中的节点,将为salt-master分配一个浮动ip。 或者可以在与Hadoop网络相同的网络中创建新服务器。 可以使用Salt master上的SaltStruts对Hadoop配置进行任何更改。 添加或停用datanode也可以通过...
HDFS提供高容错性的分布式文件系统,使得数据可以跨多个廉价服务器节点存储。MapReduce则是一种编程模型,用于大规模数据集的并行计算,它将大型任务拆分为小任务并在集群中并行执行。 搜索引擎的构建涉及到几个...
Cloudera Manager是大数据领域中的一款重要工具,专为管理Apache Hadoop和其他相关的数据处理集群而设计。它简化了集群的安装、管理和监控过程,极大地提升了运维效率。通过Cloudera Manager,可以将原本可能需要几...
6. **分布式存储和计算**:Hadoop的HDFS确保数据在集群中的冗余和可用性,MapReduce则负责跨多节点并行处理数据,提高整体效率。 在"SearchEngine-hadoop-master"这个压缩包中,可能包含了项目的源代码、配置文件、...
HDFS的分布式特性使得视频文件可以被分割成多个块并分散在集群的不同节点上,这样不仅提高了存储效率,也便于多线程并行访问,加快了读取速度。每个视频文件在HDFS上都会有一个唯一的路径标识,这为我们后续的索引...
此外,还需要熟悉Hadoop的配置和提交流程,确保程序能在Hadoop集群上正确运行。 在实现过程中,我们可能还需要考虑以下几个关键点: 1. **分词**:首先,需要实现一个分词器,将输入的文本分割成单词或短语。这...
它将数据分成块存储在集群中的多个节点上,确保了数据的高度可用性和容错性。 #### 五、服务器技术 **5.1 Amazon EC2** Amazon Elastic Compute Cloud (EC2) 提供了可扩展的计算容量,用户可以根据需求选择不同...
这就需要依赖相关的Jar包,如ZooKeeper的客户端库,来协调和管理Solr节点间的通信和数据分布。 云计算方面,Solr与Hadoop、Spark等大数据处理框架集成,可以方便地将索引和查询功能嵌入到云平台中。例如,通过...
**在 HDFS 上运行 Solr**:探讨了 Solr 与 Hadoop 分布式文件系统 (HDFS) 的集成方案,包括如何配置 Solr 使用 HDFS 存储数据、提高数据处理能力等内容。 **在 AWS EC2 上部署 Solr Cloud**:详细介绍了如何在 ...
Spark的核心概念是弹性分布式数据集(Resilient Distributed Datasets, RDD),这是一种存储在集群中的容错数据集合,可以进行并行操作。RDDs分为两种类型:转换(Transformation)和行动(Action)。转换创建新的...
Spark是Apache Hadoop生态系统中的一个快速、通用且可扩展的大数据处理框架,它适用于批处理、交互式查询、实时流处理等多种应用场景。本教程将基于Java语言,介绍如何使用Spark进行简单的词频统计(WordCount)操作...
在Cloudera Distribution Including Hadoop (CDH) 的环境中,MariaDB 被广泛用作数据存储解决方案。本篇文档将详细介绍如何针对CDH5环境下的MariaDB进行配置优化,确保其能够稳定高效地支持大规模的数据处理需求。 ...