1 涉及到的命令:
hadoop-daemon.sh start namenode hadoop-daemon.sh start datanode yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager yarn node -list ./hdfs dfsadmin -refreshNodes ./hdfs dfsadmin -report hadoop job -list hadoop job -kill jobid //停止一个正在运行的job 启动数据负载均衡 /start-balancer.sh -threshold 5
2 新增加一个节点
1 准备机器及运行环境 配置hostname和hosts 环境变量 2 配置无秘钥登录ssh 。ssh-copy-id 3 在各个节点中添加新节点的host。 4 修改namenode中slaves文件(每次namenode重启会读取这个文件,启动时候可以直接启动新添加节点) 5 copy hadoop文件夹到新添加节点的一样文件夹中 。 scp 6 删除新节点中 hadoop中的临时文件夹我的是tmp文件夹(hadoop在配置文件中配置的工作目录) 7 启动datanode ,sbin/hadoop-daemon.sh start datanode在hdfs dfsadmin -refreshNodes刷新节点 hdfs dfsadmin -report或者nameNode50070 查看新添加的节点 8 平衡各个节点中数据块的大小: /start-balancer.sh -threshold 5 9 启动nodeManager,yarn-daemon.sh start nodemanager,通过yarn node -list 查看所有node节点 或者通过 http://resourceManagerhost:8088/ 查看其中节点数目
3 删除一个节点:
移除节点:最好不要直接停止机器否则可能造成机器数据块丢失 a) 修改hdfs-site,添加exclude字段中的排除的节点 <property> <name>dfs.hosts.exclude</name> <value>/web/hadoop-2.5.2/etc/hadoop/datanode-deny.list</value> </property> 添加文件: datanode-deny.list其中的内容加入需要删除的节点ip或者主机名称 (我自己弄的时候这两个文件同步到集群中所有节点中) b) 刷新节点状态: hadoop dfsadmin -refreshNodes 查看节点状态变为:decommission 此时namenode不会与该节点进行hdfs相关通信。也即exclude起到了一个防火墙的作用
4 删除节点后恢复
如果删除后想重新加入: 1 ) 删除datanode-deny.list文件中节点 2)hadoop dfsadmin -refreshNodes 3) 重新新加入的节点datanode 进程
相关推荐
- `hadoop fs -rmr /output` 删除HDFS中的文件或目录 **7. Linux常用命令** - `cd ..` 返回上级目录 - `cd ~` 返回Home目录 - `cd /` 返回根目录 - `cd var/` 进入 `var/` 文件夹 - `su -` 切换到超级用户模式 - `...
2.4 .2 副本放置策略的有效前提………………………………………………………………………. 73 2.4 .3 默认副本放置策略的分析……··………………………………………………………………. 73 2.4.4 目标存储好坏的...
2. **解压安装包**:使用`tar -zxvf hadoop-x.x.x.tar.gz`命令解压安装包至指定目录。 3. **配置Hadoop环境变量**:编辑`/etc/profile`文件,添加Hadoop环境变量。 4. **配置Hadoop核心文件**:编辑`core-site.xml`...
### Hadoop2.x环境搭建详解 #### 一、概述 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。本文将详细介绍Hadoop2.x环境的...
上一篇文章中我们介绍了Hadoop编程基于MR程序实现倒排索引示例的有关内容,这里我们看看如何在Hadoop中动态地增加和删除节点(DataNode)。 假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一、动态...
datanode.sink.ganglia.servers = 239.2.11.71:8649 jobtracker.sink.ganglia.servers = 239.2.11.71:8649 tasktracker.sink.ganglia.servers = 239.2.11.71:8649 maptask.sink.ganglia.servers = 239.2.11.71:...
4. **yarn-site.xml**:在Hadoop 2.x版本后,MapReduce任务由YARN(Yet Another Resource Negotiator)管理。这里配置ResourceManager和NodeManager的位置、内存分配等。 5. **slaves**:列出集群中所有数据节点...
HDFS中的文件被分割成块进行存储,默认的块大小为128MB(Hadoop 2.x之后)。较大的块大小有助于提高系统的I/O效率,减少寻址开销。选择合适的块大小对于优化HDFS性能至关重要。 #### 二、HDFS Shell操作(开发重点...
对于Hadoop 2.2.X版本,集群规划有所不同,主要体现在NameNode、DataNode之外的组件变化。ResourceManager取代了JobTracker,负责资源的全局调度,NodeManager则是代替TaskTracker的每个节点上的执行器,体现了YARN...
默认情况下,在Hadoop 2.x中,块大小为128MB,而在旧版本中为64MB。选择较大的块大小是为了减少寻址开销,使得数据传输时间主要依赖于磁盘传输速率,而非寻址时间。 ### HDFS命令行操作 Hadoop提供了丰富的命令行...
- **启动DataNode**:使用**`hadoop-2.7.4/sbin/hadoop-daemon.sh start datanode`**。 - **启动NodeManager**:使用**`hadoop-2.7.4/sbin/yarn-daemon.sh start nodemanager`**。 ### 6. 测试Hadoop - **检查进程*...
- **解释**: 由于HBase是一种列族数据库,它允许动态添加列,因此在设计表时不需要预先定义所有可能的列。因此,正确答案是A:不需要预定义列。 ### 29. 使用Ruby操作HDFS - **知识点**: 可以使用Hadoop Streaming ...
【Hadoop云计算平台搭建】 Hadoop是一个开源的分布式计算框架,专为处理和存储大量数据设计,常用于大数据处理和分析。本教程将详细介绍在Linux环境下搭建Hadoop云计算平台的过程,包括Hbase、Pig、Hive、Zookeeper...
### Hadoop 3.1.2 完全分布式集群安装指南 #### 一、基础知识与前期准备 **1.1 常用 Shell 命令** 为了更好地理解和执行 Hadoop 的安装步骤,首先需要掌握一些基本的 Linux 命令。 **1.1.1 sudo 命令** - **...
8. **验证运行**:通过Hadoop提供的命令行工具或Web界面检查各个服务是否正常运行,例如,使用`jps`查看进程状态,或者访问NameNode的Web UI(默认端口50070)。 9. **安装Eclipse插件**:为了方便开发,可以在...
对于 Kettle 5.3,选择适用于 Hadoop 2.x 的 shim 包 hdp21。具体操作是在 `data-integration/plugins/pentaho-big-data-plugin/plugin.properties` 文件中,将 `active.hadoop.configuration` 属性值设置为 `hdp21`...
- `edits` 文件记录了针对文件系统的修改操作,包括添加、删除或修改文件等动作。每当有新的修改发生时,这些操作就会被记录下来。 - **启动过程**:启动时,NameNode会加载`fsimage` 文件中的内容到内存中,然后...