`
邢邢色色
  • 浏览: 229027 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

【转】Hadoop 操作备忘

阅读更多

原文链接:http://blog.falood.me/2012/01/hadoop.html

 

DateNode 测试(添加、删除、灾难)
测试前:
master.hadoop:  248
secondaryname.hadoop:  106
slave104.hadoop:   104
slave110.hadoop:   110
slave250.hadoop:   250 (准备加入,不在集群内)

格式化DateNode:
hadoop namenode -format

平衡DateNode:
hadoop balancer

添加DataNode(添加slave250.hadoop):
在 slave250.hadoop 部署与slave104相同的hadoop环境
在 master.hadoop $HADOOP_HOME/conf/slaves 加入 slave250.hadoop
在 master.hadoop $HADOOP_HOME/bin 执行 start-all.sh
添加完成
完成标志: DFS 管理页面 Live Nodes 里新加了 slave250.hadoop

删除DataNode(删除slave110.hadoop):
在 master.hadoop $HADOOP_HOME/conf/dfs.hosts.exclude 文件添加 slave110.hadoop
在 master 执行 hadoop dfsadmin -refreshNodes
查看 DFS 管理页面  Decommissioning Nodes 变为 1,说明正在执行删除 slave110.hadoop 操作
等待 Decommissioning Nodes 变成0, Dead Nodes 变为 1,说明 slave110.hadoop 删除操作完成
在 slave110.hadoop 机器上 kill 掉 hadoop 的相关进程
删除完成
完成标志: DFS管理页面 Live Nodes  看不到 slave110.hadoop,Configured Capacity 减少相应的磁盘空间

灾难测试(强行删除 slave104.hadoop 的 hdfs 数据目录):
hadoop 自动识别了灾难,Dead Nodes 数量变为 1,此时数据正常,运行 mapreduce 程序正常
灾难恢复: 在 slave104.hadoop 机器上 kill 掉 hadoop 的相关进程,清空/新建 hdfs 数据目录,在 master.hadoop $HADOOP_HOME/bin 执行 start-all.sh
完成标志: DFS 管理页面 Live Nodes 里新加了 slave104.hadoop

master 故障测试(冷备方案NameNode故障手动切换):
1. 不切换 NameNode 主机。
   1).复制 SecondaryNameNode 的 fs.checkpoint.dir 目录的数据到 NameNode 的对应目录。
   2).清空 NameNode 的 dfs.name.dir 目录的数据,保留空目录。
   3).在 NameNode 主机执行 hadoop namenode -importCheckpoint 。
   4).执行 hadoop fsck /  检查文件系统,"The filesystem under path '/' is HEALTHY" 为正常结果。
   5).结束 步骤 3). 中的命令,Ctrl + C
   6).清空 NameNode 的 fs.checkpoint.dir 目录的数据
   7). start-dfs.sh 正常启动 datenode
2. 切换 NameNode 主机
   0). 修改 DNS 服务器,把 master.hadoop 指向新的 NameNode
   1). 2). 3). 同上
   3.1). 同上 5). 中的操作,结束 checkpoint
   3.2). stop-all.sh 停掉 hadoop 集群
   跳过 4). 5).
   6). 同上
   7). start-all.sh  启动 hadoop 集群
   8). 同上 4). 中的操作检查数据的完整性

分享到:
评论

相关推荐

    Hadoop期末操作备忘录

    【Hadoop期末操作备忘录】是一份针对学习和使用Hadoop技术的学生或专业人士的重要参考资料。这份备忘录旨在帮助用户在期末复习阶段系统地回顾和掌握Hadoop的核心概念、关键组件以及实际操作技巧,从而在考试或项目中...

    mac环境下hadoop集群搭建

    在文档的最后,强调了版权和使用说明,明确指出本文档仅用于个人学习和备忘,禁止有营利性行为的单位和个人使用,以防误用导致不必要的侵权问题。同时,文档还提供了联系方式,以便在文档出现错误或者不足时,读者...

    快速配置Hadoop开发环境 Win7+Eclipse&CentOS7+Hadoop2 5 1

    本文来自近一周从零开始摸索的操作的笔记 在此过程中得感谢XXTV 感谢互联网 整理出来一是自己备忘 二是希望能初学Hadoop的人一些参考 并节约宝贵时间 本文分两部分 第一部分为Hadoop2 5 1集群的架设 基于CentOS 7...

    华为OD系列--华为od,备忘录.zip

    "华为OD,备忘录"可能是这个系列中关于如何使用和配置华为OD平台的一个文档集合,用于记录和分享相关的操作流程、最佳实践和问题解决方案。由于没有具体的描述内容,我们将基于对华为OD系列的一般理解来展开讨论。 ...

    按知识领域整理面试题,包括C++、Java、Hadoop、机器学习等.zip

    - 行为型模式(如策略、模板方法、观察者、迭代器、责任链、命令、备忘录、解释器) 8. **数据结构与算法** - 树结构(二叉树、AVL树、红黑树) - 图算法(Dijkstra、Floyd、拓扑排序) - 排序算法(冒泡、选择...

    HCDE438-Cheatsheets:HCDE 438 2020年夏季备忘单

    - SQL查询语言:掌握基本的SELECT语句,JOIN操作,子查询以及窗口函数的使用。 - 数据预处理:理解缺失值处理、异常值检测和数据规范化的方法。 - 数据可视化:学习使用工具(如Tableau或Python的Matplotlib库)...

    Cloudera Product Comparison

    描述中提到的“社区版和企业版区别”以及“备忘一下”说明了本文档的核心内容将聚焦于Cloudera两种版本之间的主要差异,并且可能是作为学习或决策参考的目的。 标签“社区版 企业版”进一步确认了文档的焦点是这两...

    云计算及网站技术运营.ppt

    例如,Amazon的弹性云平台提供了稳定且灵活的Web服务部署选项,而Hadoop这样的开源项目则用于大规模日志分析和数据处理。分布式文件系统如MooseFS则帮助构建大规模、高性能和高可靠的虚拟存储。平台虚拟化技术,如...

    【白雪红叶】JAVA学习技术栈梳理思维导图.xmind

    操作系统 linux 代码控制 自动化代码检查 sonar 代码规范 阿里巴巴Java开发规范手册 UMPAY——编码规范 日志规范 异常规范 网络 协议 TCP/IP HTTP hession file HTTPS 负载均衡 容器 JBOSS ...

    云计算及网站技术运营dr.ppt

    ### 云计算概述及其特征 #### 一、云计算概念解析 云计算是一种通过互联网提供按需...- **备份/备忘为王**:定期备份数据和记录关键操作,以防万一。 - **架构优先**:合理规划系统架构,为未来的扩展和优化打下基础。

    JAVA技术体系

    - **IO 操作**:讲解如何进行文件读写、字符流与字节流操作。 - **多线程**:讨论线程的创建、生命周期及其同步机制。 - **图形编程**:利用 AWT 和 Swing 库进行 GUI 界面设计。 - **网络编程**:了解 Socket ...

Global site tag (gtag.js) - Google Analytics