`
hmilyzhangl
  • 浏览: 46309 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

hadoop杂记(二)

阅读更多
四、安全模式属性说明
1、dfs.replication.min 类型:int 默认值:1 说明:设置最小副本级别,成功执行写操作所需要创建的最少副本数目(也就是最小复本级别)
2、 dfs.safemode.threshold.pct 类型:float 默认值:0.999 说明:在namenode退出安全模式之前,系统中满足最小复本级别(由上一个选项定义)的块的比例,将这项值设为0或更小的比例会令namenode无 法启动安全模式,设为高于1则永远不会退出安全模式
3、dfs.safemode.extension 类型:int 默认值:30000 说明:在最小复本条件(由上一个选项定义)满足之后,namenode还需要处于安全模式的时间(以毫秒为单位),对于小型集群(十几个节点),这项值可以设为0

core-site.xml个别设置说明:
1、io.file.buffer.size 设置缓冲区大小,默认4kb(64kb 128kb)
2、 fs.trash.interval 设置回收站中的文件保留多久后删除,以分钟为单位,默认值是0,表示回收特性无效。该回收功能是用户级特性,启用后,每个用户都有自己独立的回收站目录, 即home目录下的.trash目录,恢复时只要从该目录找到被删除的文件,将其移除就可以了。hdfs会自动删除回收站中的文件,其它文件系统不具备这 个功能,需要使用下列命令自行删除 hadoop fs -expunge

hdfs-site.xml个别设置说明:
1、dfs.block.size 设置hdfs块大小,默认64mb (128mb 256mb)
2、dfs.balance.bandwidthPerSec 设置均衡器在不同节点之间复制数据的带宽

dfs.datanode.du.reserved 设置保留空间的大小,以供其它程序使用,以字节为单位
fs.checkpoint.period 设置辅助namenode每隔多久创建检查点,以秒为单位
fs.checkpoint.size 设置当编辑日志(edits)大大小达到多少mb时,创建检查点,系统每5分钟检查一次编辑日志大小
dfs.datanode.numblocks 设置datanode一个目录存放多少个块时,就重新创建一个子目录
dfs.datanode.scan.period.hours 设置datanode块扫描的周期,默认三周(504小时)扫描一次


hadoop命令:
1、hadoop fs -mkdir /user/username   创建用户
2、hadoop fs -chown user:user /user/username  设置权限
3、hadoop dfsadmin -setSpaceQuota 1t /user/username  限制空间容量
4、hadoop dfsadmin -saveNamespace 创建检查点,将内存中的文件熊映射保存为一个新的fsimage文件,重置edits文件,该操作仅在安全模式下执行
5、hadoop dfsadmin -safemode get  查看namenode是否处于安全模式
6、hadoop dfsadmin -safemode wait  在脚本中执行某条命令前namenode先退出安全模式
7、hadoop dfsadmin -safemode enter  进入安全模式
8、hadoop dfsadmin -safemode leave  离开安全模式
9、hadoop dfsadmin -report 显示文件系统的统计信息,以及所连接的各个datanode的信息
10、hadoop dfsadmin -metasave 将某些信息存储到hadoop日志目录中的一个文件中,包括正在被复制或删除的块信息,以及已连接的datanode列表
11、hadoop dfsadmin -refreshNodes 更新允许连接到namenode的datanode列表
12、hadoop dfsadmin -upgradeProgress 获取有关hdfs升级的进度信息或强制升级
13、hadoop dfsadmin -finalizeUpgrade 移除datanode和namenode的存储目录上的旧版数据
14、hadoop dfsadmin -setQuota  设置目录中包含的文件和子目录的个数的配额
15、hadoop dfsadmin -clrQuota 清理指定目录的文件和子目录个数的配额
16、hadoop dfsadmin -clrSpaceQuota 清理指定的空间大小配额
17、hadoop dfsadmin -refreshServiceAcl 刷新namenode的服务级授权策略文件
18、hadoop fsck / 检查hdfs中文件的健康状况,该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块
19、 hadoop fsck /user/tom/part-007 -files -blocks -racks  files选项显示文件名称,大小,块数量,健康状况;block选项描述文件中各个块的信息,每个块一行;racks选项显示各个块的机架位置和 datanode的地址

解决主nemenode重启较慢的方法:(使用 -importCheckpoint选项启动辅助namenode,可将辅助namenode用作新的主namenode)
1、辅助namenode请求主namenode停止使用edits(记录操作日志的文件)文件。暂时将新记录写操作记录到一个新文件中
2、辅助namenode从主namenode获取fsimage(元数据永久检查点文件)和edits文件(采用http get)
3、辅助namenode将fsimage文件载入内存,逐一执行edits文件中的操作,创建新的fsimage文件
4、辅助namenode将新的fsimage文件发送回主namenode(使用http post)
5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件,用步骤一所产生的edits文件替换旧的edits文件,同时,还更新fstime文件来记录检查点执行的时间

均衡器程序:
start-balancer.sh -threshold 参数指定阀值(百分比格式),默认值是10%,任何时刻,集群中都只能运行一个均衡器,均衡器在不同节点之间复制数据是有带宽限制的,默认值是1mb/s
分享到:
评论

相关推荐

    Hadoop大数据平台运维杂记.pptx

    Hadoop大数据平台运维杂记 Hadoop大数据平台运维杂记是关于Hadoop大数据平台的运维经验总结,主要涵盖了Hadoop集群的使用情况、安装升级、Cloudera Manager、Hadoop的发展历程、常见事故处理等方面的内容。 一、...

    深入理解Hadoop(第二版)

    本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例

    Hadoop二进制安装包稳定版本

    标题中的“Hadoop二进制安装包稳定版本”指的是一个预编译的、经过测试的Hadoop软件包,确保了在不同环境下的稳定性和兼容性。这种稳定版本通常经过社区广泛的测试和调试,减少了潜在的bug和性能问题,适合在生产...

    Hadoop权威指南中文版(第二版)+Hadoop in Action

    《Hadoop权威指南中文版(第二版)》与《Hadoop in Action》及《Pro Hadoop》这三本书是深入理解和掌握Hadoop生态系统的关键资源。Hadoop作为一个分布式计算框架,其核心是解决大规模数据处理的问题,它允许在廉价...

    Hadoop权威指南 第二版(中文版)

     本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop...

    Hadoop运维杂记

    Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。在众多公司中做的比较好(用的也比较广泛)是Cloudera。...它不是一个详细指导安装的文档、是一个杂记。

    hadoop2.8 window支持bin文件

    在Windows上安装Hadoop,你需要下载Hadoop的二进制发行版,这个发行版通常包含一个压缩包,解压后你会看到一个名为"bin"的目录。这个目录包含了Hadoop运行所需的各种命令行工具,如`hadoop`, `hdfs`, `yarn`, `...

    hadoop开发者二期

    【Hadoop开发者二期】课程是针对已经有一定Hadoop基础的学习者设计的进阶教程,旨在深化对Hadoop生态系统的理解并提升开发技能。这个第二阶段的学习涵盖了Hadoop平台的高级特性,包括数据处理、分布式存储优化、性能...

    hadoop高级应用二

    "hadoop高级应用二"这个主题将深入探讨Hadoop生态系统中的高级概念和技术,帮助用户更好地理解和利用Hadoop进行大规模数据处理。以下是对这个主题的详细阐述: 一、Hadoop概述 Hadoop是由Apache基金会开发的一个...

    hadoop2.7.3的hadoop.dll和winutils.exe

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是Hadoop发展中的一个重要版本,它包含了众多的优化和改进,旨在提高性能、稳定性和易用性。在这个版本中,`hadoop.dll`...

    大数据云计算技术 Hadoop运维杂记(共21页).rar

    标题中的“大数据云计算技术 Hadoop运维杂记”表明这是一份关于Hadoop在大数据云计算环境下的运维实践文档。Hadoop是Apache基金会开发的一个开源框架,主要用于处理和存储大规模数据,尤其适合于处理非结构化和半...

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    Hadoop权威指南第四版和第二版

    第四版与第二版的对比,不仅展现了Hadoop技术的演进历程,也反映了大数据处理领域的最新发展。下面将分别就两版的主要内容和Hadoop的核心知识点进行详细阐述。 第二版的《Hadoop权威指南》主要覆盖了Hadoop 1.x的...

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf

    第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它是由Apache软件基金会开发并维护的,旨在实现高效、可扩展的数据处理能力。Hadoop的核心由两个主要组件构成:Hadoop Distributed ...

    hadoop-3.1.3安装包

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...

Global site tag (gtag.js) - Google Analytics