一、基本概念
namenode:dfs的目录、数据块等元数据
datanode:具体的数据
journalnode namenodez 之间元数据的同步
dfs:distributed file system
mapred:map reduce
ResourceManager:总入口和总调度(针对一个app)
ApplicationMaster:具体的作业调度(支持非map reduce)
NodeManager:一个节点的管理daemon
container:节点内执行的环境(资源)
Job History Server(api +RPC):收集和展现log信息
WebAppProxy:内部与外部访问间的一个中转
yarn.nodemanager.health-checker.script.path:监控node
Rack Awareness:机架感知,提高调度的性能
二、安装:配置+start
1、配置:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2、保证可以ssh localhost
3、start:
bin/hdfs namenode -format
sbin/start-dfs.sh
sbin/start-yarn.sh
4、url
http://localhost:50070/ # dfs
http://localhost:8088/ # yarn
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/root # 创建用户
$ bin/hdfs dfs -put etc/hadoop input
# 执行jar
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
bin/hdfs dfs -get output output
cat output/*
5、停止
$ sbin/stop-yarn.sh
$ sbin/stop-dfs.sh
三、命令
hadoop archive -archiveName zoo.har -p /foo/bar -r 3 /outputdir
hadoop classpath --glob
hadoop jar *.jar # 执行jar
hadoop fs -appendToFile localfile /user/hadoop/hadoopfile # fs命令
四、文件系统常用命令
bin/hadoop fs -cat /user/root/output/*
hdfs dfsadmin -disallowSnapshot <path>
hdfs dfs -createSnapshot <path> [<snapshotName>]
hadoop dfs -df /user/hadoop/dir1
bin/hadoop fs -ls /user/root/output/*
五、其他
1、CLI MiniCluster:避免配置,参数化启动一个cluster
bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.3-tests.jar minicluster -rmport RM_PORT -jhsport JHS_PORT
2、Rack Awareness 机架感知 需要用脚本扩展来输出 /myrack/myhost
相关推荐
《Hadoop开发、运维和调优实战》考试资料概述 Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储大规模数据集。本资料主要涵盖了Hadoop的开发、运维和调优的相关知识,适合对Hadoop有...
Hadoop大数据平台运维杂记是关于Hadoop大数据平台的运维经验总结,主要涵盖了Hadoop集群的使用情况、安装升级、Cloudera Manager、Hadoop的发展历程、常见事故处理等方面的内容。 一、Hadoop集群使用情况 Hadoop...
里面讲了一些hadoo是如何部署与运维的知识点,希望对初学者有所帮助!
通过以上内容的学习,读者不仅可以掌握Hadoop集群的部署和运维,还能了解如何利用Flume进行数据收集,使用HBase存储和查询大规模结构化数据,以及借助Hive进行数据分析。这些技能对于从事大数据处理和分析的专业人士...
本文将基于阿里巴巴的技术分享,详细介绍大规模Hadoop集群的运维策略和技术要点。 #### 集群规模与负载 阿里巴巴的Hadoop集群达到了相当大的规模,拥有约5000台服务器,总CPU核数约为50000个,内存总量约为260TB,...
Apache Hadoop:Hadoop集群运维与优化.docx
【大数据云计算技术 Hadoop运维笔记】的PPT涵盖了Hadoop在蓝汛公司的应用实践,以及Cloudera的产品和运维经验。以下是对其中知识点的详细解释: 1. **Hadoop在蓝汛的应用**: - 蓝汛使用了6000台设备,300个集群,...
2012年华东运维技术大会上分享的"Hadoop运维经验"涵盖了Hadoop生态系统中的多个关键方面,旨在帮助IT专业人士更好地管理和优化大规模数据处理环境。以下是对这些运维经验的详细解读: 1. **集群规划与搭建**:...
阿里的hadoop运维经验分享。内容: hadoop集群搭建 监控 集群性能调优 Hadoop如何被搞垮的
在信息技术高速发展的今天,大数据和云计算已成为推动社会进步的重要力量...随着数据时代对专业人才需求的不断增加,这门课程的重要性将日益凸显,为社会输送更多具备Hadoop平台搭建、运维和大数据应用能力的专业人才。
大数据平台技术实施与运维规范-Hadoop 分册提供了Hadoop的大数据平台技术实施和运维规范的详细指南,涵盖了Hadoop的基础知识、组件描述、系统环境配置、网络配置等方面的内容,为Hadoop的大数据平台技术实施和运维...
Linux运维入门Hadoop实验参照手册二(安装Hadoop)
本文将详细介绍如何在多台虚拟机上安装和配置Hadoop集群。 #### 二、环境准备 本示例中使用了三台虚拟机作为Hadoop集群的基础环境,它们的IP地址和角色分配如下: - **Master节点**:192.168.1.80 - **Slave1节点...
Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。...本文档以CDH为基础,讲述了系统搭建、运维方面的一些经验。它不是一个详细指导安装的文档、是一个杂记。
Apache Ambari是一种基于Web的运维工具,支持Apache Hadoop集群的自动化部署、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。 ...
一、Hadoop 集群启动和停止命令 Hadoop 集群可以使用 start-all.sh 命令启动,使用 stop-all.sh 命令停止。在集群维护过程中,需要频繁地启动和停止集群,因此掌握这些命令非常重要。 二、增加集群存储量 如果...
在大数据处理领域,Hadoop是一个不可或缺的核心框架,它为海量数据的存储和处理提供了高效、可靠的解决方案。本课程“Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解”旨在深入探讨Hadoop的主要组件及其...
Hadoop 开发运维和调优实战考试 Hadoop 是一种基于 Java 的分布式计算框架,它主要由 HDFS(Hadoop Distributed File System)和 MapReduce 两个部分组成。HDFS 是一种分布式文件系统,负责存储数据,而 MapReduce ...
本篇论文提出了一个基于Hadoop大数据集群的水电机组数据运维平台的设计概念,旨在解决水电厂历史运行数据的存储、分析和挖掘问题。该平台采用基于JAVA编程语言开发的可扩展性架构理念,利用Hadoop大数据集群与水电站...
原理、运维、与开发》旨在为读者提供一个关于Hadoop和Spark从入门到实践的完整教程。书中不仅介绍了Hadoop和Spark的基本原理,还包括了如何安装部署、以及如何通过内置实例进行编程实践。 首先,本书的目的是为了让...