`
eric_weitm
  • 浏览: 242215 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop 安装和运维

 
阅读更多

一、基本概念

namenode:dfs的目录、数据块等元数据

datanode:具体的数据

journalnode namenodez 之间元数据的同步

dfs:distributed file system

mapred:map reduce

 

ResourceManager:总入口和总调度(针对一个app)

ApplicationMaster:具体的作业调度(支持非map reduce)

NodeManager:一个节点的管理daemon

container:节点内执行的环境(资源)

Job History Server(api +RPC):收集和展现log信息

WebAppProxy:内部与外部访问间的一个中转

yarn.nodemanager.health-checker.script.path:监控node

Rack Awareness:机架感知,提高调度的性能

 

二、安装:配置+start

1、配置:

etc/hadoop/core-site.xml:

<configuration>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

 

etc/hadoop/hdfs-site.xml:

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>

 

etc/hadoop/mapred-site.xml:

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

 

etc/hadoop/yarn-site.xml:

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration>

2、保证可以ssh localhost

3、start:

bin/hdfs namenode -format

sbin/start-dfs.sh

sbin/start-yarn.sh

4、url

http://localhost:50070/  # dfs

http://localhost:8088/ # yarn

 

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/root # 创建用户

$ bin/hdfs dfs -put etc/hadoop input

# 执行jar

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'

 

bin/hdfs dfs -get output output

cat output/*

 

5、停止

$ sbin/stop-yarn.sh

$ sbin/stop-dfs.sh

 

三、命令

hadoop archive -archiveName zoo.har -p /foo/bar -r 3 /outputdir

hadoop classpath --glob 

hadoop jar *.jar # 执行jar

hadoop fs -appendToFile localfile /user/hadoop/hadoopfile # fs命令

 

四、文件系统常用命令

bin/hadoop fs -cat /user/root/output/*

hdfs dfsadmin -disallowSnapshot <path>

hdfs dfs -createSnapshot <path> [<snapshotName>]

hadoop dfs -df /user/hadoop/dir1

bin/hadoop fs -ls /user/root/output/*

 

五、其他

1、CLI MiniCluster:避免配置,参数化启动一个cluster

bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.3-tests.jar minicluster -rmport RM_PORT -jhsport JHS_PORT

2、Rack Awareness 机架感知 需要用脚本扩展来输出 /myrack/myhost

 

分享到:
评论

相关推荐

    Hadoop开发、运维和调优实战考试资料.pdf

    《Hadoop开发、运维和调优实战》考试资料概述 Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储大规模数据集。本资料主要涵盖了Hadoop的开发、运维和调优的相关知识,适合对Hadoop有...

    Hadoop大数据平台运维杂记.pptx

    Hadoop大数据平台运维杂记是关于Hadoop大数据平台的运维经验总结,主要涵盖了Hadoop集群的使用情况、安装升级、Cloudera Manager、Hadoop的发展历程、常见事故处理等方面的内容。 一、Hadoop集群使用情况 Hadoop...

    hadoop部署与集群运维

    里面讲了一些hadoo是如何部署与运维的知识点,希望对初学者有所帮助!

    hadoop大数据部署运维手册

    通过以上内容的学习,读者不仅可以掌握Hadoop集群的部署和运维,还能了解如何利用Flume进行数据收集,使用HBase存储和查询大规模结构化数据,以及借助Hive进行数据分析。这些技能对于从事大数据处理和分析的专业人士...

    大规模Hadoop集群运维经验谈

    本文将基于阿里巴巴的技术分享,详细介绍大规模Hadoop集群的运维策略和技术要点。 #### 集群规模与负载 阿里巴巴的Hadoop集群达到了相当大的规模,拥有约5000台服务器,总CPU核数约为50000个,内存总量约为260TB,...

    大数据云计算技术 Hadoop运维笔记(共21页).pptx

    【大数据云计算技术 Hadoop运维笔记】的PPT涵盖了Hadoop在蓝汛公司的应用实践,以及Cloudera的产品和运维经验。以下是对其中知识点的详细解释: 1. **Hadoop在蓝汛的应用**: - 蓝汛使用了6000台设备,300个集群,...

    hadoop运维经验分享

    2012年华东运维技术大会上分享的"Hadoop运维经验"涵盖了Hadoop生态系统中的多个关键方面,旨在帮助IT专业人士更好地管理和优化大规模数据处理环境。以下是对这些运维经验的详细解读: 1. **集群规划与搭建**:...

    阿里的hadoop运维经验分享

    阿里的hadoop运维经验分享。内容: hadoop集群搭建 监控 集群性能调优 Hadoop如何被搞垮的

    《Hadoop系统搭建及项目实践》课程标准.pdf

    《Hadoop系统搭建及项目实践》...总的来说,这门课程是为培养具备Hadoop平台搭建、运维、大数据应用与开发技能的专业人才而设计的,通过系统的理论学习和实践操作,学生将具备在云计算和大数据领域从事相关工作的能力。

    大数据平台技术实施与运维规范-Hadoop 分册.docx

    大数据平台技术实施与运维规范-Hadoop 分册提供了Hadoop的大数据平台技术实施和运维规范的详细指南,涵盖了Hadoop的基础知识、组件描述、系统环境配置、网络配置等方面的内容,为Hadoop的大数据平台技术实施和运维...

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Linux运维入门Hadoop实验参照手册二(安装Hadoop)

    Hadoop安装和配置

    本文将详细介绍如何在多台虚拟机上安装和配置Hadoop集群。 #### 二、环境准备 本示例中使用了三台虚拟机作为Hadoop集群的基础环境,它们的IP地址和角色分配如下: - **Master节点**:192.168.1.80 - **Slave1节点...

    Hadoop运维杂记

    Apache 推了一个Hadoop,这是一个开源的、免费的东东;每个人、每个公司都可以拿来修改,发布。...本文档以CDH为基础,讲述了系统搭建、运维方面的一些经验。它不是一个详细指导安装的文档、是一个杂记。

    hadoop自动化运维工具Ambari应用实践

    Apache Ambari是一种基于Web的运维工具,支持Apache Hadoop集群的自动化部署、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。     ...

    Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解.rar

    在大数据处理领域,Hadoop是一个不可或缺的核心框架,它为海量数据的存储和处理提供了高效、可靠的解决方案。本课程“Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解”旨在深入探讨Hadoop的主要组件及其...

    学习Hadoop开发运维和调优实战考试.pdf

    Hadoop 开发运维和调优实战考试 Hadoop 是一种基于 Java 的分布式计算框架,它主要由 HDFS(Hadoop Distributed File System)和 MapReduce 两个部分组成。HDFS 是一种分布式文件系统,负责存储数据,而 MapReduce ...

    基于Hadoop大数据集群的水电机组数据运维平台.pdf

    本篇论文提出了一个基于Hadoop大数据集群的水电机组数据运维平台的设计概念,旨在解决水电厂历史运行数据的存储、分析和挖掘问题。该平台采用基于JAVA编程语言开发的可扩展性架构理念,利用Hadoop大数据集群与水电站...

    《Hadoop&Spark;原理、运维、与开发》.pdf

    原理、运维、与开发》旨在为读者提供一个关于Hadoop和Spark从入门到实践的完整教程。书中不仅介绍了Hadoop和Spark的基本原理,还包括了如何安装部署、以及如何通过内置实例进行编程实践。 首先,本书的目的是为了让...

    hadoop常见问题及解决方法

    Hadoop是大数据处理的重要工具,但是在安装和使用Hadoop时,可能会出现一些常见的问题,这些问题可能会导致Hadoop无法正常工作,或者无法达到预期的性能。下面是Hadoop常见的问题及解决方法: 1、NameNode启动时...

    Cloudera Hadoop 安装指南

    根据给定的文件信息,以下是对Cloudera Hadoop安装指南中的关键知识点的...同时,Cloudera Manager作为一款优秀的管理工具,极大地简化了Hadoop集群的部署和维护工作,降低了管理和运维的成本,提升了整体的工作效率。

Global site tag (gtag.js) - Google Analytics