1.hadoop的分布式安装过程
1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode
从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker
1.2 各节点重新产生ssh加密文件
1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息
1.4 两两节点之间的SSH免密码登陆
ssh-copy-id -i hadoop1
scp /root/.ssh/authorized_keys hadoop1:/root/.ssh/
1.5 把hadoop0的hadoop目录下的logs和tmp删除
1.6 把hadoop0中的jdk、hadoop文件夹复制到hadoop1和hadoop2节点
scp -r /usr/local/jdk hadoop1:/usr/local/
1.7 把hadoop0的/etc/profile复制到hadoop1和hadoop2节点,在目标节点中执行source /etc/profile
1.8 编辑hadoop0的配置文件slaves,改为从节点的hostname,分别是hadoop1和hadoop2
1.9 格式化,在hadoop0节点执行hadoop namenode -format
1.10 启动,在hadoop0节点执行start-all.sh
****注意:对于配置文件core-site.xml和mapred-site.xml在所有节点中都是相同的内容。
2.动态的增加一个hadoop节点
2.1 配置新节点的环境
2.2 把新节点的hostname配置到主节点的slaves文件中
2.3 在新节点,启动进程
hadoop-daemon.sh start datanode
hadoop-daemon.sh start tasktracker
2.4 在主节点执行脚本 hadoop dfsadmin -refreshNodes
3.动态的下架一个hadoop节点
===================================================================================
1==
(1)hostname chaoren
(2)vi /etc/sysconfig/network
(3)vi /etc/hosts
192.168.1.130 hadoop0
192.168.1.131 hadoop1
192.168.1.132 hadoop2
2===
ssh-copy-id -i hadoop1
scp /root/.ssh/authorized_keys hadoop1:/root/.ssh/
scp /root/.ssh/authorized_keys hadoop2:/root/.ssh/
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
scp -r /usr/local/jdk hadoop1:/usr/local/
scp -r /usr/local/hadoop hadoop1:/usr/local/
scp -r /usr/local/jdk hadoop2:/usr/local/
scp -r /usr/local/hadoop hadoop2:/usr/local/
scp -r /etc/profile hadoop1:/etc/profile
scp -r /etc/profile hadoop2:/etc/profile
source /etc/profile
- 浏览: 66772 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (107)
- Scrapy (3)
- git (1)
- eclipse (2)
- PostgreSQL (17)
- jstl (1)
- python (11)
- Oracle (6)
- jquery (2)
- MongoDB (5)
- redis (0)
- Shell (3)
- Java-POI (2)
- solr (3)
- Java (12)
- nutch (0)
- Linux (7)
- PyLucene (1)
- hadoop (13)
- maven (1)
- Kafka (3)
- oozie (2)
- Kerberos (1)
- mysql (4)
- 杂记 (1)
- Storm (0)
- spark (1)
- nosql (0)
- hive (0)
- hbase (0)
- 项目管理 (2)
- jetty (0)
- jquery page翻页代码 (0)
- liferay portal 6 (1)
- spring boot -redis (0)
最新评论
发表评论
-
Mahout--学习资料
2015-04-16 16:00 359IBM--推荐系统:http://www.ibm.com/d ... -
Hadoop RPC
2015-04-10 00:27 0第一部分:什么是RPC ... -
Hadoop 管理
2015-04-10 00:27 0第一部分:HDFS管理 命令行工具 •HDFS文件系 ... -
Hadoop IO
2015-04-10 00:26 0第一部分:数据完整性 ... -
MapReduce高级编程
2015-04-10 00:25 0第一部分:重要的组件 Combiner ... -
hadoop tunning笔记
2015-04-10 00:23 0第一部分:core-site.xml ... -
hadoop tunning
2015-04-10 00:20 466选项 类型 默认值 描述 ... -
hive UDF 与hive UDAF开发
2015-04-09 23:19 0hive UDF HIVE允许用户使用UDF(user def ... -
hadoop2.x分布式安装
2015-03-30 00:43 0前期的环境准备都一样的,就不多说了----------vi / ... -
Hadoop 2.x伪分布式安装_20140729
2015-03-30 00:43 0软件的安装目录: ... -
11_flume
2015-03-30 00:42 0目前常见的日志收集系统:facebook-scribe、clo ... -
10_sqoop
2015-03-30 00:42 0SQOOP是用于对数据进行导入导出的。 (1)把MySQ ... -
09_hive
2015-03-30 00:42 01.Hive1.1在hadoop生态圈中 ... -
08_pig
2015-03-30 00:41 01.Pig是基于hadoop的一个数据处理的框架。 MapR ... -
07_Hbase集群搭建
2015-03-30 00:41 01.hbase的机群搭建过程(在原来的hadoop0上的hba ... -
06_HBase单节点
2015-03-30 00:40 01.HBase(NoSQL)的数据模型1.1 表(table) ... -
05_ZooKeeper
2015-03-30 00:40 5191.ZooKeeper 1.1 zk可以用来保证数据在z ... -
03_hdfs操作
2015-03-30 00:39 4671.对hdfs操作的命令格式是hadoop fs 1. ... -
02_单节点安装
2015-03-30 00:38 4111.hadoop的伪分布安装 hadoop-1.2.01.1 ... -
Hadoop--CLI的解析
2015-03-17 15:51 758基于 Apache Commons CLI 的命令行设计 ...
相关推荐
### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...
在本课程中,我们将深入探讨“Hadoop 2.x 64位伪分布式安装”这一主题,这是一项针对云计算和大数据处理的关键技术。Hadoop 是一个开源框架,它允许高效地存储和处理海量数据,而伪分布式安装模式是单台机器上模拟...
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
Hadoop是大数据技术中最重要的框架之一,是学习大数据必备的第一课,在Hadoop平台之上,可以更容易地开发和运行其他处理大规模数据的框架。尚硅谷Hadoop视频教程再次重磅升级!以企业实际生产环境为背景,增加了更...
这个压缩包文件“hadoop 2.X 伪分布式配置文件”是为在单个机器上模拟Hadoop集群的伪分布式环境而设计的。这种环境对于学习、测试和调试Hadoop组件非常有用,因为它避免了实际分布式环境中的复杂性,同时保留了主要...
Sqoop 是一个开源工具,主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 分布式文件系统(HDFS)之间高效地导入和导出数据。它弥补了传统 ETL 工具在大数据处理场景下的不足,提供了一种简单、灵活的方式来...
04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_hadoop_hdfs1分布式文件系统07 08_hadoop_hdfs1分布式文件系统08_io 09_hadoop_hdfs1分布式文件系统09_io 10...
文档中提到,与Hadoop 2.x相比,3.x版本在集群安装和配置方面基本变化不大,但具体到新版本的特性以及对默认端口的改变上,还是存在一些需要特别注意的地方。 #### 1. Hadoop 3.x集群安装知识 在集群安装知识部分,...
标签“hadoop.dll”、“hadoop2.7.x”和“hadoop”进一步强调了这是关于Hadoop分布式文件系统(HDFS)的核心库文件。 Hadoop是一个开源框架,由Apache软件基金会维护,它允许分布式存储和处理大量数据。在这个场景...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储海量数据。Hadoop 3.x系列是Hadoop的主要版本之一,相比之前的Hadoop 2.x,它引入了诸多改进和优化,提升了整体的存储性能和计算效率。在...
Apache Hadoop是一个开源框架,主要用于...学习Hadoop 2.x的安装不仅涉及技术操作,更需要理解其背后的分布式计算原理。通过本教程,读者将能够掌握Hadoop的基础安装和使用方法,为进一步深入大数据处理打下坚实基础。
在大数据处理领域,Hadoop是一个不可或缺的核心组件,它提供了分布式存储和计算的能力。Hadoop 2.x 是Hadoop发展的一个重要阶段,引入了许多关键改进,增强了系统的稳定性和可扩展性。本文将详细介绍如何在三节点...
Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它使得在分布式环境中存储和处理大规模数据变得可能。而Snappy是一种高效的压缩和解压缩库,旨在提高数据处理的速度。 【描述】"编译过的hadoop3.0版本...
这个版本特别针对Hadoop 3.x进行了优化,使得它能够充分利用Hadoop生态系统中的新特性和性能改进。在本文中,我们将深入探讨Spark 3.3.3与Hadoop 3.x的集成,以及它们在大数据处理领域的关键知识点。 首先,Spark的...
本文将详细介绍Hadoop 2.x版本在完全分布式环境下的安装与部署过程。 首先,搭建Hadoop完全分布式环境需要准备硬件环境。在这个案例中,需要准备三台安装有CentOS操作系统的机器。三台节点机需保证相互之间可以被...
Hadoop 2.x 是一个开源的分布式计算框架,它是Apache Hadoop项目的最新版本,旨在提供高效、可扩展的数据处理能力。这个版本引入了若干关键改进,使得Hadoop更适合大数据处理的需求,提高了系统的性能和可用性。 **...
在Windows x64平台上安装Hadoop可能与在Linux系统上有所不同,因为Hadoop原本是为Unix-like系统开发的。然而,通过一些适配,Hadoop也可以在Windows环境下运行。这个压缩包"hadop2.6_windows_x64.zip"提供了适用于64...
1. **环境变量设置**:确保已设置HADOOP_HOME环境变量,并将其值指向Hadoop的安装目录。这使得系统能够找到winutils.exe和其他相关脚本。 2. **PATH变量**:将%HADOOP_HOME%\bin添加到系统PATH环境变量中,这样在...
1. **安装Java**:Hadoop依赖于Java运行,因此首先需要在服务器上安装合适的Java版本。 2. **配置Hadoop环境**:包括设置`HADOOP_HOME`环境变量、配置`core-site.xml`、`hdfs-site.xml`等配置文件。 3. **格式化HDFS...