- 浏览: 602248 次
- 性别:
- 来自: 厦门
文章分类
- 全部博客 (669)
- oracle (36)
- java (98)
- spring (48)
- UML (2)
- hibernate (10)
- tomcat (7)
- 高性能 (11)
- mysql (25)
- sql (19)
- web (42)
- 数据库设计 (4)
- Nio (6)
- Netty (8)
- Excel (3)
- File (4)
- AOP (1)
- Jetty (1)
- Log4J (4)
- 链表 (1)
- Spring Junit4 (3)
- Autowired Resource (0)
- Jackson (1)
- Javascript (58)
- Spring Cache (2)
- Spring - CXF (2)
- Spring Inject (2)
- 汉字拼音 (3)
- 代理模式 (3)
- Spring事务 (4)
- ActiveMQ (6)
- XML (3)
- Cglib (2)
- Activiti (15)
- 附件问题 (1)
- javaMail (1)
- Thread (19)
- 算法 (6)
- 正则表达式 (3)
- 国际化 (2)
- Json (3)
- EJB (3)
- Struts2 (1)
- Maven (7)
- Mybatis (7)
- Redis (8)
- DWR (1)
- Lucene (2)
- Linux (73)
- 杂谈 (2)
- CSS (13)
- Linux服务篇 (3)
- Kettle (9)
- android (81)
- protocol (2)
- EasyUI (6)
- nginx (2)
- zookeeper (6)
- Hadoop (41)
- cache (7)
- shiro (3)
- HBase (12)
- Hive (8)
- Spark (15)
- Scala (16)
- YARN (3)
- Kafka (5)
- Sqoop (2)
- Pig (3)
- Vue (6)
- sprint boot (19)
- dubbo (2)
- mongodb (2)
最新评论
版本及配置简介
暂且配置3台机器,假设三台机器IP如下:
一.前置环境配置
1.创建hadoop用户
以下操作使用root用户
2.关闭防火墙 (每台机器都需)
3.修改机器名
4.配置hosts文件
5.重启机器
3.配置SSH互信
1.修改SSH配置文件
2.重启SSH
3.切换至hadoop用户在master上进行如下操作
在slave-1上操作
在slave-2上操作
在master上操作
在每台机器上修改下面两个文件的权限:
测试是否SSH互信配置好了:
4.JDK安装
给集群每台机器安装JDK,并且设置好JAVA_HOME
设置JAVA_HOME
二.hadoop安装
1.解压并重命名hadoop
在master操作
将hadoop-2.5.2.tar 上传到/home/hadoop目录下并解压
2.创建hadoop需要的目录
创建如下文件夹(在每台节点创建)
3.配置HADOOP_HOME
4.编辑slaves
5.给hadoop指定JAVA_HOME
6.修改hadoop配置文件
1).修改core-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/core-site.xml
2).修改hdfs-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/hdfs-site.xml
3).修改mapred-site.xml
$mv mapred-site.xml.templete mapred-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/mapred-site.xml
4).修改yarn-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/yarn-site.xml
7.拷贝软件到其他节点
8.格式化hdfs文件系统
9.启动hadoop
10.检测master节点:有以下三个进程表示启动成功
检测master节点:有以下三个进程表示启动成功
检测slave节点:有以下两个进程表示启动成功
Java: JDK1.7.0_71 Hadoop: hadoop-2.5.2 Linux: centos6.4 64bit
暂且配置3台机器,假设三台机器IP如下:
192.168.40.138 master 192.168.40.137 slave-1 192.168.40.136 slave-2
一.前置环境配置
1.创建hadoop用户
以下操作使用root用户
$useradd -d /home/hadoop -s /bin/bash hadoop $passwd hadoop hadoop
2.关闭防火墙 (每台机器都需)
$chkconfig iptables off 关闭selinux $vi /etc/selinux/config SELINUX=disabled
3.修改机器名
$vi /etc/sysconfig/network 将三台机器的名字分别改为master,slave-1,slave-2
4.配置hosts文件
$vi /etc/hosts 追加 192.168.40.138 master 192.168.40.137 slave-1 192.168.40.136 slave-2
5.重启机器
$reboot
3.配置SSH互信
1.修改SSH配置文件
$vi /etc/ssh/sshd_config 找到下列行 去掉注释# RSAAuthentication yes //字面意思..允许RSA认证 PubkeyAuthentication yes //允许公钥认证 AuthorizedKeysFile .ssh/authorized_keys //公钥存放在.ssh/au..文件中
2.重启SSH
$/etc/init.d/sshd restart
3.切换至hadoop用户在master上进行如下操作
$ssh-keygen -t rsa
在slave-1上操作
$ssh-keygen -t rsa $scp /home/hadoop/.ssh/id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.slave-1
在slave-2上操作
$ssh-keygen -t rsa $scp /home/hadoop/.ssh/id_rsa.pub hadoop@master:~/.ssh/id_rsa.pub.slave-2
在master上操作
$cat id_rsa.pub >> authorized_keys $cat id_rsa.pub.slave-1 >> authorized_keys $cat id_rsa.pub.slave-2 >> authorized_keys $scp authorized_keys hadoop@slave-1:~/.ssh/ $scp authorized_keys hadoop@slave-2:~/.ssh/
在每台机器上修改下面两个文件的权限:
$chmod 600 ~/.ssh/authorized_keys $chmod 700 ~/.ssh/
测试是否SSH互信配置好了:
$ssh master $ssh slave-1 $ssh slave-2
4.JDK安装
给集群每台机器安装JDK,并且设置好JAVA_HOME
$mkdir /usr/java 将jdk-7u71-linux-x64.tar上传到/usr/java目录并解压 $tar -xvf jdk-7u71-linux-x64.tar /usr/java $rm -rf jdk-7u71-linux-x64.tar $mv /usr/java/jdk1.7.0_71 /usr/java/jdk1.7
设置JAVA_HOME
$vi /etc/profile 追加下面文件 export JAVA_HOME=/usr/java/jdk1.7 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=.:$JAVA_HOME/bin:$PATH $source /etc/profile $java -version 检验JAVA环境变量是否设置好了
二.hadoop安装
1.解压并重命名hadoop
在master操作
将hadoop-2.5.2.tar 上传到/home/hadoop目录下并解压
$tar -xvf hadoop-2.5.2.tar $rm -rf hadoop-2.5.2.tar
2.创建hadoop需要的目录
创建如下文件夹(在每台节点创建)
mkdir -p /home/hadoop/tmp mkdir -p /home/hadoop/dfs/name mkdir -p /home/hadoop/dfs/data
3.配置HADOOP_HOME
$vi /etc/profile 添加 export HADOOP_HOME=/home/hadoop/hadoop-2.5.2/ export PATH=$PATH:$HADOOP_HOME/bin
4.编辑slaves
vi /home/hadoop/hadoop-2.5.2/etc/hadoop/slaves #添加如下内容 slave-1 slave-2
5.给hadoop指定JAVA_HOME
vi hadoop_env.sh 找到JAVA_HOME 设值为/usr/java/jdk1.7
6.修改hadoop配置文件
1).修改core-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hadoop/tmp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hadoop.groups</name> <value>*</value> </property> </configuration>
2).修改hdfs-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/hdfs-site.xml
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
3).修改mapred-site.xml
$mv mapred-site.xml.templete mapred-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>master:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>master:19888</value> </property> </configuration>
4).修改yarn-site.xml
$vi /home/hadoop/hadoop-2.5.2/etc/hadoop/yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:8088</value> </property> </configuration>
7.拷贝软件到其他节点
scp -r /home/hadoop/hadoop-2.5.2 slave-1:/home/hadoop/ scp -r /home/hadoop/hadoop-2.5.2 slave-2:/home/hadoop/ scp -r /home/hadoop/hadoop-2.5.2 slave-3:/home/hadoop/
8.格式化hdfs文件系统
$hdfs namenode –format
9.启动hadoop
$/home/hadoop/hadoop-2.5.2/sbin/start-all.sh
10.检测master节点:有以下三个进程表示启动成功
检测master节点:有以下三个进程表示启动成功
$jps 41837 SecondaryNameNode 41979 ResourceManager 41661 NameNode
检测slave节点:有以下两个进程表示启动成功
$jps [root@master hadoop]# jps 4543 DataNode 4635 NodeManager
发表评论
文章已被作者锁定,不允许评论。
-
Hadoop namenode的fsimage与editlog详解
2017-05-19 10:04 1198Namenode主要维护两个文件,一个是fsimage,一个是 ... -
Hadoop HBase建表时预分区(region)的方法学习
2017-05-15 11:18 1200如果知道Hbase数据表的key的分布情况,就可以在建表的时候 ... -
Hadoop HBase行健(rowkey)设计原则学习
2017-05-15 10:34 1131Hbase是三维有序存储的,通过rowkey(行键),colu ... -
Hadoop HBase中split原理学习
2017-05-12 13:38 2288在Hbase中split是一个很重 ... -
Hadoop HBase中Compaction原理学习
2017-05-12 10:34 1006HBase Compaction策略 RegionServer ... -
Hadoop HBase性能优化学习
2017-05-12 09:15 692一、调整参数 入门级的调优可以从调整参数开始。投入小,回报快 ... -
Hadoop 分布式文件系统学习
2017-05-10 15:34 509一. 分布式文件系统 分布式文件系统,在整个分布式系统体系中处 ... -
Hadoop MapReduce处理wordcount代码分析
2017-04-28 14:25 598package org.apache.hadoop.exa ... -
Hadoop YARN各个组件和流程的学习
2017-04-24 19:04 655一、基本组成结构 * 集 ... -
Hadoop YARN(Yet Another Resource Negotiator)详细解析
2017-04-24 18:30 1166带有 MapReduce 的 Apache Had ... -
Hive 注意事项与扩展特性
2017-04-06 19:31 7571. 使用HIVE注意点 字符集 Hadoop和Hive都 ... -
Hive 元数据和QL基本操作学习整理
2017-04-06 14:36 1041Hive元数据库 Hive将元数据存储在RDBMS 中,一般常 ... -
Hive 文件压缩存储格式(STORED AS)
2017-04-06 09:35 2331Hive文件存储格式包括以下几类: 1.TEXTFILE ... -
Hive SQL自带函数总结
2017-04-05 19:25 1146字符串长度函数:length ... -
Hive 连接查询操作(不支持IN查询)
2017-04-05 19:16 734CREATE EXTERNAL TABLE IF NOT ... -
Hive优化学习(join ,group by,in)
2017-04-05 18:48 1822一、join优化 Join ... -
Hive 基础知识学习(语法)
2017-04-05 15:51 908一.Hive 简介 Hive是基于 Hadoop 分布式文件 ... -
Hive 架构与基本语法(OLAP)
2017-04-05 15:16 1262Hive 是什么 Hive是建立在Hadoop上的数据仓库基础 ... -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
2017-03-24 15:37 1223Hbase里的数据量一般都 ... -
Hadoop MapReduce将HDFS文本数据导入HBase
2017-03-24 11:13 1227HBase本身提供了很多种数据导入的方式,通常有两种常用方式: ...
相关推荐
在搭建Hadoop2完全分布式集群之前,需要进行基本配置: * 安装JDK并配置JAVA_HOME环境变量 * 设置主机名及设置主机名于IP地址的映射 * 创建专有的用户和用户组 * 设置无密码登录 4. Hadoop2.2.0搭建 搭建Hadoop...
Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件...
本文档详细介绍了Hadoop完全分布式部署的过程,包括硬件和网络环境的准备、Java环境的安装、Hadoop的安装与配置以及Hive的集成等步骤。通过这些步骤,用户可以构建一个稳定可靠的Hadoop集群,为大数据处理提供坚实的...
### CentOS6.5系统下Hadoop2.6.0完全分布式环境安装与配置知识点 #### 一、系统环境准备 **1.1 修改主机名** 为了确保主机名的一致性,首先需要更改主机名为“Master”: ```bash sudo vim /etc/sysconfig/...
总结来说,搭建一个完全分布式的Hadoop集群需要对Linux、Java和Hadoop的原理有深入的理解。这是一个涉及多步骤的过程,每一步都需要谨慎操作。通过这样的集群,企业可以处理PB级别的数据,实现高效的数据分析和挖掘...
### Hadoop 2.4 完全分布式环境安装与配置 #### 一、前置准备:Java环境搭建 在安装Hadoop之前,首先需要确保已经安装了Java环境,因为Hadoop是基于Java编写的。 1. **下载Java JDK** 从Oracle官方网站下载JDK ...
### Hadoop伪分布式模式配置与...这种模式虽然不是完全意义上的分布式,但它提供了足够的灵活性来测试和验证Hadoop的各种功能,同时也能够模拟出实际生产环境中的一些常见问题,对于学习和理解Hadoop是非常有帮助的。
本教程将详细介绍如何在Linux环境中配置Hadoop2.7.6的完全分布式环境,以实现高效的数据处理。 首先,理解Hadoop的基本架构至关重要。Hadoop由两个主要组件构成:HDFS(Hadoop Distributed File System)和...
本教程将详述如何在虚拟机环境中搭建一个完全分布式模式的Hadoop集群。这个过程包括了多个步骤,从基础设备准备到Hadoop守护进程的启动和监控,确保所有组件能够协同工作。 一、基础设备 首先,我们需要一个具有...
在Hadoop生态系统中,了解和配置不同的运行模式是至关重要的,这些模式包括独立模式、伪分布模式、完全分布式模式以及高可用性(HA)配置。接下来,我们将详细探讨这些模式及其相关的配置文件。 1. **独立模式**: ...
标题“Ubuntu 14.04.1 + Hadoop 2.4 完全分布式搭建要点”涉及到的是在Ubuntu 14.04.1操作系统上安装和配置Hadoop 2.4版本的过程,这是一个大数据处理框架,常用于分布式存储和计算任务。Hadoop的核心组件包括HDFS...
### Hadoop 2.2.0 完全分布式集群配置详解 #### 一、概述 随着大数据技术的发展,Hadoop已成为处理大规模数据集的核心工具之一。Hadoop 2.2.0版本作为Hadoop生态系统中的一个重要里程碑,在性能、稳定性和安全性...
本文详细介绍了如何从零开始搭建Hadoop完全分布式集群的过程,包括了硬件和软件环境的准备、核心配置文件的调整以及集群的启动和验证等关键步骤。对于初次接触大数据处理技术的新手来说,这是一个非常好的学习起点。...
4. 集群安全:在完全分布式环境下,可能需要开启Hadoop的安全认证,如Kerberos,以确保数据的安全传输。这需要额外的配置和密钥管理。 5. 数据节点管理:NameNode负责元数据管理,DataNode存储实际数据块。通过`dfs...
本教程提供了一个全面的指南,帮助读者了解如何在Linux环境下安装和配置Hadoop完全分布式集群。需要注意的是,实际部署过程中还可能遇到各种细节问题,如网络配置、权限管理等方面的问题,需要根据实际情况灵活处理...
总之,Hadoop完全分布式环境的搭建涉及到网络配置、JDK安装、Hadoop配置文件的修改、服务启动以及验证。这个过程有助于理解Hadoop的工作原理,是大数据学习者必备的技能之一。通过实践,不仅可以掌握Hadoop的部署,...
文章目录搭建简单的Hadoop完全分布式模式分析首先设置集群规划虚拟机准备设置静态ip与主机名,设置用户为超级用户配置java环境hadoop安装配置集群配置core-site.xmlHDFS 配置文件YARN 配置文件MapReduce 配置文件这...
标题中提到了“hadoop完全分布式搭建”和“HA搭建”,这涉及到Hadoop的完全分布式集群的设置和Hadoop的高可用性(High Availability, HA)配置。Hadoop 是一个开源的框架,允许通过简单的编程模型来存储和处理大数据...
在搭建Hadoop完全分布式集群时,我们需要遵循一系列步骤,确保所有组件正确配置并协同工作。以下是基于三台机器的集群安装部署过程的详细说明: 1. **所需软件及版本** - Hadoop: 1.0.4 - JDK: 1.7.0_07 - 系统:...
这个压缩包文件"hadop-2.8.1完全分布式搭建脚本和配置文件"提供了在集群环境中搭建Hadoop 2.8.1版本的详细步骤,特别强调了高可用性和自动化配置。 1. **Hadoop 2.8.1**:这是Hadoop的一个稳定版本,它包含了对HDFS...