- 浏览: 596403 次
- 性别:
- 来自: 厦门
文章分类
- 全部博客 (669)
- oracle (36)
- java (98)
- spring (48)
- UML (2)
- hibernate (10)
- tomcat (7)
- 高性能 (11)
- mysql (25)
- sql (19)
- web (42)
- 数据库设计 (4)
- Nio (6)
- Netty (8)
- Excel (3)
- File (4)
- AOP (1)
- Jetty (1)
- Log4J (4)
- 链表 (1)
- Spring Junit4 (3)
- Autowired Resource (0)
- Jackson (1)
- Javascript (58)
- Spring Cache (2)
- Spring - CXF (2)
- Spring Inject (2)
- 汉字拼音 (3)
- 代理模式 (3)
- Spring事务 (4)
- ActiveMQ (6)
- XML (3)
- Cglib (2)
- Activiti (15)
- 附件问题 (1)
- javaMail (1)
- Thread (19)
- 算法 (6)
- 正则表达式 (3)
- 国际化 (2)
- Json (3)
- EJB (3)
- Struts2 (1)
- Maven (7)
- Mybatis (7)
- Redis (8)
- DWR (1)
- Lucene (2)
- Linux (73)
- 杂谈 (2)
- CSS (13)
- Linux服务篇 (3)
- Kettle (9)
- android (81)
- protocol (2)
- EasyUI (6)
- nginx (2)
- zookeeper (6)
- Hadoop (41)
- cache (7)
- shiro (3)
- HBase (12)
- Hive (8)
- Spark (15)
- Scala (16)
- YARN (3)
- Kafka (5)
- Sqoop (2)
- Pig (3)
- Vue (6)
- sprint boot (19)
- dubbo (2)
- mongodb (2)
最新评论
在这里我们选用4台机器进行示范,各台机器的职责如下表格所示
搭建Hadoop
1.1.复制编译后的hadoop项目到/usr/local目录下
1.2.修改位于etc/hadoop目录下的配置文件
1.2.1.hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
1.2.2.core-site.xml
1.2.3.hdfs-site.xml
该文件只配置在hadoop0和hadoop1上。
1.2.4.slaves
hadoop1
hadoop2
hadoop2
1.3.把以上配置的内容复制到hadoop1、hadoop2、hadoop3节点上
1.4.修改hadoop1、hadoop2、hadoop3上的配置文件内容
1.4.1.修改hadoop2上的core-site.xml内容
fs.defaultFS的值改为hdfs://cluster2
1.4.2.修改hadoop2上的hdfs-site.xml内容
把cluster1中关于journalnode的配置项删除,增加如下内容
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster2</value>
</property>
1.4.3.开始启动
1.4.3.1.启动journalnode
在hadoop0、hadoop1、hadoop2上执行sbin/hadoop-daemon.sh start journalnode
1.4.3.2.格式化ZooKeeper
在hadoop0、hadoop2上执行bin/hdfs zkfc -formatZK
1.4.3.3.对hadoop0节点进行格式化和启动
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
1.4.3.4.对hadoop1节点进行格式化和启动
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
1.4.3.5.在hadoop0、hadoop1上启动zkfc
sbin/hadoop-daemon.sh start zkfc
我们的hadoop0、hadoop1有一个节点就会变为active状态。
1.4.3.6.对于cluster2执行类似操作
1.4.4.启动datanode
在hadoop0上执行命令sbin/hadoop-daemons.sh start datanode
1.5.配置Yarn
1.5.1.修改文件mapred-site.xml
1.5.2. 修改文件yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop0</value>
</property>
【自定ResourceManager的地址,还是单点,这是隐患】
1.5.3.启动yarn
在hadoop0上执行sbin/start-yarn.sh
搭建Hadoop
1.1.复制编译后的hadoop项目到/usr/local目录下
1.2.修改位于etc/hadoop目录下的配置文件
1.2.1.hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
1.2.2.core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://cluster1</value> </property> 【这里的值指的是默认的HDFS路径。当有多个HDFS集群同时工作时,用户如果不写集群名称,那么默认使用哪个哪?在这里指定!该值来自于hdfs-site.xml中的配置。在节点hadoop0和hadoop1中使用cluster1,在节点hadoop2和hadoop3中使用cluster2】 <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> 【这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。】 <property> <name>ha.zookeeper.quorum</name> <value>hadoop0:2181,hadoop1:2181,hadoop2:2181</value> </property> 【这里是ZooKeeper集群的地址和端口。注意,数量一定是奇数,且不少于三个节点】 </configuration>
1.2.3.hdfs-site.xml
该文件只配置在hadoop0和hadoop1上。
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> 【指定DataNode存储block的副本数量。默认值是3个,我们现在有4个DataNode,该值不大于4即可。】 <property> <name>dfs.nameservices</name> <value>cluster1,cluster2</value> </property> 【使用federation时,使用了2个HDFS集群。这里抽象出两个NameService实际上就是给这2个HDFS集群起了个别名。名字可以随便起,相互不重复即可】 <property> <name>dfs.ha.namenodes.cluster1</name> <value>hadoop0,hadoop1</value> </property> 【指定NameService是cluster1时的namenode有哪些,这里的值也是逻辑名称,名字随便起,相互不重复即可】 <property> <name>dfs.namenode.rpc-address.cluster1.hadoop0</name> <value>hadoop0:9000</value> </property> 【指定hadoop0的RPC地址】 <property> <name>dfs.namenode.http-address.cluster1.hadoop0</name> <value>hadoop0:50070</value> </property> 【指定hadoop0的http地址】 <property> <name>dfs.namenode.rpc-address.cluster1.hadoop1</name> <value>hadoop1:9000</value> </property> 【指定hadoop1的RPC地址】 <property> <name>dfs.namenode.http-address.cluster1.hadoop1</name> <value>hadoop1:50070</value> </property> 【指定hadoop1的http地址】 <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster1</value> </property> 【指定cluster1的两个NameNode共享edits文件目录时,使用的JournalNode集群信息】 <property> <name>dfs.ha.automatic-failover.enabled.cluster1</name> <value>true</value> </property> 【指定cluster1是否启动自动故障恢复,即当NameNode出故障时,是否自动切换到另一台NameNode】 <property> <name>dfs.client.failover.proxy.provider.cluster1</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> 【指定cluster1出故障时,哪个实现类负责执行故障切换】 <property> <name>dfs.ha.namenodes.cluster2</name> <value>hadoop2,hadoop3</value> </property> 【指定NameService是cluster2时,两个NameNode是谁,这里是逻辑名称,不重复即可。以下配置与cluster1几乎全部相似,不再添加注释】 <property> <name>dfs.namenode.rpc-address.cluster2.hadoop2</name> <value>hadoop2:9000</value> </property> <property> <name>dfs.namenode.http-address.cluster2.hadoop2</name> <value>hadoop2:50070</value> </property> <property> <name>dfs.namenode.rpc-address.cluster2.hadoop3</name> <value>hadoop3:9000</value> </property> <property> <name>dfs.namenode.http-address.cluster2.hadoop3</name> <value>hadoop3:50070</value> </property> <!-- <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster2</value> </property> 【这段代码是注释掉的,不要打开】 --> <property> <name>dfs.ha.automatic-failover.enabled.cluster2</name> <value>true</value> </property> <property> <name>dfs.client.failover.proxy.provider.cluster2</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/usr/local/hadoop/tmp/journal</value> </property> 【指定JournalNode集群在对NameNode的目录进行共享时,自己存储数据的磁盘路径】 <property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> 【一旦需要NameNode切换,使用ssh方式进行操作】 <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_rsa</value> </property> 【如果使用ssh进行故障切换,使用ssh通信时用的密钥存储的位置】 </configuration>
1.2.4.slaves
hadoop1
hadoop2
hadoop2
1.3.把以上配置的内容复制到hadoop1、hadoop2、hadoop3节点上
1.4.修改hadoop1、hadoop2、hadoop3上的配置文件内容
1.4.1.修改hadoop2上的core-site.xml内容
fs.defaultFS的值改为hdfs://cluster2
1.4.2.修改hadoop2上的hdfs-site.xml内容
把cluster1中关于journalnode的配置项删除,增加如下内容
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hadoop0:8485;hadoop1:8485;hadoop2:8485/cluster2</value>
</property>
1.4.3.开始启动
1.4.3.1.启动journalnode
在hadoop0、hadoop1、hadoop2上执行sbin/hadoop-daemon.sh start journalnode
1.4.3.2.格式化ZooKeeper
在hadoop0、hadoop2上执行bin/hdfs zkfc -formatZK
1.4.3.3.对hadoop0节点进行格式化和启动
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
1.4.3.4.对hadoop1节点进行格式化和启动
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
1.4.3.5.在hadoop0、hadoop1上启动zkfc
sbin/hadoop-daemon.sh start zkfc
我们的hadoop0、hadoop1有一个节点就会变为active状态。
1.4.3.6.对于cluster2执行类似操作
1.4.4.启动datanode
在hadoop0上执行命令sbin/hadoop-daemons.sh start datanode
1.5.配置Yarn
1.5.1.修改文件mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
1.5.2. 修改文件yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop0</value>
</property>
【自定ResourceManager的地址,还是单点,这是隐患】
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
1.5.3.启动yarn
在hadoop0上执行sbin/start-yarn.sh
发表评论
文章已被作者锁定,不允许评论。
-
Hadoop namenode的fsimage与editlog详解
2017-05-19 10:04 1177Namenode主要维护两个文件,一个是fsimage,一个是 ... -
Hadoop HBase建表时预分区(region)的方法学习
2017-05-15 11:18 1189如果知道Hbase数据表的key的分布情况,就可以在建表的时候 ... -
Hadoop HBase行健(rowkey)设计原则学习
2017-05-15 10:34 1124Hbase是三维有序存储的,通过rowkey(行键),colu ... -
Hadoop HBase中split原理学习
2017-05-12 13:38 2270在Hbase中split是一个很重 ... -
Hadoop HBase中Compaction原理学习
2017-05-12 10:34 994HBase Compaction策略 RegionServer ... -
Hadoop HBase性能优化学习
2017-05-12 09:15 684一、调整参数 入门级的调优可以从调整参数开始。投入小,回报快 ... -
Hadoop 分布式文件系统学习
2017-05-10 15:34 498一. 分布式文件系统 分布式文件系统,在整个分布式系统体系中处 ... -
Hadoop MapReduce处理wordcount代码分析
2017-04-28 14:25 591package org.apache.hadoop.exa ... -
Hadoop YARN完全分布式配置学习
2017-04-26 10:27 572版本及配置简介 Java: J ... -
Hadoop YARN各个组件和流程的学习
2017-04-24 19:04 647一、基本组成结构 * 集 ... -
Hadoop YARN(Yet Another Resource Negotiator)详细解析
2017-04-24 18:30 1153带有 MapReduce 的 Apache Had ... -
Hive 注意事项与扩展特性
2017-04-06 19:31 7451. 使用HIVE注意点 字符集 Hadoop和Hive都 ... -
Hive 元数据和QL基本操作学习整理
2017-04-06 14:36 1017Hive元数据库 Hive将元数据存储在RDBMS 中,一般常 ... -
Hive 文件压缩存储格式(STORED AS)
2017-04-06 09:35 2299Hive文件存储格式包括以下几类: 1.TEXTFILE ... -
Hive SQL自带函数总结
2017-04-05 19:25 1139字符串长度函数:length ... -
Hive 连接查询操作(不支持IN查询)
2017-04-05 19:16 718CREATE EXTERNAL TABLE IF NOT ... -
Hive优化学习(join ,group by,in)
2017-04-05 18:48 1814一、join优化 Join ... -
Hive 基础知识学习(语法)
2017-04-05 15:51 896一.Hive 简介 Hive是基于 Hadoop 分布式文件 ... -
Hive 架构与基本语法(OLAP)
2017-04-05 15:16 1242Hive 是什么 Hive是建立在Hadoop上的数据仓库基础 ... -
Hadoop MapReduce操作Hbase范例学习(TableMapReduceUtil)
2017-03-24 15:37 1208Hbase里的数据量一般都 ...
相关推荐
在Hadoop生态系统中,配置文件是管理和优化集群性能的关键元素。本文将深入解析Hadoop的常用配置,包括HDFS(Hadoop Distributed File System)和MapReduce的端口配置,以及一些核心的默认配置参数。 首先,让我们...
在这个配置文件中,我们将会探讨Hadoop 2.2.0 在4台CentOS 6.4系统上运行所需的配置细节。 首先,Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们都需要通过一系列的配置文件来定制...
本资源提供了适用于Windows的Hadoop配置文件,特别是针对Hadoop 2.7.3版本,它允许用户避免手动编译的复杂步骤。下面我们将深入探讨在Windows上配置Hadoop的关键知识点。 1. **Hadoop的Windows兼容性**:虽然Hadoop...
本篇文章将详细解析Hadoop的四个主要默认配置文件:`hdfs-default.xml`、`core-default.xml`、`mapred-default.xml`和`yarn-default.xml`。 首先,`hdfs-default.xml`是Hadoop Distributed File System (HDFS) 的...
根据提供的文件信息,本文将详细解析Hadoop 2.6.4/2.7.3环境配置的关键步骤,包括Linux开发环境的搭建、JDK安装、以及如何创建一个Hadoop虚拟集群。 ### 一、Linux开发环境搭建 #### 1. 准备工具 - **VMware ...
本文将深入解析标题提及的四个核心配置文件:`core-default.xml`、`hdfs-default.xml`、`mapred-default.xml`以及`yarn-default.xml`。 首先,`core-default.xml`是Hadoop的核心组件配置文件,它包含了Hadoop的基本...
使用SQLSERVER访问hadoop2.0http地址,通过powershell下载其配置文件(xml格式);在TSQL然后通过xml查询,解析出hadoop2.0配置详细信息,这样可以通过熟悉的TSQL检索查询hadoop配置,并归类之
首先,我们来看标题——"基于虚拟机集群hadoop2.7.1配置文件"。这意味着我们要在多台虚拟机上建立一个Hadoop集群,使用的是Hadoop 2.7.1版本。这个版本是Hadoop的稳定版本,包含了YARN(Yet Another Resource ...
2. **配置同步**:在所有节点上保持Hadoop配置文件的一致性。 3. **启动服务**:按照启动顺序依次启动NameNode、Secondary NameNode、DataNode、ResourceManager和NodeManager。 4. **格式化NameNode**:首次部署...
本文将详细解析提供的几个关键配置文件,这些配置文件对于理解和优化Hadoop大数据集群的性能至关重要。 首先,`profile`文件通常包含了用户的环境变量设置,这对于Hadoop的安装和运行是必要的。用户可能会在这里...
以下将详细解析这些配置文件中的关键知识点。 1. **core-site.xml**: 这个文件定义了Hadoop的基本行为和存储信息。其中,`fs.defaultFS`属性是最重要的,它指定了Hadoop的默认文件系统,通常是一个高可用的HDFS名称...
以下是对这些配置文件及其重要参数的详细解析: 1. **core-site.xml**:这是Hadoop的核心配置文件,包含了与Hadoop文件系统操作相关的设置。其中最重要的是`fs.defaultFS`,它指定了默认的文件系统,通常是HDFS...
以下是对Hadoop 2.10.1 standalone配置文件的详细解析: 1. **core-site.xml**: 这个文件是Hadoop的核心配置,定义了文件系统的默认属性。例如,`fs.defaultFS`配置项指定了默认文件系统,通常设置为`file://...
2. 在所有服务器及虚拟机上绑定hosts文件,以确保主机名可以被解析。 3. 准备相关软件包,如hadoop-0.20.2-cdh3u5.tar.gz、hbase-0.90.6-cdh3u5.tar.gz、hive-0.7.1-cdh3u5.tar.gz、zookeeper-3.3.5-cdh3u5.tar.gz和...
在本场景中,我们有两个针对不同Hadoop版本的配置文件:`hadoop2.9配置文件.rar` 和 `hadoop2.7配置文件.rar`,分别适用于Hadoop 2.9.x和2.7.x版本。 **Hadoop和winutils.exe:** `winutils.exe` 是Hadoop在Windows...
Hadoop NameNode 源码解析 ...本文对 Hadoop NameNode 的源码进行了深入分析,了解了其启动过程、配置加载、RPC 服务端创建、 Namenode 对象初始化等关键步骤,为读者提供了一个详细的 Hadoop NameNode 源码解析。
### Hadoop配置手册知识点解析 #### 一、Hadoop配置环境概述 在开始解析之前,我们先了解一下Hadoop的基本配置环境。Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它主要包括HDFS(Hadoop ...
在Hadoop的分布式文件系统(HDFS)...通过以上对Hadoop文件读写、文件属性和目录操作的解析,我们可以理解HDFS如何高效、安全地处理大规模数据。在实际应用中,理解并优化这些操作,对于提升Hadoop集群的性能至关重要。