基于yarn平台的Hadoop2.2.0在前几天已经发布稳定版本了
新版本解决了1.x中的NameNode,JobTracker单点故障问题,使用yarn统一了分布式开发的集群平台,给集群的资源管理及部署大大提供了便利。目前大多数公司使用的还是1.x的hadoop,那么散仙今天伪分布式的部署,使用的是Apache1.2的hadoop稳定版本,关于2.x的hadoop的部署,散仙会在后面的文章中给出例子。下面进入正题。
hadoop的部署总共有3种类型,分别是单机版,单机伪分布式版,以及完全分布式集群三种类型,只要熟悉一些Linux的一些基本操作就能很快上手,当然前提是你还有一定的Java基础,毕竟Hadoop的就是用Java编写的。
关于JDK环境变量的设置及SSH无验证登陆的配置(可以参考的我的上一篇文章),散仙就不在这里详细说明了,
网上搜一下,有很多讲解的。单机版以及伪分布式的部署,只需要一个节点即可,首先我们要在在设置主机名,使用vi /etc/sysconfig/network 进行修改并保存。
然后,我们在hosts文件里配置,主机名与IP的映射关系
使用命令 vi /etc/hosts进行保存修改即可
然后拷贝已经下载的好的hadoop压缩包,至根目录,并解压,首先我们需要配置的是在conf下的hadoop-env.sh这个文件,使用vi hadood-env.sh进行取消注释的JAVA HOME,然后把我们自己的JDK路径设置上,并保存
接下来需要配置的是conf下的core.site.xml这个文件
,添加
<property>
<name>fs.default.name</name>
<value>hdfs://Master:9000</value>
</property>
下一步需要配置的是hdfs的副本个数,因为我们是单机的所以副本数应该为1,默认是3,如果节点数比3少那么hadoop会启动报错。编辑文件
hdfs.site.xml添加
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
到这一步,其实已经可以启动HDFS的集群了,但是为了演示完整,我们把JobTracke也配置一下。编辑文件mapred-site.xml添加
<property>
<name>mapred.job.tracker</name>
<value>Master:9001</value>
</property>
到此步,我们已经配置完毕,再准备启动我们的集群前,还有一项重要的工作要做,就是需要格式化我们的namenode,进行hadoop根目录,然后执行bin/hadoop namenode -format即可
现在就可以启动我们的hadoop了,执行命令,
bin/start-all.sh
使用JPS命令查看端口情况,检测启动是否成功
最后,为了方便测试,散仙把防火墙关闭了,如果是在生产环境中,可以在IP里设置Hadoop的对外开放端口,千万不能关闭防火墙,很危险的一件事,当然我们这里是测试,才这么做的,执行命令 service iptables stop
最后,我们在Win上访问Linux的服务,访问地址如下
:master:50030,以及master:50070,查看Hadoop的Web管理页面。
至此,我们的伪分布式模式就部署成功了,如果想要停止集群服务,可以使用bin/stop-all.sh命令,来停止服务。
- 浏览: 1053973 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1441)
- 软件思想&演讲 (9)
- 行业常识 (250)
- 时时疑问 (5)
- java/guava/python/php/ruby/R/scala/groovy (213)
- struct/spring/springmvc (37)
- mybatis/hibernate/JPA (10)
- mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila (268)
- js/jquery/jqueryUi/jqueryEaseyUI/extjs/angulrJs/react/es6/grunt/zepto/raphael (81)
- ZMQ/RabbitMQ/ActiveMQ/JMS/kafka (17)
- lucene/solr/nuth/elasticsearch/MG4J (167)
- html/css/ionic/nodejs/bootstrap (19)
- Linux/shell/centos (56)
- cvs/svn/git/sourceTree/gradle/ant/maven/mantis/docker/Kubernetes (26)
- sonatype nexus (1)
- tomcat/jetty/netty/jboss (9)
- 工具 (17)
- ETL/SPASS/MATLAB/RapidMiner/weka/kettle/DataX/Kylin (11)
- hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie (190)
- ios/swift/android (9)
- 机器学习&算法&大数据 (18)
- Mesos是Apache下的开源分布式资源管理框架 (1)
- echarts/d3/highCharts/tableau (1)
- 行业技能图谱 (1)
- 大数据可视化 (2)
- tornado/ansible/twisted (2)
- Nagios/Cacti/Zabbix (0)
- eclipse/intellijIDEA/webstorm (5)
- cvs/svn/git/sourceTree/gradle/jira/bitbucket (4)
- jsp/jsf/flex/ZKoss (0)
- 测试技术 (2)
- splunk/flunm (2)
- 高并发/大数据量 (1)
- freemarker/vector/thymeleaf (1)
- docker/Kubernetes (2)
- dubbo/ESB/dubboX/wso2 (2)
最新评论
发表评论
-
CDH与原生态hadoop之间的区别
2017-07-26 12:45 997需要认识的几个问题 ------------------- ... -
Cloudera的CDH和Apache的Hadoop的区别
2017-07-26 12:49 578目前而言,不收费的Hadoop版本主要有三个(均是国外厂商) ... -
大数据、云计算系统高级架构师课程学习路线图
2017-07-24 17:10 601大数据、云计算系统高级架构师课程学习路线图 大数据 ... -
Oozie简介
2017-07-24 12:17 1068在Hadoop中执行的任务有时候需要把多个Map/Reduc ... -
清理ambari安装的hadoop集群
2017-07-24 11:29 929本文针对redhat或者centos 对于测试集群,如果通 ... -
hawk大数据基础知识总结(2)
2017-05-13 15:13 517hawk 英[hɔ:k] 美[hɔk] n. 鹰; 霍克; ... -
hawk大数据基础知识总结(1)
2017-05-13 14:41 797一、大数据概述 1.1大 ... -
ambari是什么
2017-05-11 19:52 651Apache Ambari是一种基于Web的工具,支持Apa ... -
数据仓库中的Inmon与Kimball架构之争
2017-05-11 13:40 699对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至 ... -
Hive的meta 数据支持以下三种存储方式
2017-05-04 13:48 907测试环境下Hive总出问题 ... -
大数据要学习知识
2017-05-02 17:18 49301 技术层面 1.紧贴 ... -
Spark Streaming简介
2017-05-02 16:28 7491.1 概述 Spark Streaming 是Spark ... -
pentaho套件
2017-04-28 15:52 836有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全 ... -
Impala:新一代开源大数据分析引擎
2017-04-22 10:48 732大数据处理是云计算中非常重要的问题,自Google公司提出M ... -
Weka是什么
2017-04-10 13:17 1074Weka的全名是怀卡托智 ... -
解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
2017-04-10 12:04 842一、HAWQ基本介绍 HAWQ ... -
Kettle的使用
2017-04-06 12:11 601Kettle是一款国外开源 ... -
clouder manager端口7180没有打开为什么
2017-03-27 10:56 1186修改 clouder-manager.repo新建内容我们需要 ... -
Impala与Hive的比较
2017-03-19 13:09 7901. Impala架构 Impala是Clo ... -
Cloudera Manager、CDH零基础入门、线路指导
2017-03-19 12:53 1269问题导读:1.什么是cloudera CM 、CDH?2.C ...
相关推荐
《Hadoop安装部署详解》 Hadoop是一款开源的分布式计算框架,由Apache基金会开发,用于处理和存储海量数据。本文将详细介绍如何在Linux集群和Windows环境下进行Hadoop的安装与配置,以及对Hadoop核心配置文件的属性...
Hadoop3.x系统文档深入地介绍了Hadoop 3.x版本的新特性和配置方法。Hadoop作为一个开源框架,允许使用简单的编程模型跨计算机集群存储和处理大数据。它被广泛用于数据仓库和大规模数据集的应用程序,特别是用于处理...
步骤3:使用WinSCP工具上传Hadoop软件包到Master节点机的root目录下。如果是在Master节点机上自行编译Hadoop软件包,则只需将编译好的软件包拷贝到root目录下。 步骤4:解压Hadoop软件包,并开始安装。这一步涉及到...
3. **完全分布式模式(Fully-Distributed Mode)**:这是Hadoop的真实部署模式,适用于生产环境。在这种模式下,Hadoop分布在多台物理或虚拟机上,每个组件都在不同的节点上运行,提供了高可用性和容错性。 在搭建...
为此,【Hadoop部署实践】教学实施方案的提出,旨在通过系统性的教学与实践活动,培养学生的Hadoop系统基础知识和实际操作技能,尤其是其核心组件HDFS和MapReduce的应用能力。 该教学实施方案针对的是数据科学与...
在Windows环境下部署Hive和Hadoop是一个相对复杂的任务,但一旦成功,将为大数据处理提供一个强大的本地开发和测试环境。以下是对这个主题的详细解释: 1. **Hadoop简介**: Hadoop是一个开源框架,由Apache软件...
### Hadoop-2.6.0 分布式部署详解 #### 一、环境说明与配置需求 ##### 1.1 安装环境说明 在进行Hadoop-2.6.0分布式部署之前,首先需要明确具体的安装环境。本文档中的环境设定如下: - **操作系统**:CentOS 7.0...
4. **存储优化**:Hadoop 3.x对HDFS的存储策略进行了优化,支持更多种类的存储类型,如快速SSD和低成本HDD,可以更好地平衡成本和性能。 其次,在计算性能方面,Hadoop 3.x带来了以下改进: 1. **YARN(Yet ...
《Spark 3.2.0 与 Hadoop 3 的集成——无 Hive 版本解析》 Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上...
### Hadoop在Windows上的伪分布式安装过程 #### 第一部分:Hadoop在Windows上伪分布式的安装过程 **一、安装JDK** 1. **下载JDK** - 访问Oracle官网下载页面:...
3. **创建Hadoop项目**: 使用Eclipse的New -> Project菜单,选择Hadoop相关的项目类型,如Hadoop Map/Reduce Project,然后按照向导完成项目创建。 4. **编写MapReduce代码**: 在创建的项目中,可以像其他Java项目...
014 Apache Hadoop 三种安装部署模式讲解 015 Apache Hadoop 单机(本地)模式安装部署与测试 016 Hadoop 伪分布式安装部署 017 查看Hadoop 日志以及日志的格式和命名组成 018 Hadoop 守护进程服务三种启动停止方式 ...
在实际应用中,这个jar文件通常会与Hadoop的其他组件一起部署,共同构成一个完整的Hadoop集群。 总的来说,Hadoop Common是Hadoop生态的基石,它的存在使得Hadoop能够处理PB级别的数据,同时提供灵活的数据访问和...
YARN作为Hadoop的第二代资源管理系统,负责集群中计算资源的分配和管理,使得Hadoop可以支持更多类型的应用,如机器学习和深度学习。 Zookeeper是另一个关键组件,它是一个分布式的、开放源码的协调服务,用于维护...
4. **YARN**:随着Hadoop的发展,资源管理和调度功能由新的YARN(Yet Another Resource Negotiator)接管,它增强了Hadoop的多任务处理能力,可以支持更多类型的计算框架,如Spark和Tez。 5. **Hadoop安装**:安装...
本文主要针对Hadoop相关知识进行总结,涵盖了大数据的基本特征、Hadoop组件、Hadoop集群部署、环境配置、HDFS操作、MapReduce工作流程、Zookeeper、YARN、数据仓库、Hive、Flume、Azkaban以及Sqoop等多个知识点。...
- **2.x版本系列**:引入了YARN (Yet Another Resource Negotiator),这是一种新的资源管理和任务调度系统,使得Hadoop能够更好地支持多种类型的数据处理应用程序。 此外,市场上还有几家知名的Hadoop发行商,如...
Hadoop的安装和配置是部署Hadoop集群时需要关注的内容。安装通常包括集群规划、软件安装、配置环境和初始化集群等步骤。配置则涉及修改Hadoop配置文件以满足不同环境和业务需求。 Hadoop的监控是为了确保Hadoop集群...