hadoop是目前,非常流行的主流的大数据计算框架。对java程序员来说,是大数据方面发展的选择的道路。
hadoop的主要组成部分,以我个人所见是HDFS分布式文件系统、任务分发系统JobTracker、任务处理系统TaskTracker。
准备环境:
2个centos系统,一个作namenode,另一个做datanode。
网络:namenode的ip是192.168.1.60
datanode的ip是 192.168.1.90
系统的hosts文件已经配置:
192.168.1.60 backup01
192.168.1.90 backup02
关闭 iptables:
chkconfig iptables off
service iptables off
ssh连接免密码已做,详细步骤,这里不多说了。
java环境已经安装,并且已经设置环境变量,
这里不多说了,可以参考http://nicegege.iteye.com/blog/2171805
hadoop安装:
在backup01节点上操作,
hadoop1.2.1是hadoop的1.x的稳定版本,下载在usr/local目录下
wget url //下载
tar zxvf hadoop1.2.1.tar.gz //解压
配置hadoop的配置文件,配置文件在conf目录下:
(1).配置hadoop-en.sh
export JAVA_HOME=/usr/local/java/jdk1.7.0_71
(2)配置core-site.xml,配置hdfs的fs.default.name和hadoop.tmp.dir。分别代表hdfs文件路径和文件存放路径。/usr/local/hadoop-1.2.1/tmp文件夹不存在则要手动创建。
文件内添加如下代码
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://backup01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-1.2.1/tmp</value>
</property>
</configuration>
(3).配置mapred-stte.xml,配置jobTracker
文件内添加如下代码:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>backup01:9001</value>
</property>
</configuration>
(4).配置masters,添加backup01
(5).配置salves ,添加backup02
最基本,最简单的hadoop配置已经完成。接下来把hadoop复制到backup02上。
命令:scp -r ./hadoop1.2.1 root@backup02:/usr/local
(6).格式化namenode,格式化以后在backup01的tmp目录下看到dfs目录,里面有namenode的基本信息
bin/hadoop namenode -format
(7).启动hadoop
bin/start-all.sh
在backup01上,jps命令查看hadoop运行进程
[root@backup01 conf]# jps
9801 Jps
8351 NameNode
8514 SecondaryNameNode
8596 JobTracker
在backup02上,jps命令查看hadoop运行进程
[root@backup02 ~]# jps
4298 Jps
3844 TaskTracker
3752 DataNode
如果出现datanode无法启动的情况,请检查hdfs-site.xml的配置是否正确,配置信息有没有写错。
没有写错的话,关闭当前运行的hadoop,删除backup01和backup02的tmp目录下的文件。重新格式化namenode,重新启动hadoop。
(8).关闭hadoop:bin/stop-all.sh
相关推荐
docker部署hadoop伪分布式搭建环境成功的教程
通过上述步骤,我们不仅安装了Hadoop和HBase,还学习了如何配置虚拟机环境、SSH免密码登录以及Hadoop的基本配置等关键步骤。这些准备工作对于搭建一个稳定可靠的Hadoop集群至关重要。随着实践的深入,你将更加熟练地...
在开始安装Hadoop之前,需要确保Ubuntu系统已经正确安装了JDK,并且完成了JDK环境变量的配置。此外,还需要安装SSH服务,以便于远程管理服务器。 **操作系统**: Ubuntu 12.04 **Hadoop版本**: hadoop-1.0.4 **...
随着Hadoop版本的升级,插件也会随之更新以支持新特性。选择合适版本的Hadoop-Eclipse插件对于开发和调试Hadoop应用至关重要,因为它直接影响到开发效率和代码兼容性。使用这些插件,开发者可以更便捷地在Hadoop环境...
1. **Hadoop-Eclipse插件安装与配置**:要使用Hadoop-Eclipse插件,首先需要在Eclipse中安装该插件。这可以通过Eclipse的“Help”菜单 -> "Install New Software" -> "Add" 来完成,然后提供下载的插件JAR文件路径...
Hadoop 2.2.0 分布式安装指导
Hadoop任务调度器是Hadoop分布式计算框架中的核心组件之一,负责管理和分配集群资源,以实现任务的高效执行。Hadoop的作业调度过程可以划分为几个主要阶段,这些阶段涉及到从作业提交到任务分配的各个环节。下面详细...
在Hadoop 2.4版本中,最重要的改进之一是引入了YARN(Yet Another Resource Negotiator)。YARN改变了Hadoop的资源管理架构,将原先MapReduce的资源管理和计算任务分离,成为一个独立的资源调度器。这允许其他计算...
hadoop--plugin-2.8.1的eclipse 插件,已经编译完成,下载hadoop2x-eclipse-plugin源代码https://github.com/winghc/hadoop2x-eclipse-plugin
Hadoop 2.4.0 分布式安装指导
Hadoop是一个非常流行的开源分布式存储和计算框架,它允许用户在成百上千的廉价计算机上存储和处理大量的数据集,尤其适用于那些无法在单机上进行处理的大型数据集。Hadoop的主要优势在于它能够扩展到数百台机器组成...
综上所述,这个"很全面的菜鸟入门教材"很可能是一个为IT新手设计的全方位学习工具,内容涵盖广泛,适合从零开始学习。它可能包含丰富的教学内容,如图文说明、视频教程、实战演练等,通过交互式的软件形式提供,以...
macOS下使用hadoop2.8.1时, 执行hadoop fs 命令(如:hadoop fs -ls /tmp/input)会提示: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platfo
从零开始hadoop+zookeeper+hbase+hive集群安装搭建,内附详细配置、测试、常见error等图文,按照文档一步一步搭建肯定能成功。(最好用有道云打开笔记)
hadoop教程,大数据入门教程,hadoop菜鸟入门,学习大数据教程
1. **HDFS(Hadoop Distributed File System)**:Hadoop的核心之一,是一个分布式文件系统,能够跨多台机器存储和处理数据。在Windows环境下,HDFS可以通过安装和配置DataNodes和NameNodes来实现数据的分布式存储。...
hadoop-2.8.1源文件下载,官网暂时找不到这个版本的源文件,再此提供资源
hadoop2.8.4 完全分布式搭建 从菜鸟到 大神,首先你要先安装vm虚拟机,叫你克隆master,salver1,salver2,虚拟机,固定IP地址,同步时间,所有指令完全具备
在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,而"common"包是Hadoop生态系统中的一个重要部分,它提供了...