Hadoop-1.2.1安装与配置
学习hadoop也是有一段时间了,但是都是纸上谈兵,再加上当今云计算工具的不断更新换代,也不知现在的hadoop还能干什么。不过作为基础,拿来作为大数据上手还是可以的。
接着,上一篇文《hadoop》,大致了解了hadoop的起源之后,我们便开始hadoop的安装配置吧。
这次安装配置的前提是,安装的是ubuntu14.04版本系统,不管是用wubi还是硬盘启动,都可以。以下是安装的伪分布式。
可以参考文章:http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html
一、准备材料
jdk-7u17-linux-x64.tar.gz
hadoop-1.2.1.tar.gz
eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz
hadoop-eclipse-plugin-1.2.1.jar
二、安装jdk
关于jdk可以到官网下载 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html ,这里我使用的是jdk-7u17-linux-x64.tar.gz。
1、先把jdk的包放在桌面。按下Ctrl +Alt + T 组合键,打开一个终端。使用cd命令进到/usr/lib/文件夹下面。然后创建一个java文件夹,作为安装jdk的目录。当然,你也可以安装在其他地方,不过这里面,我装在/usr/lib/java/目录下。
cd /usr/lib/ sudo mkdir java
2、接着,我们在打开一个终端,使用cd来到桌面,输入命令将jdk包拷到我们要安装的/usr/lib/java/目录下面。
Cd Desktop sudo cp jdk-7u17-linux-x64.tar.gz /usr/lib/java
3、将jdk-7u17-linux-x64.tar.gz解压安装在该目录之下
tar -zxcf jdk-7u17-linux-x64.tar.gz
然后就出现一个jdk1.7.0_17文件夹。
`4、这个时候,就该设置java系统变量了。打开/etc/profile文件,添加JAVA_HOME变量。
sudo gedit /etc/profile
然后就会出现如下:
在最后面添加一下字段(注意句号):
export JAVA_HOME=/usr/lib/java/jdk1.7.0_17 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
5、关闭/etc/profile文件之后,使其立即能够被使用
source /etc/profiel
接着,注销用户,重新登录。
6、再一次打开终端,输入:
java -version java
出现以下输出即可。
三、安装ssh
sh可以实现远程登录和管理,使hadoop各节点之间通信的桥梁。
1、使用命令行安装ssh
sudo apt-get install ssh sudo apt-get install rsync
2、实现无密码登录
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys export HADOOP\_PREFIX=/usr/local/hadoop
这是参照官网上面来的。当然你也可以参考前面的链接.
3、登录
ssh localhost
4、退出
exit
四、安装hadoop
1、我们把hadoop-1.2.1.tar.gz放在桌面,把其拷贝到要安装的目录之下,我安装在/home/hadoop/目录下面。
sudo cp hadoop-0.20.203.0rc1.tar.gz /home/hadoop
2、解压安装
cd /home/hadoop/ sudo tar -zxvf hadoop-1.2.1.tar.gz
然后可以得到hadoop-1.2.1文件夹
3、将hadoop-1.2.1文件夹改名为hadoop
mv hadoop-1.2.1 hadoop
4、打开hadoop/conf/hadoop-env.sh文件
sudo gedit hadoop/conf/hadoop-env.sh
配置conf/hadoop-env.sh(找到#export JAVA_HOME=...,去掉#,然后加上本机jdk的路径):
export JAVA_HOME=/usr/lib/java/jdk1.7.0_17
5、打开hadoop/conf/core-site.xml
sudo gedit hadoop/conf/core-site.xml
设置的是namenode节点的ip及其端口号,还有设置hadoop的临时文件,编辑一下内容:(configuration标签里面添加property)
<property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop-1.2.1/hadoop_tmp</value> <description>A base for other temporary directories.</description> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property>
6、打开hadoop/conf/mapred-site.xml
sudo gedit hadoop/conf/mapred-site.xml
设置的是MapReduce的jobTracker的ip及其端口号,编辑内容如下:
<property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property>
7、打开hadoop/conf/hdfs-site.xml
sudo gedit hadoop/conf/hdfs-site.xml
设置namenode、datanode的文件夹,以及replication 表示datanode的数目,编辑如下:
<property> <name>dfs.name.dir</name> <value>/home/hadoop/hadoop-1.2.1/hadoop_tmp/datalog</value> </property> <property> <name>dfs.data.dir</name> <value>/home/hadoop/hadoop-1.2.1/hadoop_tmp/data1</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property>
8、打开hadoop/conf/masters,设置的是secondarynamenode的ip地址,因为这是伪分布式,所以添加localhost即可。
Sudo gedit hadoop/conf/masters
9、打开hadoop/conf/slaves,设置的是slaves,即datanode的主机ip地址,一行一个,因为这是伪分布式,所以也是填localhost即可。
Sudo gedit hadoop/conf/slaves
10、进入hadoop文件夹
bin/hadoop
如果输出如下,即说明安装成功(ง •̀_•́)ง:
五、运行hadoop
#远程登录 ssh localhost #初始化nomenode bin/hadoop nomenode -format #启动所有节点 bin/start-all.sh #显示当前进程 jps
如果有Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker五个进程,就说明你的hadoop伪分布式环境配置好了!
还可以在浏览器上输入url:
localhost:50030
localhost:50060
localhost:50070
进行管理。
六、安装eclipse插件
这里使用的是eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz、hadoop-eclipse-plugin-1.2.1.jar。注意,hadoop-eclipse-plugin-1.2.1.jar 要与hadoop的版本号一致,不然会出现问题。
1、打开终端,将eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz移到安装目录,这里我安装在/usr/lib/java目录下。
sudo cp eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz /usr/lib/java
解压安装,即可,得到eclipse文件夹:
sudo tar -zxvf eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz
2、进入eclipse文件夹,点击eclipse,即可使用,然后配置eclipse的工作目录workspace,该目录可以任意设置在喜欢的地方。设置之后,即可使用。
3、将 hadoop-eclipse-plugin-1.2.1.jar,放在eclipse文件夹下的plugins文件夹下。然后,重启eclipse。会看到左边project Explorer里面会出现一行图标DFS Locations.
4、然后在Window->Preferences->Hadoop Map/Reduce中添加Hadoop的安装目录。
5、配置hadoop环境:在Window–>Show View中打开Map/Reduce Locations,在底部会看到新的选项。然后右键–>New Hadoop Location。
其中,
Location name:可以填写任意值,表示一个MapReduce Location标识。
Map/Reduce Matser选项组:
Host:localhost(Maters:Hadoop的ip地址)
Port:9001
DFS Master选项组:
Use M/R Master host:勾选该复选框(因为用户的NameNode和JobTracker都在一个机器上面)
Port:9000
User name:hadoop(系统管理员)
这里面的Host、Port分别是mapred-site.xml、core-site.xml中配置的地址以及端口。
接下来,单击Advanced parameters选项卡中的hadoop.tmp.dir选项,修改为Hadoop集群中设置的地址,Hadoop集群是/home/hadoop/hadoop-1.2.1/hadoop_tmp。这个参数在core-site.xml中进行了设置。如图:
然后单击finish。
6、然后在下面就会出现如下图标:
7、右边的DFS Locations处。先在终端之中开启hadoop。出现如下:
以上,便安装完毕了。如有问题,请指正。
下面是,相关安装包链接:
http://pan.baidu.com/s/1jGuATam
至于关于最新版本的hadoop-2.7.1的安装配置,可参考:
http://zhitongbat.com/?/article/209
相关推荐
7. **hadoop-client-1.2.1.jar**:客户端库,包含了与Hadoop集群交互所需的类和接口。这个JAR包是连接到Hadoop集群并执行任务所必需的,通常会作为依赖添加到用户的项目中。 通过这些JAR包,开发者可以构建基于...
该资源包里面包含eclipse上的hadoop-1.2.1版本插件的jar包和hadoop-1.2.1.tar.gz,亲测可用~~请在下载完该包后解压,将hadoop-1.2.1...preferences ,browser选择D:\hadoop-eclipse,配置Hadoop MapReduce的安装路径。
解压完成后,你会得到一个名为"hadoop-1.2.1"的目录,其中包含了Hadoop的所有必要文件,如可执行文件、配置文件、文档等。接下来,你需要配置Hadoop环境,这通常包括设置HADOOP_HOME环境变量、配置Hadoop的配置文件...
### Hadoop-1.2.1安装与配置详解 #### 一、背景介绍 Hadoop是一款开源的大数据处理框架,能够高效地存储和处理大规模的数据集。本文档旨在提供一个详细的Hadoop-1.2.1版本的安装教程,特别针对Red Hat Enterprise ...
这包括但不限于安装JDK、配置Hadoop环境变量以及设置HDFS(Hadoop Distributed File System)等。 #### 二、停止Hadoop服务 1. **停止所有Hadoop进程**: - 执行`stop-all.sh`脚本停止所有的Hadoop守护进程,包括...
此外,2.8.0版本增加了更多特性,例如优化了与Hadoop集群的交互,增强了对HDFS的可视化管理,以及更好的错误提示和调试功能。这使得开发者能够在更复杂的分布式环境下进行更为灵活和高效的开发工作。 两个版本之间...
### Hadoop 1.2.1 安装与配置指南 #### 一、概述 本文档旨在指导用户完成Hadoop 1.2.1版本在Linux环境下的安装与配置过程。Hadoop是一款开源软件框架,主要用于分布式存储和处理大规模数据集。通过本手册的学习,...
### CentOS 下安装伪分布式 Hadoop-1.2.1 的详细步骤 ...至此,已经完成了在 CentOS 下伪分布式模式的 Hadoop-1.2.1 的安装与基本配置。这为后续进行 Hadoop 相关的大数据处理任务提供了坚实的基础。
搭建Hadoop-1.2.1环境是一项关键任务,它涉及到多步骤的配置和安装,以便在集群中运行分布式计算任务。在这个过程中,我们将使用VMware9和Debian7作为基础操作系统,创建三台虚拟机(vmDebA、vmDebB、vmDebC)来构建...
在 Ubuntu12.04 上安装 Hadoop-1.2.1 的过程涉及到多个环节,包括系统准备、用户权限设置、Java 开发环境的安装、Hadoop 的下载与配置、主机名与网络设置以及 SSH 无密码登录的实现。以下是对这些步骤的详细解释: ...
Hadoop作为开源的分布式计算平台,是大数据处理的基础,其API则为开发者提供了与Hadoop生态系统交互的工具。 一、Hadoop简介 Hadoop是由Apache基金会开发的一个开源项目,主要由两个核心组件构成:HDFS(Hadoop ...
这个“Hadoop-1.2.1 单词统计例子”是基于Hadoop 1.2.1版本的一个经典示例,它展示了如何利用Hadoop进行分布式计算,特别是在文本数据上的简单单词计数操作。下面将详细介绍这个例子涉及的知识点。 首先,我们要...
总之,HBase-1.2.1的二进制压缩包提供了在Hadoop环境下部署和运行HBase所需的所有组件,适用于处理大量非结构化或半结构化数据的场景,如实时分析、日志处理、物联网应用等。正确解压并配置后,用户可以充分利用...
安装Hadoop时,首先需要设置环境变量,包括HADOOP_HOME,JAVA_HOME等,并配置hadoop配置文件,如core-site.xml(定义HDFS配置)、hdfs-site.xml(HDFS的具体设置)、mapred-site.xml(MapReduce配置)。然后,将解压...
【Hadoop 1.2.1 配置详解】 在软件开发领域,Hadoop 是一个不可或缺的组件,尤其是在大数据处理和分布式计算中。Hadoop 1.2.1 是一个较早但仍然广泛使用的版本,它提供了可靠的分布式存储(HDFS)和分布式计算框架...
4. **Java安装与配置** - 下载Java 1.7.0_67的tar.gz包,解压后移动到`/usr`目录。 - 验证Java安装是否成功,可以通过运行`java -version`命令查看。 5. **Hadoop集群安装** - 在namenode (test1)上解压缩Hadoop...
3. **安装与配置** 安装Hadoop Eclipse Plugin非常简单,只需要将`hadoop-eclipse-plugin-1.1.2.jar`文件复制到Eclipse的`plugins`目录下,然后重启Eclipse。重启后,Eclipse会自动识别并加载该插件,此时,在"File...
在安装和配置 Hive 1.2.1 时,你需要设置环境变量,如 `HIVE_HOME`,并将 Hive 的 bin 目录添加到系统路径中。然后,你可以使用 `schematool` 工具创建元数据存储,并通过 `hive` 命令启动 CLI,开始执行 HiveQL ...
标题 "Hadoop-1.2.1 QQ推荐好友例子" 提到的是一个关于Hadoop的实战案例,专注于在Hadoop框架下实现QQ推荐好友的功能。Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它允许分布式存储和处理海量数据...
找了不少,但是都不行;提示各种错误 这个是在查找资料之后,修改的; eclipse版本号: Version: Kepler Service Release 2 Build id: 20140224-0627 ...说明一下,对应hadoop的版本是1.2.1学习来用,还是足够的。