我是初学者,文章只是记录我的学习过程,有很多不足或是错误,请大家谅解并指正,真心希望多和大家交流~
安装步骤如下:
1.1 机器说明
总共有4台机器:sc706-26、sc706-27、sc706-28、sc706-29
IP地址分别为:192.168.153.89、192.168.153.90、192.168.153.91、192.168.153.92
操作系统为:Linux的fedora12
jdk版本为:jdk-6u19-linux-i586
hadoop版本为:hadoop-0.20.2
sc706-26作为NameNode、JobTracker,其他三台作为DataNode、TaskTracker
1.2 用机器名Ping通机器
用root登录,修改NameNode和DataNode上的/etc/hosts文件,加入四台机器的IP地址和机器名,如下:
192.168.153.89 sc706-26
192.168.153.90 sc706-27
192.168.153.91 sc706-28
192.168.153.92 sc706-29
设置好后验证下各机器间是否ping通,用机器名或是IP地址都可以,例如ping sc706-27或ping 192.168.153.90
1.3 新建hadoop用户
Hadoop要求所有机器上hadoop的部署目录结构要相同并且有一个相同的用户名的帐户,我的默认路径为/home/hadoop
1.4 ssh设置及关闭防火墙(需要用到root,su - )
1)fedora装好后默认启动sshd服务,如果不确定的话可以查一下 [root@sc706-26 hadoop]# service sshd status
如没有启动的话,先启动 [root@sc706-26 hadoop]# service sshd start
建立ssh无密码登录,在NameNode上 [hadoop@sc706-26 ~]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
会在~/.ssh/生成两个文件:id_dsa和id_dsa.pub,这两是成对出现的,把id_dsa.pub文件追加到DataNode上的authorized_keys
[hadoop@sc706-26 ~]$ scp id_dsa.pub sc706-27:/home/hadoop/ (注意其中目标机器后面的:与要传到的文件路径之间没有空格,即sc706:与/home/hadoop/之间没有空格)
scp id_dsa.pub sc706-28:/home/hadoop/
scp id_dsa.pub sc706-29:/home/hadoop/
登录到DataNode上,[hadoop@sc706-27 ~]$ cat id_dsa.pub >> ~/.ssh/authorized_keys ,其余两台一样,NameNode上也要追加。注意:追加完后必须修改NameNode和DataNode上的.ssh和authorized_keys的权限,chmod命令,参数755,完成后测试下,例如ssh sc706-27时不需要密码就可以登录,就可以知道ssh设置成功。
2)关闭防火墙(NameNode和DataNode都必须关闭)
[root@sc706-26 ~]# service iptables stop
注意:每次重新开机启动hadoop前都必须关闭
1.5 安装jdk1.6(几台机子都一样)
在官网http://java.sun.com下载jdk-6u19-linux-i586.bin,之后直接安装[root@sc706-26 java]#chmod +x jdk-6u19-linux-i586.bin [root@sc706-26 java]# ./jdk-6u19-linux-i586.bin,我的安装路径为:/usr/java/jdk1.6.0_19,安装后添加如下语句到/etc/profile中:
export JAVA_HOME=/usr/java/jdk1.6.0_19
export JRE_HOME=/usr/java/jdk1.6.0_19/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
1.6 安装hadoop
在官网http://apache.etoak.com//hadoop/core/下载hadoop-0.20.2.tar.gz
[hadoop@sc706-26 ~]$ tar xzvf hadoop-0.20.2.tar.gz
将hadoop的安装路径添加到/etc/profile中:
export HADOOP_HOME=/home/hadoop/hadoop-0.20.2
export PATH=$HADOOP_HOME/bin:$PATH
为了让/etc/profile生效,source一下 [hadoop@sc706-26 ~]$ source /etc/profile
1.7 配置hadoop
其配置文件在/conf目录下
1)配置JAVA环境
[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_19
2)配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件
[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://sc706-26:9000</value>
</property>
</configuration>
[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://sc706-26:9001</value> 注意:sc706-26前能不能加hdfs://不太清楚,本人配了两个集群,一个加了一个不加都能用
</property>
</configuration>
[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>注意:如果设为1,数据只有一个副本,假如其中一个datanode出问题,将会导致整个job失败
</property>
</configuration>
3)将NameNode上完整的hadoop拷贝到DataNode上,可先将其进行压缩后直接scp过去或是用盘拷贝过去
4) 配置NameNode上的conf/masters和conf/slaves
masters:192.168.153.89
slaves:192.168.153.90
192.168.153.91
192.168.153.92
1.8 运行hadoop
1)格式化文件系统
[hadoop@sc706-26 hadoop-0.20.2]$ hadoop namenode -format
注意:格式化时要防止NameNode的namespace ID与DataNode的namespace ID的不一致,因为每格式化一次会产生Name、Data、tmp等临时文件记录信息,多次格式化会产生很多,会导致ID的不同,造成hadoop不能运行
2)启动hadoop
[hadoop@sc706-26 hadoop-0.20.2]$ bin/start-all.sh
3)用jps命令查看进程,NameNode上的结果如下:
25325 NameNode
25550 JobTracker
28210 Jps
25478 SecondaryNameNode
4)查看集群状态
[hadoop@sc706-26 hadoop-0.20.2]$ hadoop dfsadmin -report
确保运行的DataNode个数是正确的,我的是3个,这样可以查看哪个DataNode没有运行
5)用hadoop的web方式查看
[hadoop@sc706-26 hadoop-0.20.2]$ links http://192.168.153.89(即为master):50070
1.9 运行Wordcount.java程序
1)先在本地磁盘上建立两个文件f1和f2
[hadoop@sc706-26 ~]$ echo ”hello Hadoop goodbye hadoop” > f1
[hadoop@sc706-26 ~]$ echo ”hello bye hadoop hadoop” > f2
2)在hdfs上建立一个input目录
[hadoop@sc706-26 ~]$ hadoop dfs -mkdir input
3)将f1和f2拷贝到hdfs的input目录下
[hadoop@sc706-26 ~]$ hadoop dfs -copyFromLocal /home/hadoop/f* input
4)查看hdfs上有没有input目录
[hadoop@sc706-26 ~]$ hadoop dfs -ls
5)查看input目录下有没有复制成功f1和f2
[hadoop@sc706-26 ~]$ hadoop dfs -ls input
6)执行wordcount(确保hdfs上没有output目录)
[hadoop@sc706-26 hadoop-0.20.2]$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output
7)运行完成,查看结果
[hadoop@sc706-26 hadoop-0.20.2]$ hadoop dfs -cat output/part-r-00000
相关推荐
### Hadoop-0.20.2安装与配置详解 #### 一、Hadoop-0.20.2概述 Hadoop是一款支持大数据处理的开源软件框架,它能够高效地处理PB级别的数据集。Hadoop-0.20.2版本作为早期的一个稳定版本,在很多场景中仍然具有重要...
这里我们将深入探讨"Hadoop-core-0.20.2"和"hadoop-2.5.1-src"的源码,以便更好地理解Hadoop的工作原理和内部机制。 **Hadoop Core源码分析** Hadoop-core-0.20.2是Hadoop早期版本的核心组件,它包含了Hadoop的...
本文将围绕“hadoop-core-0.20.2.jar”这一关键包展开,探讨其在Eclipse开发环境中的使用方法,以及如何利用它来编写、修改Hadoop算法,并将其应用于实际项目中。 一、hadoop-core-0.20.2.jar的概述 hadoop-core-...
hadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-plugin
基于apache发布的FTPserver实现的基于hadoop-0.20.2的FTP服务器,可以直接使用,但要进行hadoop网址的基本配置,另外只有一个匿名用户,除了几个我设定的系统文件夹不能删除外,基本具有所有权限。当然,您可以在此...
在sqoop-1.2.0版本下,若想在安装了Hadoop-0.20.2的环境中正常运行,我们需要确保sqoop的lib目录包含Hadoop的相关库。解压"Hadoop-0.20.2-CDH3B4.tar.gz"后,我们可以将其中的库文件复制到sqoop的lib目录,确保sqoop...
### 在Ubuntu 11.04上部署Hadoop-0.20.2集群云平台的知识点 #### 一、前言与环境准备 - **背景介绍**:本实验指导旨在帮助用户在Ubuntu 11.04操作系统上成功部署Hadoop-0.20.2集群云平台。该文档由厦门大学软件...
用于hadoop单元测试的jar包 hadoop-mrunit-0.20.2-cdh3u4.jar
export CLASSPATH="$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:${HADOOP_HOME}/lib/commons-logging-1.0.4.jar:${HADOOP_HOME}/lib/guava-r09-jarjar.jar:${HADOOP_HOME}/hadoop-core-0.20.2-cdh3u3.jar:/usr/...
Hadoop-0.20.2是该框架的一个较早版本,尽管它相对较旧,但因其稳定性及许多初学者教程中的引用,它仍然是学习Hadoop基础知识的重要参考。这个版本包含了Hadoop的核心组件,如HDFS(Hadoop分布式文件系统)和...
使用Hadoop-0.20.2-Eclipse-Plugin,开发者可以更加高效地进行Hadoop开发,减少了在命令行界面之间切换的需要,提高了开发的便利性和整体生产力。然而,随着Hadoop的不断演进,更现代的版本可能需要更新的插件,如...
hadoop-0.20.2的chm帮助文档
在Windows下连接远程Hadoop集群时,注意本地要安装cygwin,并将cygwin/bin目录设置到PATH,以便程序能使用chmod命令。 另,Hadoop Eclipse插件只能连接相应版本的Hadoop集群,例如,本插件只能连接hadoop-0.20.2-cdh...
在安装Hadoop-0.20.2时,需要注意配置环境变量,如HADOOP_HOME和PATH,并正确设置HDFS和MapReduce的配置文件(如core-site.xml、hdfs-site.xml和mapred-site.xml)。集群部署时,还需配置各个节点间的通信和数据交换...
1.a1 192.168.9.1 (master) a2 192.168.9.2 (slave1) a3 192.168.9.3 (slave2) 修改/etc/hosts 2.3台机器 创建hadoop 用户 ...[hadoop@a1 hadoop-0.20.2-cdh3u5]$ bin/hadoop dfsadmin -report
最新CDH3u6在eclipse JUNO 下编译的插件,已测正常。 不保证在其他eclipse版本下正常工作。
在Windows上使用Eclipse进行Hadoop开发,通常需要安装Hadoop的本地模拟环境,如Hadoop Single Node Setup,这可以通过修改`hadoop-env.sh`文件来实现,设置HADOOP_HOME环境变量,并将Hadoop的bin目录添加到PATH环境...
本资源"单节点hadoop-0.20.2"是一个针对初学者或快速测试环境的配置,它简化了Hadoop的安装和设置过程。这个压缩包包含了一个预配置的Hadoop环境,使得用户无需从头开始配置XML文件,只需解压即可运行,大大降低了...