这个寒假和团队一起历经千辛万苦,从一开始的迷茫,然后慢慢的摸索终于完成了我们的集群搭建,成功建立起一个小小的云端。
单机版hadoop的配置;
九死一生,完成hadoop的配置
在开始搭建集群之前我先开始配置单机版的hadoop,说起来真是足够的苦逼啊!虽然最后完成了配置但是这个过程中除了Ubuntu没有被卸载掉重装意外其他的从jdk到ssh再到hadoop都被反复卸掉四五次重装,其中ssh最惨,我卸了它有十多次,主要因为我们对与Linux操作系统不太熟悉,对他的工作原理不太了解,对于hadoop更是基本上接触过一些概念之外其他的什么都不知道。好了进入正题。
配置单机版的hadoop分为四部。
1、安装Ubuntu;
2、安装配置jdk;
3、安装配置ssh;
4、安装配置hadoop;
一、安装Ubuntu;
Wubi安装乌班图的方法其实和安装其他的软件没有本质的区别,但是在安装的时候如果安装程序进入了在线安装的模式那么拜托把网线拔了网卡禁用了,否则就太慢了。
二、安装jdk;
首先声明我使用的是官方的jdk-6u30-linux-i586。
1、首先在/usr/local下建立一个名为java的文件夹
sudo mkdir /usr/local/java
2、然后将jdk复制到java文件夹下
sudo cp jdk的路径 /usr/local/java;
3、执行安装;
切换到java目录;
cd /usr/local/java;
将文件权限改为可执行;
sudo chmod u+x jdk-6u30-linux-i586.bin
在java目录下解压bin文件;
sudo ./jdk-6u30-linux-i586.bin;
4、配置环境变量;
编辑配置文件;
sudo gedit /etc/profile
在配置文件尾添加如下代码
#set java environment
export JAVA_HOME=/ usr/local/java/jdk1.6.0_30
export JRE_HOME=/ usr/local/java/jdk1.6.0_30 /jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
5、重启机器,输入java -version如果打印出java version就说明你已经配置好啦!
Tips:在使用gedit的时候偶尔出现gedit不能使用的状况,这个时候你可以采取重开终端,重启机器的方式解决,但是最好我建议安装一下vim编辑器,这种编辑器也是鼎鼎大名的,使用起来也比那么什么vi方便许多,但是Ubuntu并不自带这种编辑器需要下载;
sudo apt-get install vim
三、安装hadoop;
这里我们使用的是hadoop稳定版hadoop-0.20.203.0;
1、将hadoop压缩文件复制到local文件目录下;
复制:cp hadoop路径 /usr/local
2、解压hadoop文件;
解压:sudo tar -xzf hadoop-0.20.203.0rc1.tar
将解压后的文件夹更名为hadoop:sudo mv hadoop-0.20.203.0 hadoop
3、为了方便管理和集群搭建我们建立一个名为hadoop的用户组和hadoop用户;
建立hadoop用户组:sudo addgroup hadoop;
建立hadoop用户并归到hadoop用户组下:sudo adduser -ingroup hadoop hadoop
4、让hadoop用户可以使用sudo命令;
打开sudoers文件:sudo gedit /etc/sudoers;
在root ALL =(ALL) ALL 下面添加如下代码;
hadoop ALL =(ALL) ALL;
5、安装ssh;
切换到hadoop用户下或者以hadoop身份登录;
1、下载ssh :sudo apt-get install openssh-server;(顺便教大家一个可能会用到的命令sudo apt- get remove openssh-server,看了字面你就懂什么意思了);
2、创建sshkey为rsa;ssh-keygen -t rsa -P ""
填写key保存路径的时候可以直接使用默认的(一直按enter键就行了。)
3、将ssh-key添加到受信任列表并启用ssk-key
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys
(将公钥追加到收信任文件);
重启ssh:sudo /etc/init.d/ssh reload
4、验证ssh是否安装成功ssh localhost;
四、配置hadoop;
1、配置conf/hadoop-env.sh文件;
切换路径:cd /usr/local/hadoop
编辑文件:sudo gedit conf/hadoop-env.sh
将JAVA_HOME前面的#号去掉,java路径改为:
JAVA_HOME=/ usr/local/java/jdk1.6.0_30
2、配置conf/core-site.xml文件;
sudo gedit conf/core-site.xml
添加如下代码
1 <configuration>
2 <property>
3 <name>fs.default.name</name>
4 <value>hdfs://localhost:9000</value>
5 </property>
6 <property>
7 <name>dfs.replication</name>
8 <value>1</value>
9 </property>
10 <property>
11 <name>hadoop.tmp.dir</name>
12 <value>/home/hadoop/tmp</value>
13 </property>
14 </configuration>
3、配置conf/mapred-site.xml文件;
sudo gedit conf/mapred-site.xml
添加如下代码;
1 <configuration>
2 <property>
3 <name>mapred.job.tracker</name>
4 <value>localhost:9001</value>
5 </property>
6 </configuration>
4、运行测试;
1、首次运行需要格式化namenode;
切换到hadoop目录下
cd /usr/local/hadoop
/bin/hadoop namenode -format
2、启动hadoop;
首先修改hadoop文件的访问权限;
sudo chown -R hadoop /usr/local/hadoop
./bin start-all.sh
3、jps命令查看启动是否成功;
如果同时打印出:NameNode,JobTracker,SecondaryNameNode,jps,tasktracker,DataNode则表示安装成功;
5、测试经典示例wordcount;
1、首先准备两个本地文档;
Sudo gedit /tmp/test1.txt
Sudo gedit /tmp/test2.txt
随意在其中写入一些单词,以空格分开;
2、在hdfs中新建目录
./bin/hadoop dfs -mkdir file-in
3、上传本地文件到hdfs中指定的目录;
./bin/hadoop copyFromLocal /tmp/test*.txt file-in
4、运行wordcount;
./bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount file-in file-out
5、查看运行结果;
./bin/hadoop dfs -cat file-out/part-r-00000
OK!接下来自己看看结果和你写入的是否一样!
单机版搞定!!!
<!--EndFragment-->
相关推荐
### Hadoop环境配置详解——单机集群篇 #### 一、引言 随着大数据时代的到来,Hadoop作为处理海量数据的利器,其重要性不言而喻。本文旨在详细介绍如何在虚拟机上安装Hadoop环境,并搭建单机集群。通过图文并茂的...
### CDH5 Hadoop集群完全离线安装说明 #### 系统环境 - 操作系统:CentOS 6.5 64位 #### 必备软件与工具 ...这些准备工作是搭建稳定、高效的Hadoop集群的基础,对于后续Hadoop集群的配置与管理至关重要。
最后,启动Hadoop的各个服务组件,包括DataNode、NameNode和ResourceManager等,确保Hadoop集群在本地环境中正常运行。 **Hadoop的分布式文件系统(HDFS)** HDFS是Hadoop的核心组成部分,它设计为高容错、高可用...
7. 验证安装:可以通过浏览器访问NameNode的Web界面,查看Hadoop集群状态;或者通过命令行工具上传、读取文件,测试HDFS功能。 8. 关闭Hadoop服务:使用`stop-dfs.sh`和`stop-yarn.sh`命令关闭Hadoop服务。 此外,...
书中详细介绍了Hadoop的安装和配置过程,包括单机模式、伪分布式模式以及完全分布式模式,帮助读者在不同环境下搭建Hadoop集群。此外,还详细讲解了Hadoop的核心组件——HDFS(Hadoop Distributed File System),它...
接下来是关键步骤——安装和配置 Hadoop。首先,需要登录到系统并安装 JDK 7u79,因为 Hadoop 和 Spark 都依赖于 Java 运行环境。在安装完成后,可以开始配置 Hadoop。在单机模式下,Hadoop 提供了一个简单的本地...
3. **Hadoop安装与配置**:书中会详细介绍如何在不同环境下搭建Hadoop集群,包括单机模式、伪分布式模式和完全分布式模式,以及相关的配置参数调整,帮助读者在实践中学习Hadoop。 4. **HDFS操作**:涵盖HDFS的文件...
在本项目中,"springboot-dubbo整合(单机版和集群版都测试通过)" 是一个核心主题,意味着开发者成功地将Spring Boot框架与Dubbo服务治理框架进行了集成,并且在两种模式下——单机版和集群版——进行了充分的测试,...
4. 格式化NameNode,这是首次启动Hadoop集群的必要步骤。 在完成以上配置后,通过Hadoop提供的命令启动NameNode、DataNode、SecondaryNameNode、JobTracker和TaskTracker等服务,至此,Hadoop伪分布式环境搭建完成...
4. **调试和运行**:直接在Eclipse内提交任务到Hadoop集群,观察日志和运行状态,进行调试和优化。 在本地测试Hadoop时,通常使用伪分布式模式,即在单机上模拟多节点集群。这需要在`hadoop-env.sh`和相关配置文件...
6. **Hadoop客户端**:包含了与Hadoop集群交互的Java库和命令行工具,如hadoop fs命令,用于访问HDFS。 7. **文档**:详尽的API文档、用户指南和管理员手册,帮助用户理解和使用Hadoop。 为了在不同的环境下部署...
书中还涵盖了Hadoop的安装和配置过程,包括单机模式、伪分布式模式和完全分布式模式的设置,帮助读者在本地或集群环境中搭建Hadoop环境。此外,书中详细阐述了Hadoop的生态环境,如HBase(分布式数据库)、Hive...
在学习《Hadoop:The Definitive Guide》时,读者会了解到如何安装和配置Hadoop集群,包括单机模式、伪分布式模式和完全分布式模式。书中还涵盖了故障排查、性能优化、数据安全以及与其他大数据技术的集成。对于希望...
在单机伪分布式配置中,所有服务都在同一台机器上运行,这对于学习和测试Hadoop的基本功能非常方便。在实际生产环境中,Hadoop通常会部署在多台机器上,形成集群,以实现更高的可用性和扩展性。 总之,安装Hadoop...
《Hadoop+实战》这本书将深入讲解Hadoop的安装、配置和管理,包括单机模式、伪分布式模式和完全分布式模式的搭建。读者将学习如何配置Hadoop环境,以及如何处理常见的系统问题。此外,书中还会涉及YARN(Yet Another...
除了核心组件,书中也会涉及大数据处理的其他相关技术,如Apache Hadoop的周边项目,如Zookeeper(分布式协调服务)、Oozie(工作流调度系统)、Ambari(Hadoop集群管理和监控工具)等。这些工具在实际的大数据环境...