`

centos虚拟机上安装运行hadoop(伪分布)

 
阅读更多

1、先在确认能否不输入口令就用ssh登录localhost:

$ ssh localhost


 

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
[root@localhost ~]# ssh-keygen -t  rsa       (注意-keygen前面没有空格)
然后就回车,O(∩_∩)O哈哈~
日志如下:

[root@localhost ~]# ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/id_rsa): Created directory '/root/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /root/.ssh/id_rsa. Your public key has been saved in /root/.ssh/id_rsa.pub. The key fingerprint is: a8:7a:3e:f6:92:85:b8:c7:be:d9:0e:45:9c:d1:36:3b root@localhost.localdomain [root@localhost ~]# [root@localhost ~]# cd .. [root@localhost /]# cd root [root@localhost ~]# ls anaconda-ks.cfg Desktop install.log install.log.syslog [root@localhost ~]# cd .ssh [root@localhost .ssh]# cat id_rsa.pub > authorized_keys [root@localhost .ssh]# [root@localhost .ssh]# ssh localhost The authenticity of host 'localhost (127.0.0.1)' can't be established. RSA key fingerprint is 41:c8:d4:e4:60:71:6f:6a:33:6a:25:27:62:9b:e3:90. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added 'localhost' (RSA) to the list of known hosts. Last login: Tue Jun 21 22:40:31 2011 [root@localhost ~]#


  


2、解压hadoop
重新创建了一个hadoop用户,解压hadoop

[root@localhost hadoop]# tar zxvf hadoop-0.20.2.tar.gz ...... ...... ...... hadoop-0.20.203.0/src/contrib/ec2/bin/image/create-hadoop-image-remote hadoop-0.20.203.0/src/contrib/ec2/bin/image/ec2-run-user-data hadoop-0.20.203.0/src/contrib/ec2/bin/launch-hadoop-cluster hadoop-0.20.203.0/src/contrib/ec2/bin/launch-hadoop-master hadoop-0.20.203.0/src/contrib/ec2/bin/launch-hadoop-slaves hadoop-0.20.203.0/src/contrib/ec2/bin/list-hadoop-clusters hadoop-0.20.203.0/src/contrib/ec2/bin/terminate-hadoop-cluster [root@localhost hadoop]#


 
3、安装jdk1.6,设置hadoop home
# set java environment export JAVA_HOME=/home/yqf/jdk/jdk1.6.0_13 export HADOOP_HOME=/home/hadoop/hadoop-0.20.2 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA_HOME/lib/:$JRE_HOME/lib export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:



 

 

4、修改、启动hadoop
修改hadoop配置
进入hadoop目录, conf下

#################################### [root@localhost conf]# vi hadoop-env.sh # set java environment export JAVA_HOME=/home/yqf/jdk/jdk1.6.0_13 (你自己的JAVA_HOME) ##################################### [root@localhost conf]# vi core-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://namenode:9000/</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/hadooptmp</value> </property> </configuration> ####################################### [root@localhost conf]# vi hdfs-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.name.dir</name> <value>/usr/local/hadoop/hdfs/name</value> </property> <property> <name>dfs.data.dir</name> <value>/usr/local/hadoop/hdfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ######################################### [root@localhost conf]# vi mapred-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>mapred.job.tracker</name> <value>namenode:9001</value> </property> <property> <name>mapred.local.dir</name> <value>/usr/local/hadoop/mapred/local</value> </property> <property> <name>mapred.system.dir</name> <value>/tmp/hadoop/mapred/system</value> </property> </configuration> ######################################### [root@localhost conf]# vi masters #localhost namenode ######################################### [root@localhost conf]# vi slaves #localhost datanode01


 

 


启动hadoop

 

[root@localhost bin]# hadoop namenode -format 11/06/23 00:43:54 INFO namenode.NameNode: STARTUP_MSG: /************************************************************ STARTUP_MSG: Starting NameNode STARTUP_MSG: host = localhost.localdomain/127.0.0.1 STARTUP_MSG: args = [-format] STARTUP_MSG: version = 0.20.203.0 STARTUP_MSG: build = http://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20-security-203 -r 1099333; compiled by 'oom' on Wed May 4 07:57:50 PDT 2011 ************************************************************/ 11/06/23 00:43:55 INFO util.GSet: VM type = 32-bit 11/06/23 00:43:55 INFO util.GSet: 2% max memory = 19.33375 MB 11/06/23 00:43:55 INFO util.GSet: capacity = 2^22 = 4194304 entries 11/06/23 00:43:55 INFO util.GSet: recommended=4194304, actual=4194304 11/06/23 00:43:56 INFO namenode.FSNamesystem: fsOwner=root 11/06/23 00:43:56 INFO namenode.FSNamesystem: supergroup=supergroup 11/06/23 00:43:56 INFO namenode.FSNamesystem: isPermissionEnabled=true 11/06/23 00:43:56 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100 11/06/23 00:43:56 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s) 11/06/23 00:43:56 INFO namenode.NameNode: Caching file names occuring more than 10 times 11/06/23 00:43:57 INFO common.Storage: Image file of size 110 saved in 0 seconds. 11/06/23 00:43:57 INFO common.Storage: Storage directory /usr/local/hadoop/hdfs/name has been successfully formatted. 11/06/23 00:43:57 INFO namenode.NameNode: SHUTDOWN_MSG: /************************************************************ SHUTDOWN_MSG: Shutting down NameNode at localhost.localdomain/127.0.0.1 ************************************************************/ [root@localhost bin]# ########################################### [root@localhost bin]# ./start-all.sh starting namenode, logging to /usr/local/hadoop/hadoop-0.20.203/bin/../logs/hadoop-root-namenode-localhost.localdomain.out datanode01: starting datanode, logging to /usr/local/hadoop/hadoop-0.20.203/bin/../logs/hadoop-root-datanode-localhost.localdomain.out namenode: starting secondarynamenode, logging to /usr/local/hadoop/hadoop-0.20.203/bin/../logs/hadoop-root-secondarynamenode- localhost.localdomain.out starting jobtracker, logging to /usr/local/hadoop/hadoop-0.20.203/bin/../logs/hadoop-root-jobtracker-localhost.localdomain.out datanode01: starting tasktracker, logging to /usr/local/hadoop/hadoop-0.20.203/bin/../logs/hadoop-root-tasktracker-localhost.localdomain.out [root@localhost bin]# jps 11971 TaskTracker 11807 SecondaryNameNode 11599 NameNode 12022 Jps 11710 DataNode 11877 JobTracker


 

 

5、使用自带例子测试hadoop
步骤一:准备输入数据

 

 

 

在当前目录(如hadoop安装目录)下新建文件夹input,并在文件夹下新建两个文件file01、file02,这两个文件内容分别如下
file01中内容为:

 

Hello World Bye World


 
file02中内容为:

Hello Hadoop Goodbye Hadoop


 

 

步骤二:将文件夹input上传到分布式文件系统中

 

cd 到hadoop安装目录,运行下面命令:

 

bin/hadoop fs -put input input01


  


这个命令将input文件夹上传到了hadoop文件系统了,在该系统下就多了一个input01文件夹,你可以使用下面命令查看:

bin/hadoop fs -ls


 


步骤三:运行hadoop mapper reduce

 

 

运行命令:

 

bin/hadoop jar hadoop-*-examples.jar wordcount input01 output2


  

运行日志如下:

 

[root@localhost hadoop-0.20.2]# bin/hadoop jar hadoop-*-examples.jar wordcount input01 output2 12/11/14 22:51:51 INFO input.FileInputFormat: Total input paths to process : 4 12/11/14 22:51:52 INFO mapred.JobClient: Running job: job_201211141815_0003 12/11/14 22:51:53 INFO mapred.JobClient: map 0% reduce 0% ^[[3~12/11/14 22:53:03 INFO mapred.JobClient: map 50% reduce 0% 12/11/14 22:53:07 INFO mapred.JobClient: map 75% reduce 0% ^[[B12/11/14 22:53:12 INFO mapred.JobClient: map 100% reduce 0% ^[[3~12/11/14 22:53:17 INFO mapred.JobClient: map 100% reduce 25% 12/11/14 22:53:31 INFO mapred.JobClient: map 100% reduce 100% 12/11/14 22:53:34 INFO mapred.JobClient: Job complete: job_201211141815_0003 12/11/14 22:53:34 INFO mapred.JobClient: Counters: 17 12/11/14 22:53:34 INFO mapred.JobClient: Job Counters 12/11/14 22:53:34 INFO mapred.JobClient: Launched reduce tasks=1 12/11/14 22:53:34 INFO mapred.JobClient: Launched map tasks=4 12/11/14 22:53:34 INFO mapred.JobClient: Data-local map tasks=2 12/11/14 22:53:34 INFO mapred.JobClient: FileSystemCounters 12/11/14 22:53:34 INFO mapred.JobClient: FILE_BYTES_READ=79 12/11/14 22:53:34 INFO mapred.JobClient: HDFS_BYTES_READ=55 12/11/14 22:53:34 INFO mapred.JobClient: FILE_BYTES_WRITTEN=304 12/11/14 22:53:34 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=41 12/11/14 22:53:34 INFO mapred.JobClient: Map-Reduce Framework 12/11/14 22:53:34 INFO mapred.JobClient: Reduce input groups=5 12/11/14 22:53:34 INFO mapred.JobClient: Combine output records=6 12/11/14 22:53:34 INFO mapred.JobClient: Map input records=2 12/11/14 22:53:34 INFO mapred.JobClient: Reduce shuffle bytes=97 12/11/14 22:53:34 INFO mapred.JobClient: Reduce output records=5 12/11/14 22:53:34 INFO mapred.JobClient: Spilled Records=12 12/11/14 22:53:34 INFO mapred.JobClient: Map output bytes=82 12/11/14 22:53:34 INFO mapred.JobClient: Combine input records=8 12/11/14 22:53:34 INFO mapred.JobClient: Map output records=8 12/11/14 22:53:34 INFO mapred.JobClient: Reduce input records=6


 

查看文件,多了一个output2。
[root@localhost hadoop-0.20.2]# bin/hadoop fs -ls
Found 2 items
drwxr-xr-x   - root supergroup          0 2012-11-14 22:41 /user/root/input01
drwxr-xr-x   - root supergroup          0 2012-11-14 22:53 /user/root/output2

 

 


查看output2/下面的内容
[root@localhost hadoop-0.20.2]# bin/hadoop fs -cat output2/*
Bye     1
Goodbye 1
Hadoop  2
Hello   2
World   2

 

 

 

 

wordcount应该是计算输入里面出现单词的个数。

 

 

 

分享到:
评论

相关推荐

    VMware上CentOS7.0+Hadoop3.1伪分布式搭建

    在本教程中,我们将深入探讨如何在VMware虚拟机中安装...通过这个过程,你将不仅学会如何在VMware上的CentOS7搭建Hadoop伪分布式环境,还能深入理解Hadoop的组件和工作原理,为进一步的大数据学习打下坚实的基础。

    在centos上安装hadoop

    在所有这些步骤完成后,你就可以在CentOS的虚拟机上使用Hadoop进行数据处理和分析了。记住,安装和配置过程中可能会遇到各种问题,但只要按照正确的步骤进行,并根据错误提示进行排查,就能成功建立一个功能齐全的...

    Linux运维入门Hadoop实验参照手册一(安装VMware与CentOS)

    在CentOS系统中配置网络环境,包括IP地址、hosts和network配置,对于后续安装和运行Hadoop系统至关重要。 1. 配置网络和主机名:在网络配置中设置正确的IP地址、子网掩码、网关等信息。同时,编辑hosts文件以确保...

    linux下载,安装,JDK配置,hadoop安装

    - 全分布模式:除了伪分布模式外,还需配置 hosts 文件、SSH 免密登录等,并在所有节点上复制 Hadoop 配置文件。 **3.5 验证Hadoop安装** - **运行 WordCount 示例程序**: - 编写 MapReduce 任务。 - 提交任务...

    Hadoop课程设计,基于Hadoop的好友推荐,在VM虚拟机上搭建CentOS环境(伪分布式)

    【标题】:“Hadoop课程设计,基于Hadoop的好友推荐,在VM虚拟机上搭建CentOS环境(伪分布式)”这一主题涵盖了多个IT领域的关键知识点,包括大数据处理框架Hadoop、虚拟化技术VMware、操作系统CentOS以及数据推荐...

    从VMware中安装CentOS到Hadoop集群+ Hive+ MySQL搭建

    适合新手,详细 01-Java环境安装 02- Eclipse下载与安装 03-VMware虚拟机的安装 04-在VMware中安装CentOS 05- Hadoop集群+ Hive+ MySQL搭建

    linux虚拟机搭建hadoop伪分布式集群

    在搭建Hadoop伪分布式集群的过程中,首先需要在Linux环境下配置VMware的NAT网络,确保虚拟机能够稳定地运行和通信。NAT网络允许虚拟机通过宿主机与外部网络进行通信,同时保持IP地址的固定性。具体操作包括取消DHCP...

    hadoop伪分布式搭建centos6.5+hadoop2.7

    在VMware虚拟机上,安装hadoop集群,采用的是伪分布式搭建,从安装jdk到hadoop的环境配置,全套都有,依据这个文档可以在个人Vmware上搭建自己的hadoop集群,这个集群有一个主节点,两个从节点。按照这个文档搭建后...

    Hadoop安装教程_单机_伪分布式配置_CentOS6.4_Hadoop2.6

    通过以上步骤,你已经完成了在 CentOS 6.4 上安装 Hadoop 2.6.0 的全部过程,并且配置了单机模式与伪分布式模式。此教程不仅适用于 Hadoop 2.6.0,同样适用于其他 Hadoop 2.x.y 版本。如果遇到任何问题,建议查阅...

    VMware安装centOS+hadoop

    本篇文章将详细讲解如何在VMware上安装CentOS7操作系统,并集成Hadoop环境,这对于学习和实践大数据处理的开发者至关重要。 首先,我们需要准备的是虚拟机环境。在VMware中创建一个新的虚拟机,选择“稍后安装操作...

    CentOS安装部署及Hadoop实施实战

    ### CentOS安装部署及Hadoop实施实战 #### 一、项目背景与目标 本文档旨在详细介绍如何在CentOS 6.5 x64环境下部署一个包含19个节点的大规模Hadoop 2.2.0集群。该集群由2个NameNode+Yarn节点、1个JournalNode以及...

    hadoop集群安装手册

    本手册将详细介绍如何在5台虚拟机上手动安装和配置Hadoop集群,供初学者和专业人士参考。 ### 安装前准备 在开始安装前,确保所有服务器已安装最新操作系统,推荐使用Ubuntu或CentOS。检查硬件资源,至少需要分配...

    大数据开发-在虚拟化集群中部署hadoop.zip

    你需要在每个虚拟机上安装相同版本的操作系统。 3. **网络配置**:设置虚拟机的网络模式为“桥接”,让每个虚拟机都能获得独立的IP地址,并确保它们在同一局域网内,以便进行节点间的通信。 4. **SSH配置**:在...

    Hadoop平台搭建CentOS7的安装步骤

    ### Hadoop平台搭建CentOS7的安装步骤 #### 一、前言 在大数据处理领域,...至此,Hadoop已经在CentOS 7操作系统上成功安装并运行起来了。接下来可以根据实际需求进一步探索其功能和应用。希望本文对你有所帮助!

    离线安装HADOOP环境

    ### 离线安装HADOOP环境 #### 1. 软件下载与准备 在进行Hadoop的离线安装之前,首先需要确保已经获取到了必要的安装包。本章节将详细介绍所需软件的下载地址以及相关注意事项。 ##### 1.1 Linux安装包 Linux操作...

    VirtualBox下安装hadoop

    在虚拟化技术中,Oracle VirtualBox 是一款广泛使用的开源虚拟机软件,它允许用户在单个计算机上运行多个操作系统。本篇文章将详细讲解如何在 VirtualBox 中安装 Hadoop,一个流行的开源分布式计算框架,这对于学习...

    linux下Hadoop集群环境搭建

    以下将详细介绍如何在一台虚拟机上安装多台Linux服务节点,并构建Hadoop集群环境。 首先,我们需要准备一个基础环境。这通常涉及到在一台主机上安装虚拟机软件,如VirtualBox或VMware,然后创建多个Linux虚拟机实例...

    大数据,Hadoop,CentOS,Linux

    大数据技术课程的实验报告一,在Linux虚拟机上安装和配置Hadoop,实现伪分布式HDFS,并且测试wordcount实例。

    hadoop 单机安装和集群安装总结

    - 确保所有节点上都安装了正确的Java JDK版本,这通常是Hadoop运行的前提条件之一。 通过以上步骤,您可以顺利完成Hadoop的单机安装与集群安装,并且能够理解Hadoop的基本配置流程。这对于进一步学习大数据处理和...

Global site tag (gtag.js) - Google Analytics