`
xinklabi
  • 浏览: 1586195 次
  • 性别: Icon_minigender_1
  • 来自: 吉林
文章分类
社区版块
存档分类
最新评论

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)1

 
阅读更多

转自:http://blog.csdn.net/zhaoyl03/article/details/8657104

 

Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。

首先,了解Hadoop的三种安装模式:

1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

2. 伪分布模式. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。

3. 全分布模式. Hadoop守护进程运行在一个集群上。

参考资料:

1. Ubuntu11.10下安装Hadoop1.0.0(单机伪分布式)

2. 在Ubuntu上安装Hadoop

3. Ubuntu 12.04搭建hadoop单机版环境

4. Ubuntu下安装及配置单点hadoop

5. Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

6. Hadoop的快速入门之 Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

 

本人极力推荐56,这两种教程从简到难,步骤详细,且有运行算例。下面我就将自己的安装过程大致回顾一下,为省时间,很多文字粘贴子参考资料56,再次感谢两位作者分享自己的安装经历。另外,下面的三篇文章可以从整体上把握Hadoop的结构,使你能够理解为什么要这么这么做。

7.分布式计算开源框架Hadoop介绍

8.Hadoop中的集群配置和使用技巧

9.Hadoop基本流程与应用开发

 

我的安装的是ubuntu12.o4, 用户名derek, 机器名称是derekUbn, Hadoop的版本Hadoop-1.1.2.tar.gz,闲话少说,步骤和每一步的图示如下:

一、在Ubuntu下创建hadoop用户组和用户

1.添加hadoop用户到系统用户

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. derek@derekUbun:~$ sudo addgroup hadoop  
  2. derek@derekUbun:~$ sudo adduser --ingroup hadoop hadoop  
  3.    

 

2. 现在只是添加了一个用户hadoop,它并不具备管理员权限,我们给hadoop用户添加权限,打开/etc/sudoers文件

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. derek@derekUbun:~$ sudo gedit /etc/sudoers  


在root  ALL=(ALL:ALL)  ALL下添加hadoop  ALL=(ALL:ALL)  ALL

 

 

 

二、配置SSH

 

配置SSH是为了实现各机器之间执行指令无需输入登录密码。务必要避免输入密码,否则,主节点每次试图访问其他节点时,都需要手动输入这个密码。

SSH无密码原理:master(namenode/jobtrack)作为客户端,要实现无密码公钥认证,连接到服务器slave(datanode/tasktracker)上时,需要在master上生成一个公钥对,包括一个公钥和一个私钥,而后将公钥复制到所有的slave上。当master通过SSH连接slave时,slave就会生成一个随机数并用master的公钥对随机数进行加密,并发送给master。Master收到密钥加密数之后再用私钥解密,并将解密数回传给slave,slave确认解密数无误后就允许master进行连接了。这就是一个公钥认证的过程,期间不需要用户手工输入密码。重要过程是将客户端master复制到slave上。
1、安装ssh

1) 由于Hadoop用ssh通信,先安装ssh. 注意,我先从derek用户转到了hadoop.

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. derek@derekUbun:~$ su - hadoop  
  2. 密码:   
  3. hadoop@derekUbun:~$ sudo apt-get install openssh-server  
  4. [sudo] password for hadoop:   
  5. 正在读取软件包列表... 完成  
  6. 正在分析软件包的依赖关系树         
  7. 正在读取状态信息... 完成         
  8. openssh-server 已经是最新的版本了。  
  9. 下列软件包是自动安装的并且现在不需要了:  
  10.   kde-l10n-de language-pack-kde-de language-pack-kde-en ssh-krb5  
  11.   language-pack-de-base language-pack-kde-zh-hans language-pack-kde-en-base  
  12.   kde-l10n-engb language-pack-kde-de-base kde-l10n-zhcn firefox-locale-de  
  13.   language-pack-de language-pack-kde-zh-hans-base  
  14. 使用'apt-get autoremove'来卸载它们  
  15. 升级了 0 个软件包,新安装了 0 个软件包,要卸载 0 个软件包,有 505 个软件包未被升级。  



 

因为我的机器已安装最新版的ssh,因此这一步实际上什么也没做。

 

2) 假设ssh安装完成,先启动服务。启动后,可以通过命令查看服务是否正确启动:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:~$ sudo /etc/init.d/ssh start  
  2. Rather than invoking init scripts through /etc/init.d, use the service(8)  
  3. utility, e.g. service ssh start  
  4.   
  5. Since the script you are attempting to invoke has been converted to an  
  6. Upstart job, you may also use the start(8) utility, e.g. start ssh  
  7. hadoop@derekUbun:~$ ps -e |grep ssh  
  8.   759 ?        00:00:00 sshd  
  9.  1691 ?        00:00:00 ssh-agent  
  10. 12447 ?        00:00:00 ssh  
  11. 12448 ?        00:00:00 sshd  
  12. 12587 ?        00:00:00 sshd  
  13. hadoop@derekUbun:~$   


3) 作为一个安全通信协议(ssh生成密钥有rsa和dsa两种生成方式,默认情况下采用rsa方式),使用时需要密码,因此我们要设置成免密码登录,生成私钥和公钥:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:~$ ssh-keygen -t rsa -P ""  
  2. Generating public/private rsa key pair.  
  3. Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):   
  4. /home/hadoop/.ssh/id_rsa already exists.  
  5. Overwrite (y/n)? y  
  6. Your identification has been saved in /home/hadoop/.ssh/id_rsa.  
  7. Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.  
  8. The key fingerprint is:  
  9. c7:36:c7:77:91:a2:32:28:35:a6:9f:36:dd:bd:dc:4f hadoop@derekUbun  
  10. The key's randomart image is:  
  11. +--[ RSA 2048]----+  
  12. |                 |  
  13. |                .|  
  14. |       +     . o |  
  15. |      + o. .. . .|  
  16. |     o .So=.o . .|  
  17. |      o oo+o.. . |  
  18. |       = . . .  E|  
  19. |      . .   . o. |  
  20. |             o .o|  
  21. +-----------------+  
  22. hadoop@derekUbun:~$   

 

 

(注:回车后会在~/.ssh/下生成两个文件:id_rsa和id_rsa.pub这两个文件是成对出现的前者为私钥,后者为公钥)

进入~/.ssh/目录下,将公钥id_rsa.pub追加到authorized_keys授权文件中,开始是没有authorized_keys文件的(authorized_keys 用于保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容):

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:~$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys  
  2.   
  3. 现在可以登入ssh确认以后登录时不用输入密码:  
  4.   
  5. hadoop@derekUbun:~$ ssh localhost  
  6. Welcome to Ubuntu 12.04 LTS (GNU/Linux 3.2.0-27-generic-pae i686)  
  7.   
  8.  * Documentation:  https://help.ubuntu.com/  
  9.   
  10. 512 packages can be updated.  
  11. 151 updates are security updates.  
  12.   
  13. Last login: Mon Mar 11 15:56:15 2013 from localhost  
  14. hadoop@derekUbun:~$   

 

 

( 注:当ssh远程登录到其它机器后,现在你控制的是远程的机器,需要执行退出命令才能重新控制本地主机。)

登出:~$ exit

这样以后登录就不用输入密码了。

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:~$ exit  
  2. Connection to localhost closed.  
  3. hadoop@derekUbun:~$  

 

 

三、安装Java

使用derek用户,安装java. 因为我的电脑上已安装java,其安装目录是/usr/java/jdk1.7.0_17,可以显示我的这个安装版本。

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:~$ su - derek  
  2. 密码:   
  3. derek@derekUbun:~$ java -version  
  4. java version "1.7.0_17"  
  5. Java(TM) SE Runtime Environment (build 1.7.0_17-b02)  
  6. Java HotSpot(TM) Server VM (build 23.7-b01, mixed mode)  

 

 

四、安装hadoop-1.1.2

到官网下载hadoop源文件,我下载的是最新版本 jdk-7u17-linux-i586.tar.gz,将其解压并放到希望的目录中。我把 jdk-7u17-linux-i586.tar.gz放到/usr/local/hadoop,并将解压后的文件夹重命名为hadoop。

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local$ sudo tar xzf hadoop-1.1.2.tar.gz (注意,我已将hadoop-1.1.2.tar.gz拷贝到usr/local/hadoop,然后转到hadoop用户上)  
  2. hadoop@derekUbun:/usr/local$ sudo mv hadoop-1.1.2 /usr/local/hadoop  

 

 

要确保所有的操作都是在用户hadoop下完成的,所以将该hadoop文件夹的属主用户设为hadoop

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local$ sudo chown -R hadoop:hadoop hadoop  


五、配置hadoop-env.sh(Java 安装路径)

进入用hadoop用户登录,进入/usr/localhadoop目录,打开conf目录的hadoop-env.sh,添加以下信息:(找到#export JAVA_HOME=...,去掉#,然后加上本机jdk的路径)

export JAVA_HOME=/usr/java/jdk1.7.0_17 (视你机器的java安装路径而定,我的java安装目录是/usr/java/jdk1.7.0_17)
export HADOOP_INSTALL=/usr/local/hadoop( 注意,我这里用的HADOOP_INSTALL,而不是HADOOP_HOME,因为在新版中后者已经不用了。若用,会有警告)
export PATH=$PATH:/usr/local/hadoop/bin

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ sudo vi conf/hadoop-env.sh  

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. # Set Hadoop-specific environment variables here.  
  2.   
  3. # The only required environment variable is JAVA_HOME.  All others are  
  4. # optional.  When running a distributed configuration it is best to  
  5. # set JAVA_HOME in this file, so that it is correctly defined on  
  6. # remote nodes.  
  7.   
  8. # The java implementation to use.  Required.  
  9. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun  
  10. export JAVA_HOME=/usr/java/jdk1.7.0_17  
  11. export HADOOP_INSTALL=/usr/local/hadoop  
  12. export PATH=$PATH:/usr/local/hadoop/bin  
  13.   
  14. # Extra Java CLASSPATH elements.  Optional.  
  15. # export HADOOP_CLASSPATH=  
  16.   
  17. # The maximum amount of heap to use, in MB. Default is 1000.  
  18. # export HADOOP_HEAPSIZE=2000  
  19.   
  20. # Extra Java runtime options.  Empty by default.  
  21. # export HADOOP_OPTS=-server  
  22. "conf/hadoop-env.sh" 57L, 2356C  

 

并且,让环境变量配置生效source

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ source /usr/local/hadoop/conf/hadoop-env.sh  

 

 

至此,hadoop的单机模式已经安装成功。可以显示Hadoop版本如下

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ hadoop version  
  2. Hadoop 1.1.2  
  3. Subversion https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.1 -r 1440782  
  4. Compiled by hortonfo on Thu Jan 31 02:03:24 UTC 2013  
  5. From source with checksum c720ddcf4b926991de7467d253a79b8b  
  6. hadoop@derekUbun:/usr/local/hadoop$   

 

 

现在运行一下hadoop自带的例子WordCount来感受以下MapReduce过程:
在hadoop目录下新建input文件夹

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ mkdir input  

 

 

将conf中的所有文件拷贝到input文件夹中

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ cp conf/* input  



运行WordCount程序,并将结果保存到output中

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ bin/hadoop jar hadoop-examples-1.1.2.jar wordcount input output  



运行

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ cat output/*  

 

 

会看到conf所有文件的单词和频数都被统计出来。

 

六、 伪分布模式的一些配置

 

这里需要设定3个文件:core-site.xml  hdfs-site.xml  mapred-site.xml,都在/usr/local/hadoop/conf目录下

core-site.xml: Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。

hdfs-site.xml: Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等。

mapred-site.xml: MapReduce 守护进程的配置项,包括jobtracker和tasktracker。

1.编辑三个文件:

 

1). core-site.xml:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. <configuration>  
  2.     <property>  
  3.         <name>fs.default.name</name>  
  4.         <value>hdfs://localhost:9000</value>  
  5.     </property>  
  6.     <property>  
  7.         <name>hadoop.tmp.dir</name>  
  8.         <value>/usr/local/hadoop/tmp</value>  
  9.     </property>  
  10. </configuration>  

 

 

2).hdfs-site.xml:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. <configuration>  
  2.     <property>  
  3.         <name>dfs.replication</name>  
  4.         <value>2</value>  
  5.     </property>  
  6.     <property>  
  7.         <name>dfs.name.dir</name>  
  8.         <value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>  
  9.     </property>  
  10.     <property>  
  11.         <name>dfs.data.dir</name>  
  12.         <value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>  
  13.     </property>  
  14. </configuration>  

 

 

3). mapred-site.xml:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. <configuration>     
  2.     <property>    
  3.         <name>mapred.job.tracker</name>  
  4.         <value>localhost:9001</value>     
  5.     </property>  
  6. </configuration>  



 

2. 启动Hadoop到相关服务,格式化namenode, secondarynamenode, tasktracker:

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ source /usr/local/hadoop/conf/hadoop-env.sh   
  2. hadoop@derekUbun:/usr/local/hadoop$ hadoop namenode -format  

 

 

看到下面的信息就说明hdfs文件系统格式化成功了

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. 13/03/11 23:08:01 INFO common.Storage: Storage directory /usr/local/hadoop/datalog2 has been successfully formatted.  
  2. 13/03/11 23:08:01 INFO namenode.NameNode: SHUTDOWN_MSG:   
  3. /************************************************************  
  4. SHUTDOWN_MSG: Shutting down NameNode at derekUbun/127.0.1.1  
  5. ************************************************************/  

 

 

3. 启动Hadoop

接着执行start-all.sh来启动所有服务,包括namenode,datanode,start-all.sh脚本用来装载守护进程。用Java的jps命令列出所有守护进程来验证安装成功,出现如下列表,表明成功.

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ cd bin  
  2. hadoop@derekUbun:/usr/local/hadoop/bin$ start-all.sh   
  3. starting namenode, logging to /usr/local/hadoop/libexec/../logs/hadoop-hadoop-namenode-derekUbun.out  
  4. localhost: starting datanode, logging to /usr/local/hadoop/libexec/../logs/hadoop-hadoop-datanode-derekUbun.out  
  5. localhost: starting secondarynamenode, logging to /usr/local/hadoop/libexec/../logs/hadoop-hadoop-secondarynamenode-derekUbun.out  
  6. starting jobtracker, logging to /usr/local/hadoop/libexec/../logs/hadoop-hadoop-jobtracker-derekUbun.out  
  7. localhost: starting tasktracker, logging to /usr/local/hadoop/libexec/../logs/hadoop-hadoop-tasktracker-derekUbun.out  
  8. hadoop@derekUbun:/usr/local/hadoop/bin$   

 

 

用Java的jps命令列出所有守护进程来验证安装成功

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ jps  

 

 

出现如下列表,表明成功

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ jps  
  2. 8431 JobTracker  
  3. 8684 TaskTracker  
  4. 7821 NameNode  
  5. 8915 Jps  
  6. 8341 SecondaryNameNode  
  7. hadoop@derekUbun:/usr/local/hadoop$  

 

 

4. 检查运行状态
所有的设置已完成,Hadoop也启动了,现在可以通过下面的操作来查看服务是否正常,在Hadoop中用于监控集群健康状态的Web界面:
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态

至此,hadoop的伪分布模式已经安装成功,于是,再次在伪分布模式下运行一下hadoop自带的例子WordCount来感受以下MapReduce过程:

这时注意程序是在文件系统dfs运行的,创建的文件也都基于文件系统:

首先在dfs中创建input目录

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ hadoop dfs -mkdir input   



将conf中的文件拷贝到dfs中的input

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ hadoop dfs -copyFromLocal conf/* input  

 

(注:可以使用查看和删除hadoop dfs中的文件)

 

在伪分布式模式下运行WordCount

 

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop jar hadoop-examples-1.1.2.jar wordcount input output   



 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ hadoop jar hadoop-examples-1.1.2.jar wordcount input output  
  2. 13/03/12 09:26:05 INFO input.FileInputFormat: Total input paths to process : 16  
  3. 13/03/12 09:26:05 INFO util.NativeCodeLoader: Loaded the native-hadoop library  
  4. 13/03/12 09:26:05 WARN snappy.LoadSnappy: Snappy native library not loaded  
  5. 13/03/12 09:26:05 INFO mapred.JobClient: Running job: job_201303120920_0001  
  6. 13/03/12 09:26:06 INFO mapred.JobClient:  map 0% reduce 0%  
  7. 13/03/12 09:26:10 INFO mapred.JobClient:  map 12% reduce 0%  
  8. 13/03/12 09:26:13 INFO mapred.JobClient:  map 25% reduce 0%  
  9. 13/03/12 09:26:15 INFO mapred.JobClient:  map 37% reduce 0%  
  10. 13/03/12 09:26:17 INFO mapred.JobClient:  map 50% reduce 0%  
  11. 13/03/12 09:26:18 INFO mapred.JobClient:  map 62% reduce 0%  
  12. 13/03/12 09:26:19 INFO mapred.JobClient:  map 62% reduce 16%  
  13. 13/03/12 09:26:20 INFO mapred.JobClient:  map 75% reduce 16%  
  14. 13/03/12 09:26:22 INFO mapred.JobClient:  map 87% reduce 16%  
  15. 13/03/12 09:26:24 INFO mapred.JobClient:  map 100% reduce 16%  
  16. 13/03/12 09:26:28 INFO mapred.JobClient:  map 100% reduce 29%  
  17. 13/03/12 09:26:30 INFO mapred.JobClient:  map 100% reduce 100%  
  18. 13/03/12 09:26:30 INFO mapred.JobClient: Job complete: job_201303120920_0001  
  19. 13/03/12 09:26:30 INFO mapred.JobClient: Counters: 29  
  20. 13/03/12 09:26:30 INFO mapred.JobClient:   Job Counters   
  21. 13/03/12 09:26:30 INFO mapred.JobClient:     Launched reduce tasks=1  
  22. 13/03/12 09:26:30 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=29912  
  23. 13/03/12 09:26:30 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0  
  24. 13/03/12 09:26:30 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0  
  25. 13/03/12 09:26:30 INFO mapred.JobClient:     Launched map tasks=16  
  26. 13/03/12 09:26:30 INFO mapred.JobClient:     Data-local map tasks=16  
  27. 13/03/12 09:26:30 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=19608  
  28. 13/03/12 09:26:30 INFO mapred.JobClient:   File Output Format Counters   
  29. 13/03/12 09:26:30 INFO mapred.JobClient:     Bytes Written=15836  
  30. 13/03/12 09:26:30 INFO mapred.JobClient:   FileSystemCounters  
  31. 13/03/12 09:26:30 INFO mapred.JobClient:     FILE_BYTES_READ=23161  
  32. 13/03/12 09:26:30 INFO mapred.JobClient:     HDFS_BYTES_READ=29346  
  33. 13/03/12 09:26:30 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=944157  
  34. 13/03/12 09:26:30 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=15836  
  35. 13/03/12 09:26:30 INFO mapred.JobClient:   File Input Format Counters   
  36. 13/03/12 09:26:30 INFO mapred.JobClient:     Bytes Read=27400  
  37. 13/03/12 09:26:30 INFO mapred.JobClient:   Map-Reduce Framework  
  38. 13/03/12 09:26:30 INFO mapred.JobClient:     Map output materialized bytes=23251  
  39. 13/03/12 09:26:30 INFO mapred.JobClient:     Map input records=778  
  40. 13/03/12 09:26:30 INFO mapred.JobClient:     Reduce shuffle bytes=23251  
  41. 13/03/12 09:26:30 INFO mapred.JobClient:     Spilled Records=2220  
  42. 13/03/12 09:26:30 INFO mapred.JobClient:     Map output bytes=36314  
  43. 13/03/12 09:26:30 INFO mapred.JobClient:     Total committed heap usage (bytes)=2736914432  
  44. 13/03/12 09:26:30 INFO mapred.JobClient:     CPU time spent (ms)=6550  
  45. 13/03/12 09:26:30 INFO mapred.JobClient:     Combine input records=2615  
  46. 13/03/12 09:26:30 INFO mapred.JobClient:     SPLIT_RAW_BYTES=1946  
  47. 13/03/12 09:26:30 INFO mapred.JobClient:     Reduce input records=1110  
  48. 13/03/12 09:26:30 INFO mapred.JobClient:     Reduce input groups=804  
  49. 13/03/12 09:26:30 INFO mapred.JobClient:     Combine output records=1110  
  50. 13/03/12 09:26:30 INFO mapred.JobClient:     Physical memory (bytes) snapshot=2738036736  
  51. 13/03/12 09:26:30 INFO mapred.JobClient:     Reduce output records=804  
  52. 13/03/12 09:26:30 INFO mapred.JobClient:     Virtual memory (bytes) snapshot=6773346304  
  53. 13/03/12 09:26:30 INFO mapred.JobClient:     Map output records=2615  
  54. hadoop@derekUbun:/usr/local/hadoop$   

 

 

显示输出结果

 

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ hadoop dfs -cat output/*  



当Hadoop结束时,可以通过stop-all.sh脚本来关闭Hadoop的守护进程

 

 

 

[plain] view plaincopy在CODE上查看代码片派生到我的代码片
 
  1. hadoop@derekUbun:/usr/local/hadoop$ bin/stop-all.sh  

 

现在,开始Hadoop之旅,实现一些算法吧!

 

注记:


1. 在伪分布模式,可以通过hadoop dfs -ls 查看input里的内容

2. 在伪分布模式,可以通过hadoop dfs -rmr 查看input里的内容

3. 在伪分布模式,input和output都在hadoop dfs文件里

分享到:
评论

相关推荐

    Ubuntu下搭建Hadoop单机模式环境

    本文主要介绍了在Ubuntu系统上Hadoop单机版测试环境的搭建过程。

    用虚拟机在ubuntu上搭建hadoop平台的单机模式

    ### 使用虚拟机在Ubuntu上搭建Hadoop平台单机模式 #### 概述 本文旨在详细介绍如何在虚拟机环境下,利用Ubuntu系统搭建Hadoop平台的单机模式。通过本教程,您可以掌握从安装虚拟机到配置Hadoop环境的全过程。本文...

    ubuntu环境下hadoop环境搭建(伪分布模式)

    在Ubuntu环境下搭建Hadoop伪分布式模式,主要是为了模拟多节点Hadoop集群的环境,以便于学习和测试Hadoop的功能。这个过程涉及到多个步骤,包括必要的资源下载、软件安装、环境配置以及Hadoop服务的启动与验证。以下...

    从零起步搭建Hadoop单机和伪分布式开发环境图文教程.

    搭建Hadoop单机开发环境的步骤一般包括: 1. 安装和配置虚拟机:创建一个虚拟机实例,安装Ubuntu操作系统,设置内存、网络等。 2. 安装Java SDK:在Ubuntu系统中安装Java开发工具包,这是运行Hadoop的必要环境。 3. ...

    ubuntu下搭建hadoop

    本文将详细介绍如何在 Ubuntu 操作系统下搭建 Hadoop 的单机版与伪分布式环境。 #### 2.1 Hadoop 的单机搭建 ##### 2.1.1 准备工作 1. **安装 Ubuntu 虚拟机**:首先,需要在虚拟机中安装 Ubuntu。推荐使用 ...

    Ubuntu 1.04搭建hadoop单机版环境.pdf

    在本文中,我们将详细探讨如何在Ubuntu 12.04上搭建Hadoop单机版环境。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大量数据。在单机环境中搭建Hadoop,主要目的是学习和测试Hadoop的功能,而不涉及实际的...

    超详细单机版搭建hadoop环境图文解析

    在本篇文章中,我们将详细介绍如何在单机上搭建 Hadoop 环境,包括安装 Linux 操作系统、创建 Hadoop 用户组和用户、安装 JDK、修改机器名、安装 SSH 服务、建立 SSH 无密码登录等步骤。 安装 Linux 操作系统 在...

    Ubuntu 1.04搭建hadoop单机版环境.docx

    现在,Hadoop单机环境已经准备就绪,可以进行简单的测试,例如运行WordCount示例程序。 Hadoop的集群搭建涉及到更多的配置,包括设置 slaves 文件、配置YARN、MapReduce等。此外,Hadoop的发展也一直在进行,其创始...

    Ubuntu11.10下安装Hadoop0.20.2(单机伪分布式)

    ### Ubuntu11.10下安装Hadoop0.20.2(单机伪分布式) #### 一、安装虚拟机VMware Workstation v7.1.4 在开始Hadoop的安装之前,首先需要在宿主机上安装虚拟机软件VMware Workstation v7.1.4。这一步主要是为了搭建...

    搭建Hadoop单机伪分布式环境1

    搭建Hadoop单机伪分布式环境是一项基础而重要的工作,尤其对于初学者来说,这有助于理解Hadoop的工作原理和运行机制。下面将详细讲解这个过程中的关键步骤和涉及的知识点。 首先,我们需要创建一个新的用户,例如名...

    ubuntu16.04搭建伪分布式文档

    本文档将指导您在Ubuntu 16.04上搭建伪分布式 Hadoop 环境。Hadoop 是一个分布式计算框架,可以处理大量数据。下面将详细介绍 Hadoop 的部署模式、单机安装、伪分布式配置和 MapReduce 示例。 Hadoop 部署模式 ...

    ubuntu hadoop单机模式安装详解.pdf

    【标题】:Ubuntu环境下Hadoop单机模式安装详解 【描述】:本文档详细介绍了如何在Ubuntu操作系统上从零开始安装Hadoop,包括Linux安装、创建Hadoop用户组和用户、JDK安装、修改机器名、SSH服务安装以及实现SSH无...

    Ubuntu16.04搭建Hadoop2.6.7-纯命令.docx

    本实验报告主要探讨了如何在Ubuntu 16.04操作系统上搭建Hadoop 2.6.7的伪分布式环境,同时涉及到了MapReduce和Spark的思想以及大数据体系框架的理解。 Hadoop的产生源自于对大规模数据处理需求的应对。早期的Nutch...

    Hadoop2单机伪分布搭建

    hadoop2 - 虚拟机VMWare - Linux(ubuntu) ,单节点伪分布环境搭建完整手册

    Hadoop2.2.0单机伪分布环境快速搭建手册

    hadoop2 - 虚拟机VMWare - Linux(ubuntu) ,单节点伪分布环境搭建快速手册,同之前上传的doc文档配套。

    hadoop伪分布配置

    Hadoop伪分布模式是一种在单台机器上模拟分布式环境的方式,通常用于开发测试阶段。这种方式既能够体验到Hadoop的分布式特性,又不需要复杂的多节点集群配置。本文将详细介绍如何在Ubuntu系统上搭建Hadoop伪分布环境...

    Ubuntu16.04搭建Hadoop2.6.7-图文详细版.docx

    ### Ubuntu16.04搭建Hadoop2.6.7-图文详细版 #### Hadoop基础知识 ##### Hadoop产生的背景与发展历程 Hadoop最初源于Nutch项目,该项目旨在创建一个全面的网络搜索引擎,涵盖网页抓取、索引及查询等功能。然而,在...

    大数据云计算技术系列 hadoop单机版搭建图文详解(共14页).pdf

    对于初学者或者希望在本地环境中进行测试和学习的开发者来说,搭建Hadoop单机版是一个很好的起点。本文将详细介绍如何在Ubuntu 10.10系统上搭建Hadoop 0.21.0的单机环境。 前置条件: 1. 安装Ubuntu 10.10操作系统...

    Hadoop伪分布式集群环境搭建

    本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常适合初学者进行学习和测试。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由两个核心组件构成:HDFS(Hadoop Distributed File System)...

Global site tag (gtag.js) - Google Analytics