Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行。
配置
使用如下的conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.0.101:9000</value>
</property>
</configuration>
conf/hdfs-site.xml:
<configuration>
<property>
<name>fs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.0.101:9001</value>
</property>
</configuration>
首先,请求 namenode 对 DFS 文件系统进行格式化。在安装过程中完成了这个步骤,但是了解是否需要生成干净的文件系统是有用的。
bin/hadoop namenode -format
输出:
11/11/30 09:53:56 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = ubuntu1/192.168.0.101
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 0.20.2
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010
************************************************************/
11/11/30 09:53:56 INFO namenode.FSNamesystem: fsOwner=root,root
11/11/30 09:53:56 INFO namenode.FSNamesystem: supergroup=supergroup
11/11/30 09:53:56 INFO namenode.FSNamesystem: isPermissionEnabled=true
11/11/30 09:53:56 INFO common.Storage: Image file of size 94 saved in 0 seconds.
11/11/30 09:53:57 INFO common.Storage: Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.
11/11/30 09:53:57 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ubuntu1/192.168.0.101
************************************************************/
执行:bin/start-all.sh
starting namenode, logging to /usr/hadoop-0.20.2/bin/../logs/hadoop-root-namenode-ubuntu1.out
localhost: starting datanode, logging to /usr/hadoop-0.20.2/bin/../logs/hadoop-root-datanode-ubuntu1.out
localhost: starting secondarynamenode, logging to /usr/hadoop-0.20.2/bin/../logs/hadoop-root-secondarynamenode-ubuntu1.out
starting jobtracker, logging to /usr/hadoop-0.20.2/bin/../logs/hadoop-root-jobtracker-ubuntu1.out
localhost: starting tasktracker, logging to /usr/hadoop-0.20.2/bin/../logs/hadoop-root-tasktracker-ubuntu1.out
检查hdfs :bin/hadoopfs
-ls /
输出目录文件则正常。
hadoop文件系统操作:
bin/hadoop
fs -mkdir test
bin/hadoop
fs -ls test
bin/hadoop
fs -rmr test
测试hadoop:
bin/hadoop
fs -mkdir input
自己建立两个文本文件:file1和file2放在/opt/hadoop/sourcedata下
执行:bin/hadoopfs
-put/opt/hadoop/sourcedata/file*
input
执行:bin/hadoop
jar hadoop-0.20.2-examples.jar wordcount input output
输出:
11/11/30 10:15:38 INFO input.FileInputFormat: Total input paths to process : 2
11/11/30 10:15:52 INFO mapred.JobClient: Running job: job_201111301005_0001
11/11/30 10:15:53 INFO mapred.JobClient: map 0% reduce 0%
11/11/30 10:19:07 INFO mapred.JobClient: map 50% reduce 0%
11/11/30 10:19:14 INFO mapred.JobClient: map 100% reduce 0%
11/11/30 10:19:46 INFO mapred.JobClient: map 100% reduce 100%
11/11/30 10:19:54 INFO mapred.JobClient: Job complete: job_201111301005_0001
11/11/30 10:19:59 INFO mapred.JobClient: Counters: 17
11/11/30 10:19:59 INFO mapred.JobClient: Job Counters
11/11/30 10:19:59 INFO mapred.JobClient: Launched reduce tasks=1
11/11/30 10:19:59 INFO mapred.JobClient: Launched map tasks=2
11/11/30 10:19:59 INFO mapred.JobClient: Data-local map tasks=2
11/11/30 10:19:59 INFO mapred.JobClient: FileSystemCounters
11/11/30 10:19:59 INFO mapred.JobClient: FILE_BYTES_READ=146
11/11/30 10:19:59 INFO mapred.JobClient: HDFS_BYTES_READ=64
11/11/30 10:19:59 INFO mapred.JobClient: FILE_BYTES_WRITTEN=362
11/11/30 10:19:59 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=60
11/11/30 10:19:59 INFO mapred.JobClient: Map-Reduce Framework
11/11/30 10:19:59 INFO mapred.JobClient: Reduce input groups=9
11/11/30 10:19:59 INFO mapred.JobClient: Combine output records=13
11/11/30 10:19:59 INFO mapred.JobClient: Map input records=2
11/11/30 10:19:59 INFO mapred.JobClient: Reduce shuffle bytes=102
11/11/30 10:19:59 INFO mapred.JobClient: Reduce output records=9
11/11/30 10:19:59 INFO mapred.JobClient: Spilled Records=26
11/11/30 10:19:59 INFO mapred.JobClient: Map output bytes=120
11/11/30 10:19:59 INFO mapred.JobClient: Combine input records=14
11/11/30 10:19:59 INFO mapred.JobClient: Map output records=14
11/11/30 10:19:59 INFO mapred.JobClient: Reduce input records=13
执行成功!
其他查看结果命令:
bin/hadoop fs -ls /user/root/output
bin/hadoop fs -cat output/part-r-00000
bin/hadoop fs -cat output/part-r-00000 | head -13
bin/hadoop fs -get output/part-r-00000 output.txt
cat output.txt | head -5
bin/hadoop fs -rmr output
也可以使用浏览器查看,地址:
http://192.168.0.101:50030(mapreduce的web页面)
http://192.168.0.101:50070(hdfs的web页面)
下面执行grep的mapreduce任务:
执行:bin/hadoop
fs -rmr output
执行:bin/hadoop
jar hadoop-0.20.2-examples.jar
grep input output 'hadoop'
输出:
11/11/30 10:28:37 INFO mapred.FileInputFormat: Total input paths to process : 2
11/11/30 10:28:40 INFO mapred.JobClient: Running job: job_201111301005_0002
11/11/30 10:28:41 INFO mapred.JobClient: map 0% reduce 0%
11/11/30 10:34:16 INFO mapred.JobClient: map 66% reduce 0%
11/11/30 10:37:40 INFO mapred.JobClient: map 100% reduce 11%
11/11/30 10:37:50 INFO mapred.JobClient: map 100% reduce 22%
11/11/30 10:37:54 INFO mapred.JobClient: map 100% reduce 66%
11/11/30 10:38:15 INFO mapred.JobClient: map 100% reduce 100%
11/11/30 10:38:30 INFO mapred.JobClient: Job complete: job_201111301005_0002
11/11/30 10:38:32 INFO mapred.JobClient: Counters: 18
11/11/30 10:38:32 INFO mapred.JobClient: Job Counters
11/11/30 10:38:32 INFO mapred.JobClient: Launched reduce tasks=1
11/11/30 10:38:32 INFO mapred.JobClient: Launched map tasks=3
11/11/30 10:38:32 INFO mapred.JobClient: Data-local map tasks=3
11/11/30 10:38:32 INFO mapred.JobClient: FileSystemCounters
11/11/30 10:38:32 INFO mapred.JobClient: FILE_BYTES_READ=40
11/11/30 10:38:32 INFO mapred.JobClient: HDFS_BYTES_READ=77
11/11/30 10:38:32 INFO mapred.JobClient: FILE_BYTES_WRITTEN=188
11/11/30 10:38:32 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=109
11/11/30 10:38:32 INFO mapred.JobClient: Map-Reduce Framework
11/11/30 10:38:32 INFO mapred.JobClient: Reduce input groups=1
11/11/30 10:38:32 INFO mapred.JobClient: Combine output records=2
11/11/30 10:38:32 INFO mapred.JobClient: Map input records=2
11/11/30 10:38:32 INFO mapred.JobClient: Reduce shuffle bytes=46
11/11/30 10:38:32 INFO mapred.JobClient: Reduce output records=1
11/11/30 10:38:32 INFO mapred.JobClient: Spilled Records=4
11/11/30 10:38:32 INFO mapred.JobClient: Map output bytes=30
11/11/30 10:38:32 INFO mapred.JobClient: Map input bytes=64
11/11/30 10:38:32 INFO mapred.JobClient: Combine input records=2
11/11/30 10:38:32 INFO mapred.JobClient: Map output records=2
11/11/30 10:38:32 INFO mapred.JobClient: Reduce input records=2
11/11/30 10:38:36 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
执行:bin/hadoop fs -cat output/part-00000
输出:2hadoop
成功完成伪分布式的部署及测试。如有问题,请留言!
相关推荐
本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常适合初学者进行学习和测试。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由两个核心组件构成:HDFS(Hadoop Distributed File System)...
### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...
3. **Hadoop伪分布式安装**:在一台机器上模拟多节点环境,方便测试和调试。 4. **Hadoop完全分布式集群安装**:在多台机器上搭建真正的分布式集群,适用于大规模数据处理。 5. **Hadoop初始化**:格式化NameNode,...
本资源包是针对Hadoop入门学习的综合资料,包括了“Hadoop权威操作指南.pdf”、“Hadoop搭建操作文档(集群、伪分布式)”、“HDFS简单接口实现文档”以及“Hadoop API参考手册”和相关的Java API源码,非常适合初学...
### 分布式计算开源框架Hadoop入门实践 #### 一、Hadoop简介 Hadoop是一个由Apache基金会维护的开源分布式计算框架,它基于Java语言编写,主要由两大核心组件构成:**HDFS(Hadoop Distributed File System)** 和...
第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...
016 Hadoop 伪分布式安装部署 017 查看Hadoop 日志以及日志的格式和命名组成 018 Hadoop 守护进程服务三种启动停止方式 019 测试环境(HDFS Shell基本命令和运行WordCount程序) 020 结合WordCount实例讲解Hadoop的...
同时,快速入门还包括如何将Hadoop应用到实际的数据处理项目中,比如搭建本地开发环境、进行本地测试、编写MapReduce程序、在Hadoop集群上部署和运行程序等。 Hadoop框架的流行,主要因为其能够处理PB级别的数据量...
伪分布式模式实际上是在单个物理节点上模拟一个完整的Hadoop集群环境,这对于学习和测试非常有用。配置内容包括设置JAVA_HOME环境变量、修改Hadoop配置文件(如core-site.xml, hdfs-site.xml, mapred-site.xml和yarn...
单机安装用于学习和测试,伪分布式安装适合单台机器上的实际运行,而分布式安装则是为生产环境中的大数据处理设计。 知识点3:Hadoop运行环境 Hadoop环境通常部署在Linux操作系统上。这要求学习者需要有Linux操作...
学习Hadoop入门实战,不仅要掌握上述基础知识,还要深入理解Hadoop生态系统中的其他组件,如Hive(数据仓库工具)、Pig(数据分析工具)、HBase(NoSQL数据库)和Spark(快速处理框架)。同时,熟悉YARN资源管理和...
《Hadoop入门实战手册》是一本专为初学者设计的指南,旨在帮助读者快速掌握Hadoop的核心概念和技术。Hadoop是大数据处理领域的一个关键工具,它以开源、分布式计算框架的形式,为企业和开发者提供了处理海量数据的...
《Hadoop入门实战手册》是一份详尽介绍Hadoop的资料,主要面向初学者,旨在帮助读者理解Hadoop的核心概念、特性和应用。Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它允许在廉价硬件上处理和存储海量...
《Hadoop入门[归纳].pdf》是对开源大数据处理框架Hadoop的基础介绍,旨在为初学者提供一个全面且简明的学习指南。本文将深入探讨Hadoop的核心概念、应用场景以及初步的部署与操作方法。 Hadoop是Apache Software ...