1.
集群环境
操作系统:
CentOS release 5.5 x86_64
IP
分配:
/etc/hosts
192.168.1.100 master
192.168.1.101 slave1
192.168.1.102 slave2
……
2.
配置
SSH
ssh-keygen –t rsa –P '' –f /root/.ssh/id_rsa
cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys
scp /root/.ssh/id_rsa.pub root@slave1:/root/.ssh/authorized_keys
scp /root/.ssh/id_rsa.pub root@slave2:/root/.ssh/authorized_keys
……
3.
下载
Hadoop
http://www.apache.org/dyn/closer.cgi/hadoop/core/
4.
配置
Hadoop(namenode)
$HADOOP_HOME/conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
<description>
The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation.
</description>
</property>
</configuration>
$HADOOP_HOME/conf/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
<description>The host and port that the MapReduce job tracker runsat.</description>
</property>
</configuration>
$HADOOP_HOME/conf/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>
The actual number of replications can be specified when the file is created.
</description>
</property>
</configuration>
$HADOOP_HOME/conf/masters
master
$HADOOP_HOME/conf/slaves
slave1
slave2
……
5.
配置
Hadoop(datanode)
cd /usr/local/
tar –zcvf hadoop-0.21.0.tar.gz hadoop-0.21.0/
scp hadoop-0.21.0.tar.gz root@slave1:/usr/local/
scp hadoop-0.21.0.tar.gz root@slave2:/usr/local/
……
6.
启动
Hadoop
sh $HADOOP_HOME/bin/hadoop namenode -format
sh $HADOOP_HOME/bin/start-dfs.sh
sh $HADOOP_HOME/bin/start-mapred.sh
查看运行状态
[root@master ~] jps
6584 Jps
5827 SecondaryNameNode
5618 NameNode
5938 JobTracker
[root@slave1 ~] jps
3375 DataNode
3496 TaskTracker
3843 Jps
[root@slave2 ~] jps
1838 DataNode
3160 Jps
1960 TaskTracker
……
7.
测试
Hadoop
生成一个测试文件
/root/test.txt
tom1
tom2
tom3
tom4
tom1
tom2
tom3
tom1
tom2
tom1
创建输入目录
hadoop fs -mkdir input
将测试文件上传至此目录
hadoop fs -put /root/test.txt input
查看是否上传成功
hadoop fs -ls input
-rw-r--r-- 3 root supergroup 50 2010-12-22 02:08 /user/root/input/test.txt
调用单词统计程序并输出结果到指定目录
hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount input output
……
10/12/22 02:12:02 INFO mapreduce.Job: map 0% reduce 0%
10/12/22 02:12:09 INFO mapreduce.Job: map 100% reduce 0%
10/12/22 02:12:15 INFO mapreduce.Job: map 100% reduce 100%
……
查看结果文件
hadoop fs -ls output
-rw-r--r-- 3 root supergroup 0 2010-12-22 02:12 /user/root/output/_SUCCESS
-rw-r--r-- 3 root supergroup 28 2010-12-22 02:12 /user/root/output/part-r-00000
hadoop fs -cat output/part-r-00000
tom1 4
tom2 3
tom3 2
tom4 1
提取输出文件
hadoop fs –get output/oart-r-00000 /root/output.txt
分享到:
相关推荐
Hadoop-0.21.0分布式集群配置.doc
Hadoop伪分布式部署文档是指在单台机器上模拟分布式Hadoop集群的部署文档,包括服务器伪分布式部署、本地Hadoop开发环境部署、Eclipse远程连接Hadoop服务器等内容。下面是该文档的详细解释: 首先,需要安装JDK,...
Hadoop完全分布式安装笔记,一步一步安装记录,完全分布式;4台虚拟机。看自己电脑的性能啊。
Hadoop 2.6.0分布式部署参考手册.doc
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...
实验3—Hadoop 完全分布式模式搭建
### Hadoop完全分布式集群搭建详解 #### 一、概述 Hadoop是一款开源的大数据处理框架,主要用于处理海量数据。为了实现高效的数据处理能力,Hadoop通常会在多台计算机上搭建分布式集群。本文将详细介绍如何搭建一...
"Hadoop技术-Hadoop完全分布式安装" Hadoop技术是当前最流行的分布式计算框架之一,广泛应用于数据存储、数据处理和数据分析等领域。Hadoop完全分布式安装是指在多台机器上安装和配置Hadoop,以便更好地处理大规模...
hadoop完全分布式搭建课堂笔记,关于如何配置hadoop完全分布式
### Hadoop分布式部署教程知识点详解 #### 一、Hadoop分布式集群配置背景及意义 Hadoop是一种能够处理海量数据的大规模分布式存储与处理框架。它通过Hadoop分布式文件系统(HDFS)和MapReduce计算框架提供了可靠的...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!
总之,Hadoop的一键安装脚本是大数据领域的一个实用工具,它结合了Linux自动化命令和Hadoop的配置知识,使得部署大规模分布式数据处理环境变得更加便捷。对于想要学习和使用Hadoop的开发者来说,掌握这种安装方式...
hadoop、分布式环境、完全分布式、大数据、搭建