`
SavageGarden
  • 浏览: 222177 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop (0.21.0)分布式部署笔记

阅读更多

 

1.      集群环境

操作系统: CentOS release 5.5 x86_64

IP 分配:

/etc/hosts

 

 

192.168.1.100  master
192.168.1.101  slave1
192.168.1.102  slave2

……
 

2.      配置 SSH

 

 ssh-keygen –t rsa –P '' –f /root/.ssh/id_rsa
 cp  /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys
 scp /root/.ssh/id_rsa.pub root@slave1:/root/.ssh/authorized_keys
 scp /root/.ssh/id_rsa.pub root@slave2:/root/.ssh/authorized_keys
 ……

 

3.      下载 Hadoop

 

http://www.apache.org/dyn/closer.cgi/hadoop/core/

 

4.      配置 Hadoop(namenode)

$HADOOP_HOME/conf/core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000</value>
        <description>
            The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation.
        </description>
    </property>
</configuration>

$HADOOP_HOME/conf/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>master:9001</value>     
        <description>The host and port that the MapReduce job tracker runsat.</description>
   </property>
</configuration>

$HADOOP_HOME/conf/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
    <property>
            <name>dfs.replication</name>
            <value>3</value>       
            <description>
                  The actual number of replications can be specified when the file is created.
            </description>
      </property>
</configuration>

$HADOOP_HOME/conf/masters

master 

$HADOOP_HOME/conf/slaves

slave1
slave2
……
 

5.      配置 Hadoop(datanode)

 

 cd /usr/local/
 tar –zcvf hadoop-0.21.0.tar.gz hadoop-0.21.0/
 scp hadoop-0.21.0.tar.gz root@slave1:/usr/local/
 scp hadoop-0.21.0.tar.gz root@slave2:/usr/local/
……
 

 

6.      启动 Hadoop

 

sh $HADOOP_HOME/bin/hadoop namenode -format
sh $HADOOP_HOME/bin/start-dfs.sh
sh $HADOOP_HOME/bin/start-mapred.sh
 

       查看运行状态

 

[root@master ~] jps
6584 Jps
5827 SecondaryNameNode
5618 NameNode
5938 JobTracker

[root@slave1 ~] jps
3375 DataNode
3496 TaskTracker
3843 Jps

[root@slave2 ~] jps
1838 DataNode
3160 Jps
1960 TaskTracker

……
 

7.      测试 Hadoop

生成一个测试文件

/root/test.txt

tom1
tom2
tom3
tom4
tom1
tom2
tom3
tom1
tom2
tom1

创建输入目录

hadoop fs -mkdir input

将测试文件上传至此目录

hadoop fs -put /root/test.txt input

查看是否上传成功

hadoop fs -ls input

-rw-r--r--   3 root supergroup         50 2010-12-22 02:08 /user/root/input/test.txt

调用单词统计程序并输出结果到指定目录

hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount input output
……
10/12/22 02:12:02 INFO mapreduce.Job:  map 0% reduce 0%
10/12/22 02:12:09 INFO mapreduce.Job:  map 100% reduce 0%
10/12/22 02:12:15 INFO mapreduce.Job:  map 100% reduce 100%
……

查看结果文件

hadoop fs -ls output

-rw-r--r--   3 root supergroup          0 2010-12-22 02:12 /user/root/output/_SUCCESS
-rw-r--r--   3 root supergroup         28 2010-12-22 02:12 /user/root/output/part-r-00000

hadoop fs -cat output/part-r-00000

tom1       4
tom2       3
tom3       2
tom4       1

提取输出文件

hadoop fs –get output/oart-r-00000 /root/output.txt
分享到:
评论

相关推荐

    Hadoop-0.21.0分布式集群配置

    Hadoop-0.21.0分布式集群配置.doc

    Hadoop伪分布式部署文档(包括本地开发环境,eclipse远程连接Hadoop服务器)

    Hadoop伪分布式部署文档是指在单台机器上模拟分布式Hadoop集群的部署文档,包括服务器伪分布式部署、本地Hadoop开发环境部署、Eclipse远程连接Hadoop服务器等内容。下面是该文档的详细解释: 首先,需要安装JDK,...

    在linux系统中hadoop完全分布式部署

    在linux系统中hadoop完全分布式部署

    Hadoop完全分布式安装笔记

    Hadoop完全分布式安装笔记,一步一步安装记录,完全分布式;4台虚拟机。看自己电脑的性能啊。

    hadoop2.6.0分布式部署参考手册.doc

    Hadoop 2.6.0分布式部署参考手册.doc

    hadoop伪分布式安装.pdf

    ### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...

    实验3—Hadoop 完全分布式模式搭建

    实验3—Hadoop 完全分布式模式搭建

    hadoop完全分布式集群搭建笔记

    ### Hadoop完全分布式集群搭建详解 #### 一、概述 Hadoop是一款开源的大数据处理框架,主要用于处理海量数据。为了实现高效的数据处理能力,Hadoop通常会在多台计算机上搭建分布式集群。本文将详细介绍如何搭建一...

    Hadoop技术-Hadoop完全分布式安装.pptx

    "Hadoop技术-Hadoop完全分布式安装" Hadoop技术是当前最流行的分布式计算框架之一,广泛应用于数据存储、数据处理和数据分析等领域。Hadoop完全分布式安装是指在多台机器上安装和配置Hadoop,以便更好地处理大规模...

    hadoop完全分布式笔记

    hadoop完全分布式搭建课堂笔记,关于如何配置hadoop完全分布式

    hadoop分布式部署教程

    ### Hadoop分布式部署教程知识点详解 #### 一、Hadoop分布式集群配置背景及意义 Hadoop是一种能够处理海量数据的大规模分布式存储与处理框架。它通过Hadoop分布式文件系统(HDFS)和MapReduce计算框架提供了可靠的...

    Hadoop完全分布式环境搭建步骤

    Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!

    hadoop全分布式-脚本一键安装

    总之,Hadoop的一键安装脚本是大数据领域的一个实用工具,它结合了Linux自动化命令和Hadoop的配置知识,使得部署大规模分布式数据处理环境变得更加便捷。对于想要学习和使用Hadoop的开发者来说,掌握这种安装方式...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

Global site tag (gtag.js) - Google Analytics