`

ubuntu下搭建hadoop伪分布式模式

阅读更多

搭建的单机操作系统配置如下图:

 

使用的hadoop版本为1.2.1版本,Java为jre7(搭建环境变量参照:http://fengfu222.iteye.com/admin/blogs/2026451)

 

第一步为设置ssh免密码登陆(如果没有ssh,则需要提前安装ssh, 终端下输入命令: sudo apt-get  install openssh-server)

终端下执行:ssh-keygen -t rsa 一路回车就行,该命令会在你的当前用户下生成一个.ssh文件夹,下面包含两个文件 id_rsa和id_rsa.pub两个文件

接着复制id_rsa.pub 到.ssh目录下的authorized_keys,执行命令cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys即可

验证:本机下输入 ssh 本机IP或者别名 就能免密码登陆成功

第二步 修改hostname以及设置ip与hostname(主机名)绑定(如果是用localhost 配置,则掉过这一步骤)

ubuntu下hostname是在文件/etc/hostname下配置的,打开/etc/hostname,修改为主机名为hadoopserver,修改为hadoopserver后,需要立即修改ip与hostname的绑定,编辑/etc/hosts 注释掉先前的主机名对应的ip地址(必须做),添加 192.168.1.234(你的Ip地址) hadoopserver 配置完成后需要重启

验证:

终端输入hostname -i 显示你配置的主机名;ping 主机名 会进行解析为IP地址(对应正确即为配置正确)

第三步 安装hadoop,官网上面下载hadoop1.2.1版本,下载完成后解压缩,

在用户目录下建立software文件夹,在该文件夹下建立到解压缩后的hadoop目录的软链接

修改hadoop目录下conf目录下的hadoop-env.sh文件,制定本机的java运行环境

export JAVA_HOME=your java 运行环境目录(如果你设置了环境变量,则不用修改该文件)

接着修改3个文件: core-site.xml hdfs-site.xml mapred-site.xml文件,三个文件均在conf下

core-site.xml

core-site.xml简单配置为

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://hadoopserver(可以配置为localhost,或者你上步骤配置的主机名):9000</value>
   </property>
</configuration>

 hdfs-site.xml简单配置为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.permissions</name>
      <value>false</value>
   </property>

</configuration>

 mapred-site.xml配置为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
    <name>mapred.job.tracker</name>
    <value>hadoopserver(此处可以是localhost 或者你配置的主机名):9001</value>
   </property>
</configuration>

 

第四步 启动hadoop

启动hadoop 首先第一步要进行格式化 切换到hadoop目录 执行 bin/hadoop namenode -format(每次启动不需要都执行格式化,但是如果配置太简单,则系统重启后,启动hadoop则需要重新进行格式化)

出现如下,则格式化成功

14/12/21 22:54:31 INFO namenode.FSEditLog: closing edit log: position=4, editlog=/tmp/hadoop-fengfu/dfs/name/current/edits
14/12/21 22:54:31 INFO namenode.FSEditLog: close success: truncate to 4, editlog=/tmp/hadoop-fengfu/dfs/name/current/edits
14/12/21 22:54:32 INFO common.Storage: Storage directory /tmp/hadoop-fengfu/dfs/name has been successfully formatted.
14/12/21 22:54:32 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoopserver/192.168.1.234
************************************************************/

 接下来执行bin/start-all.sh 启动Hadoop

命令执行完成后,可以使用java的jps查看是否全部启动起来,如下

fengfu@hadoopserver:~/software/hadoop-1.2.1$ jps
5694 SecondaryNameNode
6083 Jps
5965 TaskTracker
5806 JobTracker
5529 DataNode
5376 NameNode

 或者浏览器上验证:

http://hadoopserver:50070 

 

http://hadoopserver:50030 

如果没有启动起来,可以到hadoop目录下的logs目录下查看输出日志,进行调试(当然可以配置logs的位置,不一定在Logs目录下)

 

本人配置碰到的问题

1 ubuntu下有默认的主机名,而我使用了hadoopserver,虽然我配置了/etc/hosts (ubuntu下主机名绑定的ip为127.0.1.1)但是没有修改hostname导致进行格式化的时候出问题(没有报错误,只是在eclipse下配置Hadoop的时候老是出错),因为格式化的时候默认使用的是主机名,如下图:

STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = hadoopserver/192.168.1.234
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 1.2.1
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/b

 2 系统每次启动后,都启动不起来hadoop,主要就是因为没有进行格式化,而系统重启后,需要重新格式化,则是因为hadoop格式化后的文件系统目录在/tmp文件夹下,如下图:

14/12/21 22:54:31 INFO common.Storage: Image file /tmp/hadoop-fengfu/dfs/name/current/fsimage of size 112 bytes saved in 0 seconds.
14/12/21 22:54:31 INFO namenode.FSEditLog: closing edit log: position=4, editlog=/tmp/hadoop-fengfu/dfs/name/current/edits
14/12/21 22:54:31 INFO namenode.FSEditLog: close success: truncate to 4, editlog=/tmp/hadoop-fengfu/dfs/name/current/edits
14/12/21 22:54:32 INFO common.Storage: Storage directory /tmp/hadoop-fengfu/dfs/name has been successfully formatted.

 每次系统重启后,这个文件夹下的东西都清空,所以每次系统重启后启动hadoop都需要进行重新格式化,不重启则就不需要,建议在配置文件中重新指定hadoop文件系统的位置,不要放在/tmp下,每次格式化后都会丢失hdfs里面存储的数据

3 推荐使用主机名进行配置Hadoop是因为如果想配置集群的话,不用localhost是因为如果配置真分布式,则还需要修改掉配置文件中的localhost.

  • 大小: 539 KB
分享到:
评论

相关推荐

    hadoop伪分布式安装.pdf

    - **伪分布式模式**:在这种模式下,所有Hadoop守护进程都在单个节点上运行,但它们作为不同的Java进程运行。这意味着尽管所有组件(如NameNode、DataNode、JobTracker等)都运行在同一台机器上,但是它们之间的交互...

    hadoop伪分布式配置教程.doc

    本教程详细指导如何在Ubuntu 14.04 64位系统上配置Hadoop的伪分布式环境。虽然教程是基于Ubuntu 14.04,但同样适用于Ubuntu 12.04、16.04以及32位系统,同时也适用于CentOS/RedHat系统的类似配置。教程经过验证,...

    ubuntu16.04搭建伪分布式文档

    本文档将指导您在Ubuntu 16.04上搭建伪分布式 Hadoop 环境。Hadoop 是一个分布式计算框架,可以处理大量数据。下面将详细介绍 Hadoop 的部署模式、单机安装、伪分布式配置和 MapReduce 示例。 Hadoop 部署模式 ...

    虚拟机搭建Hadoop伪分布式及Hbase.docx

    【虚拟机搭建Hadoop伪分布式及Hbase】的文档主要涉及了如何在虚拟机环境下配置Hadoop和Hbase。下面将详细阐述整个过程的关键步骤和相关知识点。 首先,我们需要准备必要的软件,包括虚拟机软件VMware 16.0、Ubuntu ...

    Hadoop伪分布式集群环境搭建

    本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常适合初学者进行学习和测试。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由两个核心组件构成:HDFS(Hadoop Distributed File System)...

    从零起步搭建Hadoop单机和伪分布式开发环境图文教程.

    搭建Hadoop开发环境,无论是单机模式还是伪分布式模式,都需要准备一些基础软件和环境。单机模式仅用于开发和测试,它在本地运行所有Hadoop守护进程;伪分布式模式将守护进程部署在单个机器上,但是每个守护进程都...

    大数据 Hadoop 伪分布式搭建

    本教程将指导你如何在Ubuntu 16.04系统上搭建Hadoop 2.6.0的伪分布式环境,这个环境模拟了一个完整的Hadoop集群,但所有服务都在同一台机器上运行。 首先,我们需要创建一个新的用户和用户组,这有助于管理和隔离...

    超详细解说Hadoop伪分布式搭建1

    在深入讲解Hadoop伪分布式搭建的过程中,首先要明白,伪分布式模式是在单个节点上模拟分布式环境,适用于学习和测试Hadoop的配置及功能,无需多台机器。以下是详细的搭建步骤: 第一步:安装JDK Hadoop的运行依赖于...

    ubuntu环境下hadoop环境搭建(伪分布模式)

    在Ubuntu环境下搭建Hadoop伪分布式模式,主要是为了模拟多节点Hadoop集群的环境,以便于学习和测试Hadoop的功能。这个过程涉及到多个步骤,包括必要的资源下载、软件安装、环境配置以及Hadoop服务的启动与验证。以下...

    Hadoop单节点伪分布式搭建中文版

    在单节点伪分布式模式下,所有Hadoop服务都在同一个节点上以独立Java进程的方式运行,模拟分布式环境的行为,但仍保持简单易管理。 **预备知识与要求** 1. **支持平台**:Hadoop主要支持GNU/Linux作为开发和生产...

    在ubuntu上搭建hadoop总结

    以上就是在Ubuntu 12.04上搭建Hadoop伪分布式环境的详细步骤。在这个过程中,你将学习到Hadoop的配置、启动和测试方法。这只是一个基础起点,深入学习Hadoop还需要理解其背后的分布式原理和MapReduce编程模型。随着...

    hadoop伪分布式搭建.docx

    本文详细介绍了如何在 VirtualBox 上搭建 Hadoop 伪分布式环境的过程,包括 VirtualBox 的安装与配置、Ubuntu 操作系统的安装、Java 环境的配置以及 Hadoop 的安装与配置等关键步骤。通过遵循上述指导,您可以成功地...

    Vmware和Ubuntu下hadoop完全分布式环境的快速搭建

    利用VMWare虚拟机建立3台ubuntu虚拟系统,在此基础上搭建的hadoop完全分布式环境,本人亲测可行

    ubuntu18.04搭建完全分布式hadoop

    使用vmware复制了三个ubuntu18.04虚拟机系统,模拟多台服务器,安装配置完全分布式hadoop。 想修改成免费的,不会修改。有问题可以留言一起交流

    搭建Hadoop单机伪分布式环境1

    搭建Hadoop单机伪分布式环境是一项基础而重要的工作,尤其对于初学者来说,这有助于理解Hadoop的工作原理和运行机制。下面将详细讲解这个过程中的关键步骤和涉及的知识点。 首先,我们需要创建一个新的用户,例如名...

    hadoop全分布式-脚本一键安装

    你需要将所有必要的文件,包括Hadoop的配置文件(如core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml等)、自定义的安装脚本,以及已经下载的JDK和Hadoop软件包,放置在同一个目录下。JDK和Hadoop的...

    ubuntu下搭建hadoop

    本文将详细介绍如何在 Ubuntu 操作系统下搭建 Hadoop 的单机版与伪分布式环境。 #### 2.1 Hadoop 的单机搭建 ##### 2.1.1 准备工作 1. **安装 Ubuntu 虚拟机**:首先,需要在虚拟机中安装 Ubuntu。推荐使用 ...

Global site tag (gtag.js) - Google Analytics