`
vinking934296
  • 浏览: 107193 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

hadoop实战-04.ubuntu配置伪分布式hadoop

阅读更多

配置伪分布模式

1.配置xml文件:

这里需要设定3个文件:core-site.xml  hdfs-site.xml  mapred-site.xml,都在/home/vinking/hadoop/conf目录下

core-site.xml: Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。

hdfs-site.xml: Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等。

mapred-site.xml: MapReduce 守护进程的配置项,包括jobtracker和tasktracker。

#mkdir tmp

#mkdir hdfs

#mkdir hdfs/name

#mkdir hdfs/data

 

配置core-site.xml

fs.default.name  NameNode的IP地址和端口,通过这个配置可以知道整个hadoop集群的名称节点及监听端口在哪里,怎么样进行联系

hdfs://localhost:9000 伪分布式设置为localhost即可,若为真实的完全分布式则为名称节点真实的ip地址才能工作,否则进程可以启动,但格式化名称节点时会失败,端口普遍使用这个端口,不太有必要做改动

<configuration>  

    <property>  

        <name>fs.default.name</name>  

        <value>hdfs://localhost:9000</value>  

    </property>  

    <property>  

        <name>hadoop.tmp.dir</name>  

        <value>/usr/local/hadoop/tmp</value>  

    </property>  

</configuration>  

配置hdfs-site.xml:

dfs.name.dir 用逗号隔开的目录名  ${hadoop.tmp.dir}/dfs/name   存储名称节点永久元数据的目录列表。名称节点在列表的每一个目标下存储着元数据的副本。

dfs.data.dir   用逗号隔开的目录名  ${hadoop.tmp.dir}/dfs/data     数据节点存储块的目录列表 

dfs.replication 在分布式文件系统里面要把数据块复制多少份,这里是伪分布式,所以是复制一份

fs.checkpoint.dir 用逗号隔开的目录名 ${hadoop.tmp.dir}/dfs/namesecondary 查点的目录的列表,它在列表的每一个目录下存储着检查点的副本。

/hdfs/data    /hdfs/name  这两个文件夹都需要先建好

注意:HDFS的存储目录默认在Hadoop的临时目录下(hadoop.tmp.dir 属性,其默认目录是 /tmp/hadoop-${user.name}),所以这些属性的设置很重要,可保证数据在情况临时目录是不会丢失。

 

<configuration>  

    <property>  

        <name>dfs.replication</name>  

        <value>1</value>  

    </property>  

    <property>  

        <name>dfs.name.dir</name>  

        <value>/home/vinking/hadoop/hdfs/name</value>  

    </property>  

    <property>  

        <name>dfs.data.dir</name>  

        <value>/home/vinking/hadoop/hdfs/data</value>  

    </property>  

</configuration> 

这里有个问题,<?xml version="1.0"?>前面空了一行,这个导致我后面在格式化HDFS的失败。

配置mapred-site.xml:

作业跟踪器所在位置,完全分布式的话 localhost要改为真实ip地址

<configuration>  

    <property>  

        <name>mapred.job.tracker</name>  

        <value>localhost:9001</value>  

    </property>  

</configuration>  


 2.格式化HDFS:

格式化hdfs,出现问题。提示 hdfs-site.xml 格式出现问题,网上查找了一下 是最上面空了一行,去掉那行后,重新格式化,就成功了。<?xml version="1.0" encoding="UTF-8"?>前面不要有任何其他字符,如空格、回车、换行这些否则就会出现上面的异常。 


 成功会出现如下信息:


 

3.启动Hadoop

接着执行start-all.sh来启动所有服务,包括namenode,datanode,start-all.sh脚本用来装载守护进程。这些验证方式是来自网上查找。


 
用Java的jps命令列出所有守护进程来验证安装成功

#jps


 
哈哈哈哈哈,千辛万苦,终于成功啦。虽然很多的命令及验证方式不太懂是什么意思。

4.检查运行状

所有的设置已完成,Hadoop也启动了,现在可以通过下面的操作来查看服务是否正常,在Hadoop中用于监控集群健康状态的Web界面:

http://localhost:50030/     - Hadoop 管理介面

http://localhost:50060/     - Hadoop Task Tracker 状态

http://localhost:50070/     - Hadoop DFS 状态


 

 

 

 

 

  • 大小: 79.1 KB
  • 大小: 107.6 KB
  • 大小: 71.6 KB
  • 大小: 244.6 KB
  • 大小: 293.5 KB
  • 大小: 140.4 KB
  • 大小: 36.2 KB
  • 大小: 147.1 KB
  • 大小: 108.2 KB
  • 大小: 112.4 KB
分享到:
评论

相关推荐

    hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载

    在下载hadoop-2.7.3.tar.gz这个压缩包后,用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后,用户需要根据自己的系统环境进行适当...

    Ubuntu14.04下hadoop-2.6.0单机配置和伪分布式配置 - Reverse - 博客频道 - CSDN1

    在Ubuntu 14.04操作系统上配置Hadoop,无论是单机模式还是伪分布式模式,都是Hadoop初学者的重要步骤。Hadoop是一个开源的分布式计算框架,它允许在大量廉价硬件上处理大规模数据。这篇文章将详细介绍如何在Ubuntu...

    hadoop-2.5.2.tar.gz

    从Apache官方网站获取Hadoop 2.5.2的源码包,名称为“hadoop-2.5.2.tar.gz”。将其上传到所有虚拟机节点,然后使用tar命令进行解压。 四、配置Hadoop 1. 修改配置文件:主要修改`etc/hadoop/core-site.xml`、`etc/...

    Hadoop安装教程_单机_伪分布式配置

    本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式和伪分布式模式。无论您是初学者还是有一定经验的技术人员,本教程都将帮助您顺利完成Hadoop的安装和配置。 #### 二、环境准备 1....

    hadoop伪分布式安装.pdf

    在开始配置Hadoop伪分布式之前,需要确保已经完成了基本的环境搭建工作。主要包括: 1. **系统环境准备**:一般情况下,推荐使用Linux操作系统,因为它提供了良好的稳定性和性能。 2. **JDK安装**:Hadoop基于Java...

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    025.Hadoop架构分析之启动脚本分析(start-dfs.cmd与hadoop-conf.cmd).mp4 026.Hadoop架构分析之启动脚本分析(hadoop.cmd命令).mp4 027.Hadoop架构分析之启动脚本分析(数据格式化与hdfs.cmd命令).mp4 028....

    hadoop2.6.0版本-hadoop-2.6.0.tar.gz

    总之,"hadoop-2.6.0.tar.gz"提供了在Ubuntu系统上搭建Hadoop集群所需的全部组件,通过合理的配置和管理,你可以利用这个强大的工具处理大规模的数据任务。在使用过程中,需要注意集群的网络连通性,以及正确配置...

    mysql-connector-java-8.0.28.tar.gz

    Hadoop是一个开源的分布式计算框架,主要由HDFS(Hadoop Distributed File System)和MapReduce组成,广泛应用于大数据处理。Hive是建立在Hadoop之上的数据仓库工具,它允许用户使用类SQL语言(HQL,Hive Query ...

    hadoop-2.x的环境搭建

    1. 修改配置文件:主要修改conf目录下的hadoop-env.sh、core-site.xml、hdfs-site.xml和yarn-site.xml等文件。 2. core-site.xml:配置Hadoop的默认FS(文件系统)和临时目录。 3. hdfs-site.xml:配置HDFS的副本...

    hadoop伪分布式配置教程.doc

    本教程详细指导如何在Ubuntu 14.04 64位系统上配置Hadoop的伪分布式环境。虽然教程是基于Ubuntu 14.04,但同样适用于Ubuntu 12.04、16.04以及32位系统,同时也适用于CentOS/RedHat系统的类似配置。教程经过验证,...

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04

    Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04 本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结...

    03 云计算与大数据培训课程_Hadoop2.x64位伪分布式安装指南(Ubuntu).zip

    5. **配置Hadoop**:修改Hadoop配置文件 `hadoop-env.sh` 和 `core-site.xml`、`hdfs-site.xml`。在 `hadoop-env.sh` 中设置Java环境: - `export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64` 6. **配置HDFS**...

    Hadoop3.1.3安装和单机/伪分布式配置

    ### Hadoop3.1.3安装与单机/伪分布式配置知识点详解 #### 一、实验目的和要求 - **掌握Hadoop3.1.3的安装与配置**:包括单机模式和伪分布式模式。 - **理解Hadoop的工作原理**:特别是其在不同模式下的运行机制。 ...

    Hadoop安装教程_伪分布式配置_CentOS6.4_Hadoop2.61

    【Hadoop安装教程_伪分布式配置_CentOS6.4】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。本教程针对的是在CentOS 6.4操作系统上安装Hadoop 2.6.0的伪分布式配置,这种...

    大数据教程-Hadoop伪分布式安装.pdf

    根据提供的文件内容,知识点可以从以下几个方面展开: ### 1. Hadoop伪分布式安装...以上知识点涵盖了操作系统准备工作、配置yum源、Linux命令操作和网络信息提供等多个方面,是安装Hadoop伪分布式环境的必要步骤。

    linux中自用hadoop-2.7.5.zip

    3. **配置Hadoop**:进入解压后的目录,如`cd hadoop-2.7.5`,然后编辑配置文件`etc/hadoop/core-site.xml`和`etc/hadoop/hdfs-site.xml`。在`core-site.xml`中设置默认的文件系统为本地文件系统,而在`hdfs-site....

    【IT十八掌徐培成】Hadoop第05天-05.ubuntu搭建eclipse环境-codec测试.zip

    3. **安装Hadoop插件**: Eclipse有多种方式集成Hadoop,如Hadoop插件Hadoop-Eclipse-Plugin。可以通过Eclipse的“Help” &gt; “Install New Software”菜单,然后添加插件的更新源来安装。 4. **配置Hadoop环境**: 在...

    Hadoop单节点伪分布式搭建中文版

    【Hadoop 单节点伪分布式搭建】是一种适合学习和测试Hadoop环境的简易方式,无需配置复杂的多节点集群。在单节点伪分布式模式下,所有Hadoop服务都在同一个节点上以独立Java进程的方式运行,模拟分布式环境的行为,...

    spark-3.2.0-bin-hadoop3-without-hive

    Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上都有所增强。本压缩包“spark-3.2.0-bin-hadoop3-without-...

Global site tag (gtag.js) - Google Analytics