配置伪分布模式
1.配置xml文件:
这里需要设定3个文件:core-site.xml hdfs-site.xml mapred-site.xml,都在/home/vinking/hadoop/conf目录下
core-site.xml: Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。
hdfs-site.xml: Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等。
mapred-site.xml: MapReduce 守护进程的配置项,包括jobtracker和tasktracker。
#mkdir tmp
#mkdir hdfs
#mkdir hdfs/name
#mkdir hdfs/data
配置core-site.xml
fs.default.name NameNode的IP地址和端口,通过这个配置可以知道整个hadoop集群的名称节点及监听端口在哪里,怎么样进行联系
hdfs://localhost:9000 伪分布式设置为localhost即可,若为真实的完全分布式则为名称节点真实的ip地址才能工作,否则进程可以启动,但格式化名称节点时会失败,端口普遍使用这个端口,不太有必要做改动
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
配置hdfs-site.xml:
dfs.name.dir 用逗号隔开的目录名 ${hadoop.tmp.dir}/dfs/name 存储名称节点永久元数据的目录列表。名称节点在列表的每一个目标下存储着元数据的副本。
dfs.data.dir 用逗号隔开的目录名 ${hadoop.tmp.dir}/dfs/data 数据节点存储块的目录列表
dfs.replication 在分布式文件系统里面要把数据块复制多少份,这里是伪分布式,所以是复制一份
fs.checkpoint.dir 用逗号隔开的目录名 ${hadoop.tmp.dir}/dfs/namesecondary 查点的目录的列表,它在列表的每一个目录下存储着检查点的副本。
/hdfs/data /hdfs/name 这两个文件夹都需要先建好
注意:HDFS的存储目录默认在Hadoop的临时目录下(hadoop.tmp.dir 属性,其默认目录是 /tmp/hadoop-${user.name}),所以这些属性的设置很重要,可保证数据在情况临时目录是不会丢失。
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/vinking/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/vinking/hadoop/hdfs/data</value>
</property>
</configuration>
这里有个问题,<?xml version="1.0"?>前面空了一行,这个导致我后面在格式化HDFS的失败。
配置mapred-site.xml:
作业跟踪器所在位置,完全分布式的话 localhost要改为真实ip地址
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
2.格式化HDFS:
格式化hdfs,出现问题。提示 hdfs-site.xml 格式出现问题,网上查找了一下 是最上面空了一行,去掉那行后,重新格式化,就成功了。<?xml version="1.0" encoding="UTF-8"?>前面不要有任何其他字符,如空格、回车、换行这些否则就会出现上面的异常。
成功会出现如下信息:
3.启动Hadoop
接着执行start-all.sh来启动所有服务,包括namenode,datanode,start-all.sh脚本用来装载守护进程。这些验证方式是来自网上查找。
用Java的jps命令列出所有守护进程来验证安装成功
#jps
哈哈哈哈哈,千辛万苦,终于成功啦。虽然很多的命令及验证方式不太懂是什么意思。
4.检查运行状
所有的设置已完成,Hadoop也启动了,现在可以通过下面的操作来查看服务是否正常,在Hadoop中用于监控集群健康状态的Web界面:
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态
相关推荐
在下载hadoop-2.7.3.tar.gz这个压缩包后,用户可以解压得到Hadoop的源代码、配置文件、可执行二进制文件等。解压命令通常是在终端输入`tar -zxvf hadoop-2.7.3.tar.gz`。解压后,用户需要根据自己的系统环境进行适当...
压缩包子文件的文件名称列表中只有一个条目:"hadoop-2.7.1",这可能是解压后的Hadoop安装目录,包含了一系列的配置文件、可执行文件和其他相关组件。用户在Windows上解压这个文件后,可能需要按照提供的说明或者...
在Ubuntu 14.04操作系统上配置Hadoop,无论是单机模式还是伪分布式模式,都是Hadoop初学者的重要步骤。Hadoop是一个开源的分布式计算框架,它允许在大量廉价硬件上处理大规模数据。这篇文章将详细介绍如何在Ubuntu...
从Apache官方网站获取Hadoop 2.5.2的源码包,名称为“hadoop-2.5.2.tar.gz”。将其上传到所有虚拟机节点,然后使用tar命令进行解压。 四、配置Hadoop 1. 修改配置文件:主要修改`etc/hadoop/core-site.xml`、`etc/...
本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式和伪分布式模式。无论您是初学者还是有一定经验的技术人员,本教程都将帮助您顺利完成Hadoop的安装和配置。 #### 二、环境准备 1....
在开始配置Hadoop伪分布式之前,需要确保已经完成了基本的环境搭建工作。主要包括: 1. **系统环境准备**:一般情况下,推荐使用Linux操作系统,因为它提供了良好的稳定性和性能。 2. **JDK安装**:Hadoop基于Java...
025.Hadoop架构分析之启动脚本分析(start-dfs.cmd与hadoop-conf.cmd).mp4 026.Hadoop架构分析之启动脚本分析(hadoop.cmd命令).mp4 027.Hadoop架构分析之启动脚本分析(数据格式化与hdfs.cmd命令).mp4 028....
总之,"hadoop-2.6.0.tar.gz"提供了在Ubuntu系统上搭建Hadoop集群所需的全部组件,通过合理的配置和管理,你可以利用这个强大的工具处理大规模的数据任务。在使用过程中,需要注意集群的网络连通性,以及正确配置...
Hadoop是一个开源的分布式计算框架,主要由HDFS(Hadoop Distributed File System)和MapReduce组成,广泛应用于大数据处理。Hive是建立在Hadoop之上的数据仓库工具,它允许用户使用类SQL语言(HQL,Hive Query ...
1. 修改配置文件:主要修改conf目录下的hadoop-env.sh、core-site.xml、hdfs-site.xml和yarn-site.xml等文件。 2. core-site.xml:配置Hadoop的默认FS(文件系统)和临时目录。 3. hdfs-site.xml:配置HDFS的副本...
本教程详细指导如何在Ubuntu 14.04 64位系统上配置Hadoop的伪分布式环境。虽然教程是基于Ubuntu 14.04,但同样适用于Ubuntu 12.04、16.04以及32位系统,同时也适用于CentOS/RedHat系统的类似配置。教程经过验证,...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04 本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结...
5. **配置Hadoop**:修改Hadoop配置文件 `hadoop-env.sh` 和 `core-site.xml`、`hdfs-site.xml`。在 `hadoop-env.sh` 中设置Java环境: - `export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64` 6. **配置HDFS**...
### Hadoop3.1.3安装与单机/伪分布式配置知识点详解 #### 一、实验目的和要求 - **掌握Hadoop3.1.3的安装与配置**:包括单机模式和伪分布式模式。 - **理解Hadoop的工作原理**:特别是其在不同模式下的运行机制。 ...
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab ...与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
HBase,作为Apache软件基金会的一个开源项目,是构建在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,专为处理大规模数据而设计。标题中的“hbase-2.4.11-bin.tar.gz”是指HBase的2.4.11稳定版本的二进制...
【Hadoop安装教程_伪分布式配置_CentOS6.4】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储大规模数据。本教程针对的是在CentOS 6.4操作系统上安装Hadoop 2.6.0的伪分布式配置,这种...
根据提供的文件内容,知识点可以从以下几个方面展开: ### 1. Hadoop伪分布式安装...以上知识点涵盖了操作系统准备工作、配置yum源、Linux命令操作和网络信息提供等多个方面,是安装Hadoop伪分布式环境的必要步骤。
Spark,作为大数据处理领域的重要工具,以其高效的内存计算和分布式数据处理能力备受青睐。Spark 3.2.0 是一个重要的版本更新,它在性能、稳定性和功能上都有所增强。本压缩包“spark-3.2.0-bin-hadoop3-without-...