<!--
@page { margin: 2cm }
PRE.cjk { font-family: "文泉驿微米黑", monospace }
P { margin-bottom: 0.21cm }
-->
一、伪分布(
Pseudo-Distributed
)与分布式(
Fully-Distributed
)的区别
我们知道,
hadoop
是运行在一个网络集群中的软件。在这个集群中,有
master
节点(一个逻辑上的节点包括二台物理节点),也有
node
节点(包括多台
namenode
节点和
datanode
节点)。也就是说,一个分布式
hadoop
程序的测试与运行,必须有多台主机的参与。那么,这就为编写软件带来了极大的不便。在这样的状况下,
hadoop
推出了伪分布的概念。
简单的讲,伪分布便是在一台主机上运行
hadoop
程序。其中的各个节点功能,均由
java
进程完成。在伪分布的环境下,实际上还是一台主机在进行代码执行和计算功能。
二、伪分布的配置
在完成单机版配置的情况下,进行以下配置:
1
)配置
conf/core-site.xml
文件:
</configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
配置
hadoop
文件系统(
File System
)的
URL
路径,同时指定默认的端口
9000
2
)配置
conf/hdfs-site.xml
文件:
<configuration>
<property>
<name>dfs.tem.dir</name>
<value>/home/tangli/hadoop/tem</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/tangli/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/tangli/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
前三项分别配置伪分布运行下的缓冲文件目录地址,
namenode
文件目录地址,
datanode
文件目录地址,其值自定义设定。最后一项配置数据备份数量,可以任设,建议
1
~
3
。
注:
0.23.0
版本以后的配置文件都在
share/hadoop/common/templates/conf
目录之下。
3
)配置
conf/mapred-site.xml
文件:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
配置
JobTraker
地址(端口)
三、格式化
HDFS
(很重要):
进入
hadoop
所在目录,运行命令:
$
sudo bin/hadoop namenode -format
四、启动
hadoop
监护程序,即启动伪分布下的
hadoop
:
$
bin/start-all.sh
在启动监护程序之后,执行命令
$
jps
,会至少显示以下
5
项内容:
NameNode
、
SecondaryNameNode
、
JobTracker
、
TaskTracker
、
DataNode
、
Jps
常见错误是缺少
NameNode
或者是
DataNode
。若缺少,请检查
conf/hdfs-site.xml
文件是否配置正确,若错误,修改后重新格式化
HDFS
。或者是权限错误,检查
namenode
文件目录地址,
datanode
文件目录地址,若该目录图标上有小锁,表示当前用户无目录权限,请重新赋予正确权限。
五、停止
hadoop
监护程序
$
bin/stop-all.sh
分享到:
相关推荐
6. "hadoop2.2.0伪分布式搭建.txt" - 这可能是一个文本指南,指导如何在单机环境下设置Hadoop的伪分布式模式,这是学习Hadoop的常见起点。 7. "分布式文件系统.txt" - 可能详细阐述了Hadoop分布式文件系统(HDFS)...
6. **Hadoop安装与配置**:资料可能包括Hadoop在单机、伪分布和完全分布式环境下的安装步骤,以及相关的配置参数解释。 7. **实战案例**:可能包含使用Hadoop解决实际问题的案例,如日志分析、推荐系统或大数据挖掘...
### Hadoop数据分析平台学习笔记 #### 一、Hadoop概述 **Hadoop**是一个开源软件框架,用于分布式存储和处理大型数据集。它的设计灵感来源于Google的论文,其中包括Google文件系统(GFS)和MapReduce计算模型。...
2. **伪分布模式(Pseudodistributed Mode)**:虽然所有的服务都在同一台机器上运行,但是每个Hadoop服务都被当作单独的进程来启动,模拟出一个小型集群的环境。 3. **完全分布模式(Fully Distributed Mode)**...
4. Hadoop安装与配置:包括单机模式、伪分布式模式和完全分布式模式的安装步骤,以及配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等配置文件。 5. Hadoop优化:涉及数据本地...
1. Hadoop的安装与配置:包括单机模式、伪分布式模式和完全分布式模式的安装步骤,以及配置文件如hdfs-site.xml、core-site.xml、mapred-site.xml的详解。 2. HDFS(Hadoop Distributed File System):讲解Hadoop的...
接下来,《Hadoop伪分布模式安装笔记成功版本在windows下的虚拟机但是里面没有windows下的eclipse的配置.pdf》这份文档详细记录了在Windows环境下使用虚拟机(如VMware或VirtualBox)安装Hadoop的步骤,特别是伪...
- 单机模式、伪分布式模式和完全分布式模式的搭建步骤。 - 配置文件详解,如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml` 和 `yarn-site.xml`。 - 集群安全设置,包括Kerberos认证。 6. **实战操作**:...
本资料中,读者将了解到如何安装配置Hadoop环境,包括单机模式、伪分布式模式以及完全分布式模式。此外,还会详细讲解HDFS的原理和操作,如文件的上传、下载、查看以及故障恢复策略。MapReduce编程模型的讲解是另一...
在集群环境中部署HBase,你需要根据不同的模式(单机模式、伪分布模式、完全分布模式)进行配置。集群部署通常涉及多台机器,需要配置SSH免密登录以简化操作。此外,HBase的配置文件需要指定HDFS的根目录、开启...
2. **伪分布式模式**:在单机上模拟分布式环境,Hadoop进程独立运行,但都在同一台机器上,适合学习和测试。 3. **完全分布式模式**:在多台机器组成的集群上运行,适用于生产环境。 **五、Hadoop编译源码** 如果你...