下面,以表格的形式描述下伪分布式安装
系统环境如下:
序号 | 名称 | 描述 | 1 | 系统环境 | Centos6.5 | 2 | JAVA环境 | JDK1.7 | 3 | Haoop版本 | hadoop2.2.0 |
安装步骤如下:
序号 | 步骤 | 1 | 解压hadoop,并配置环境变量 | 2 | 使用which hadoop命令,测试是否成功 | 3 | 配置core-site.xml | 4 | 配置hdfs-site.xml | 5 | 配置yarn-site.xml(非必须,使用默认也可) | 6 | 配置mapred-site.xml | 7 | 配置mapred-env.sh里面的JAVA路径 | 8 | 如上的配置完成后,需要新建几个文件夹,来提供HDFS的格式化底层一个是hadoop的tmp文件夹,另外的是namenode和datanode的文件夹,来分别存储各自的信息 | 9 | 上面一切完成后,即可执行hadoop namenode -format 进行格式化 | 10 | 然后启动伪分布式集群,执行命令sbin/start-all.sh 最后使用JPS查看JAVA进程 | 11 | 配置本机的hosts文件,映射主机名信息 |
下面来详细说下,各个步骤的具体操作:
在这之前,最好配置好本机的SSH无密码登陆操作,避免hadoop进程之间通信时,需要验证。
下面是各个xml文件的配置
- <!-- core-site.xml配置 -->
- <configuration>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://192.168.46.28:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/root/hadoop/tmp</value>
- </property>
- </configuration>
<!-- core-site.xml配置 --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://192.168.46.28:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/tmp</value> </property> </configuration>
- <!-- hdfs-site.xml配置 -->
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>/root/hadoop/nddir</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>/root/hadoop/dddir</value>
- </property>
- <property>
- <name>dfs.permissions</name>
- <value>false</value>
- </property>
- </configuration>
<!-- hdfs-site.xml配置 --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/root/hadoop/nddir</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/root/hadoop/dddir</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>
- <!-- yarn-site.xml 不用配置,使用默认属性即可 -->
- <configuration>
- </configuration>
<!-- yarn-site.xml 不用配置,使用默认属性即可 --> <configuration> </configuration>
- <!-- mapred-site.xml的配置 -->
- <configuration>
- <property>
- <name>mapreduce.cluster.temp.dir</name>
- <value></value>
- <description>No description</description>
- <final>true</final>
- </property>
- <property>
- <name>mapreduce.cluster.local.dir</name>
- <value></value>
- <description>No description</description>
- <final>true</final>
- </property>
- </configuration>
<!-- mapred-site.xml的配置 --> <configuration> <property> <name>mapreduce.cluster.temp.dir</name> <value></value> <description>No description</description> <final>true</final> </property> <property> <name>mapreduce.cluster.local.dir</name> <value></value> <description>No description</description> <final>true</final> </property> </configuration>
mapred-env.sh里面的配置
- # Licensed to the Apache Software Foundation (ASF) under one or more
- # contributor license agreements. See the NOTICE file distributed with
- # this work for additional information regarding copyright ownership.
- # The ASF licenses this file to You under the Apache License, Version 2.0
- # (the "License"); you may not use this file except in compliance with
- # the License. You may obtain a copy of the License at
- #
- # http://www.apache.org/licenses/LICENSE-2.0
- #
- # Unless required by applicable law or agreed to in writing, software
- # distributed under the License is distributed on an "AS IS" BASIS,
- # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- # See the License for the specific language governing permissions and
- # limitations under the License.
- export JAVA_HOME=/usr/local/jdk
- export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000
- export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA
- #export HADOOP_JOB_HISTORYSERVER_OPTS=
- #export HADOOP_MAPRED_LOG_DIR="" # Where log files are stored. $HADOOP_MAPRED_HOME/logs by default.
- #export HADOOP_JHS_LOGGER=INFO,RFA # Hadoop JobSummary logger.
- #export HADOOP_MAPRED_PID_DIR= # The pid files are stored. /tmp by default.
- #export HADOOP_MAPRED_IDENT_STRING= #A string representing this instance of hadoop. $USER by default
- #export HADOOP_MAPRED_NICENESS= #The scheduling priority for daemons. Defaults to 0.
# Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. # The ASF licenses this file to You under the Apache License, Version 2.0 # (the "License"); you may not use this file except in compliance with # the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License. export JAVA_HOME=/usr/local/jdk export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000 export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA #export HADOOP_JOB_HISTORYSERVER_OPTS= #export HADOOP_MAPRED_LOG_DIR="" # Where log files are stored. $HADOOP_MAPRED_HOME/logs by default. #export HADOOP_JHS_LOGGER=INFO,RFA # Hadoop JobSummary logger. #export HADOOP_MAPRED_PID_DIR= # The pid files are stored. /tmp by default. #export HADOOP_MAPRED_IDENT_STRING= #A string representing this instance of hadoop. $USER by default #export HADOOP_MAPRED_NICENESS= #The scheduling priority for daemons. Defaults to 0.
然后,建对应的几个文件夹即可,路径都在hadoop2.2的根目录下即可,
然后执行格式化命令bin/hadoop namenode -format即可;
最后使用jps命令,查看进程,如果有以下几个进程名称,就代表部署伪分布式成功
- 4887 NodeManager
- 4796 ResourceManager
- 4661 SecondaryNameNode
- 4524 DataNode
- 4418 NameNode
- 6122 Jps
4887 NodeManager 4796 ResourceManager 4661 SecondaryNameNode 4524 DataNode 4418 NameNode 6122 Jps
然后,访问界面端口,注意与之前的配置文件里一致,namenode的端口号仍为50070,原来1.x的50030端口,已经没有了,可以访问8088的yarn的端口,来查看,具体的截图如下:
OK,此时,我们已经成功的完成伪分布式的部署,下一步我们要做的,就是跑一个经典的MR程序Hellow World,来测试我们的集群了。
相关推荐
HBase伪分布式环境搭建及数据操作测试 本人成功搭建伪分布式的操作以及截图
Hadoop伪分布式环境搭建是指在单个节点上模拟分布式环境,以便于开发、测试和学习Hadoop相关技术。本文将介绍如何在Windows和Linux平台上搭建Hadoop伪分布式环境,包括下载安装Hadoop、配置Eclipse、搭建Map/Reduce...
Ubuntu 下 Hadoop 的伪分布式配置 Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File...
请注意,虽然伪分布式集群可以用于学习和测试,但在生产环境中,推荐使用真正的分布式集群以获得更高的可用性和容错性。此外,配置文件中的其他参数,如 `maxClientCnxns`(最大客户端连接数)和 `autopurge`(自动...
【伪分布式搭建Hadoop详解】 在分布式计算领域,Hadoop是一个广泛使用的开源框架,它允许在廉价硬件上处理大规模数据。然而,对于学习和测试目的,通常不需要完整的分布式环境。这就是“伪分布式”模式发挥作用的...
虚拟机Ubuntu下hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)非常详细的安装配置指南
"ubuntu16.04搭建伪分布式文档" 本文档将指导您在Ubuntu 16.04上搭建伪分布式 Hadoop 环境。Hadoop 是一个分布式计算框架,可以处理大量数据。下面将详细介绍 Hadoop 的部署模式、单机安装、伪分布式配置和 ...
Linux下的Hadoop伪分布式配置是一种在一台机器上模拟Hadoop分布式环境的方法,它允许开发者在本地环境中测试和调试Hadoop应用程序,而无需实际的多节点集群。这种模式使用单个节点来模拟整个Hadoop集群,包括...
解压后得到的是Hadoop的安装目录,需要进入该目录下的etc/hadoop子目录,对Hadoop的配置文件进行修改以适配伪分布式模式。配置文件主要包括core-site.xml、hdfs-site.xml和yarn-site.xml。 在core-site.xml中,需要...
7. **安全性**:虽然默认情况下伪分布式环境不开启安全模式,但可以配置Kerberos进行身份验证,以增强安全性。 8. **日志管理**:Hadoop的日志通常位于`logs`目录下,通过配置可以设置日志级别和聚合策略。 9. **...
redis 伪分布式安装 所有步骤,从菜鸟到大神,一步一步走,安装这个后 完全分布式和这个是一洋的道理,都可以实现
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
伪分布式运行模式 这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode),请注意分布式运行中的这几个结点的区别:从分布式...
hadoop2.4.1伪分布式搭建
3. 伪分布式模式安装:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。 4. 分布式模式安装:使用多个...
此伪分布式搭建文件绝对正确,LZ亲自试验过。另,本文件为传智播客中使用文件,请勿用于商业用途,否则后果自负。
在伪分布式模式下,所有的Zookeeper服务都运行在同一台机器上,但每个服务都有独立的数据存储和配置,这样可以模拟多节点的交互行为,而不需要多台物理或虚拟机。 **Zookeeper的主要组件和概念:** 1. **节点...
Linux 下 Hadoop 伪分布式配置 Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,...
- **定义**:Hadoop可以在单个节点上以伪分布式模式运行,这意味着虽然只有一个物理节点,但是不同的Hadoop组件(如NameNode和DataNode)会分别运行在不同的Java进程中。 - **特点**: - 模拟了分布式环境。 - 有...