1、准备HADOOP运行环境
下载解压并拷贝到Cygwin的用户主目录
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
1.x版本有BUG,参考:
https://issues.apache.org/jira/browse/HADOOP-7682
https://issues.apache.org/jira/browse/HADOOP-8274
BUG修复请参考:
http://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin
在/home/ysc/.bashrc 中追加:
export JAVA_HOME=/home/ysc/jdk1.7.0_17
export PATH=/home/ysc/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH
在hadoop-0.20.2/conf/hadoop-evn.sh中追加
export JAVA_HOME=/home/ysc/jdk1.7.0_17
export HADOOP_LOG_DIR=/tmp/logs
创建符号链接
mklink /D C:\tmp C:\cygwin\tmp
重新登录就生效
ssh localhost
which hadoop
2、配置HADOOP运行参数
vi conf/core-site.xml
<property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property>
vi conf/hdfs-site.xml
<property> <name>dfs.replication</name> <value>1</value> </property>
vi conf/mapred-site.xml
<property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> <property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value> </property> <property> <name>mapred.tasktracker.reduce.tasks.maximum</name> <value>4</value> </property>
3、格式化名称节点并启动集群
hadoop namenode -format
4、启动集群并查看WEB管理界面
start-all.sh
访问http://localhost:50030可以查看 JobTracker 的运行状态
访问http://localhost:50060可以查看 TaskTracker 的运行状态
访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等
5、停止集群
stop-all.sh
停止集群
相关推荐
伪分布式模式将守护进程部署在单个机器上,但是每个守护进程都运行在不同的JVM进程中,模拟集群的运行环境。 从给定文件内容来看,我们首先需要准备的有以下基本软件: 1. VMware虚拟机软件:作为虚拟化平台,用于...
注意,这只是一个基础的Hadoop单机伪分布式环境,如果你想要模拟更接近真实生产环境的分布式集群,还需要设置多个节点,配置网络和NameNode高可用等。但在学习和测试阶段,单机伪分布式环境足够使用。
3. 伪分布式模式安装:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。 4. 分布式模式安装:使用多个...
需要注意的是,Hadoop伪分布式集群虽然只在一台机器上模拟了多个节点,但它能帮助开发者理解Hadoop的架构和基本工作原理,是单机学习和测试Hadoop的常用方式。然而,在生产环境中,通常会部署完全分布式集群,以实现...
本篇将详细介绍如何在本地计算机上搭建Hadoop的伪分布式集群环境,这非常适合初学者进行学习和测试。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由两个核心组件构成:HDFS(Hadoop Distributed File System)...
本教程将指导你如何在不同的模式下安装和配置 Hadoop,包括单机模式、伪分布式模式和分布式集群模式。 首先,我们从**SSH免密登录**开始。SSH (Secure Shell) 是用于远程访问Linux主机的安全协议。在Hadoop环境中,...
通过以上步骤,我们可以成功地在一个由三台主机组成的集群上部署了一个Hadoop伪分布式环境。这种模式虽然不是完全意义上的分布式,但它提供了足够的灵活性来测试和验证Hadoop的各种功能,同时也能够模拟出实际生产...
实验主题:武汉理工大学云计算应用 - Hadoop单机模式与伪分布式 **实验目的与意义:** 本次实验旨在让学生理解并掌握Hadoop的两种基础运行模式:单机模式和伪分布式模式。Hadoop是云计算领域的重要组件,主要用于大...
在本文中,我们将详细介绍如何在Ubuntu 12.04上安装Hadoop 1.0.4的伪分布式模式。首先,我们来看看安装环境和基本概念。...遵循上述步骤,你可以在本地环境中成功搭建起一个运行中的Hadoop伪分布式集群。
为了更好地理解和掌握Hadoop的工作原理,通过在单机上模拟实现Hadoop伪分布式运行是一种非常有效的学习方法。本文将详细介绍如何在单机上搭建Hadoop伪分布式环境,并通过运行经典的WordCount示例来理解Hadoop的基本...
Hadoop 伪分布式环境配置是指在单机上模拟 Hadoop 分布式环境的配置过程。这种配置方式可以模拟分布式环境,方便开发者测试和调试 Hadoop 程序。下面是 Hadoop 伪分布式环境配置的详细步骤和相关知识点: 一、环境...
本教程将详细介绍如何在Ubuntu 12.10操作系统上安装Hadoop的单机版和集群版。首先,确保你已经在VMware虚拟机上安装了Ubuntu 12.10系统,并准备安装Hadoop稳定版1.0.4。 **单机版安装步骤:** 1. **下载与解压...
伪分布运行模式是在单台服务器上模拟Hadoop的完全分布模式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,所有守护进程(NameNode、DataNode、ResourceManager、NodeManager、...
Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单...
这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode),请注意分布式运行中的这几个结点的区别:从分布式存储的角度来说,...
2. **Hadoop单机版安装**:为单台机器快速安装Hadoop,适合个人学习。 3. **Hadoop伪分布式安装**:在一台机器上模拟多节点环境,方便测试和调试。 4. **Hadoop完全分布式集群安装**:在多台机器上搭建真正的分布式...