sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
- <configuration>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/usr/local/hadoop/tmp</value>
- <description>Abase for other temporary directories.</description>
- </property>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml //此项不必要
- <configuration>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- </configuration>
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- </configuration>
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>file:/usr/local/hadoop/dfs/name</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>file:/usr/local/hadoop/dfs/data</value>
- </property>
- <property> //这个属性节点是为了防止后面eclopse存在拒绝读写设置的
- <name>dfs.permissions</name>
- <value>false</value>
- </property>
- </configuration>
sudo gedit /usr/local/hadoop/etc/hadoop/
masters 添加:localhost
sudo gedit /usr/local/hadoop/etc/hadoop/
slaves
添加:localhost
关于配置的一点说明:上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行,不过有个说法是如没有配置 hadoop.tmp.dir 参数,此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在每次重启后都会被干掉,必须重新执行 format 才行(未验证),所以伪分布式配置中最好还是设置一下。
配置完成后,首先在 Hadoop 目录下创建所需的临时目录:
- cd /usr/local/hadoop
- mkdir tmp dfs dfs/name dfs/data
chmod -R 777 hadooop 2.6.0 //用于对创建文件的权限赋值
接着初始化文件系统HDFS。成功的话,最后的提示如下,
- bin/hdfs namenode -format
Exitting with status 0
表示成功,Exitting with status 1:
则是出错。
sudo gedit /usr/local/hadoop-2.6.0/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jvm/jdk1.7.0_75
- sbin/start-dfs.sh
- sbin/start-yarn.sh
Unable to load native-hadoop library for your platform这个提示,解决方式:
1、重新编译源码后将新的lib/native替换到集群中原来的lib/native
2、修改hadoop-env.sh ,增加
export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib:$HADOOP_PREFIX/lib/native"Namenode information:http://localhost:50070来查看Hadoop的信息。
All Applications:http://http://2xx.81.8x.1xx:8088/,将其中的2xx.81.8x.1xx替换为你的实际IP地址。
运行例子:
1.先在hdfs上建个文件夹
bin/hdfs dfs -mkdir /readme
2.上传一些文件:bin/hdfs dfs -put README.txt /readme
把README.txt文件上传到hdfs的/readme中
3.执行指令
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /readme readmeout
4.查看结果
bin/hdfs dfs -cat /readmeout/*
(ECCN) 1
(TSU) 1
(see 1
5D002.C.1, 1
740.13) 1
<http://www.wassenaar.org/> 1
Administration 1
Apache 1
BEFORE 1
BIS 1
Bureau 1
Commerce, 1
Commodity 1
Control 1
Core 1
Department 1
ENC 1
Exception 1
Export 2
For 1
Foundation 1
Government 1
Hadoop 1
Hadoop, 1
Industry 1
Jetty 1
License 1
Number 1
Regulations, 1
SSL 1
Section 1
Security 1
See 1
Software
也可以将运行结果取回到本地。
rm -R ./output
bin/hdfs dfs -get output output
cat ./output/*
可以看到,使用bin/hdfs dfs -命令
可操作分布式文件系统, 如
bin/hdfs dfs -ls /user/hadoop # 查看`/user/hadoop`中的文件
bin/hdfs dfs -rm -R /user/hadoop/input/* # 删除 input 中的文件
bin/hdfs dfs -rm -R /user/hadoop/output # 删除 output 文件夹
问题1:找不到配置文件etc/hadoop,是SSH服务没有启动
问题2:出现运行异常,需要注意所采用的服务器文件路径是否正确
结果查看: 查看集群概况:http://localhost:8088/cluster
查看运行结果:http://localhost:50070/dfshealth.html#tab-overview
相关推荐
HBase伪分布式环境搭建及数据操作测试 本人成功搭建伪分布式的操作以及截图
在本文中,我们将详细介绍如何在单台机器上搭建 Zookeeper 的伪分布式集群。伪分布式集群意味着在同一台机器上运行多个 Zookeeper 实例,它们各自独立并模拟分布式环境的行为。 首先,确保你的服务器已经安装了 JDK...
【伪分布式搭建Hadoop详解】 在分布式计算领域,Hadoop是一个广泛使用的开源框架,它允许在廉价硬件上处理大规模数据。然而,对于学习和测试目的,通常不需要完整的分布式环境。这就是“伪分布式”模式发挥作用的...
### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...
### Hadoop安装教程:单机与伪分布式配置详解 #### 一、引言 Hadoop是一种开源的大数据处理框架,广泛应用于数据存储和处理场景。本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式...
2、大数据环境-安装Hadoop2.5.2伪分布式傻瓜教程 原创
"ubuntu16.04搭建伪分布式文档" 本文档将指导您在Ubuntu 16.04上搭建伪分布式 Hadoop 环境。Hadoop 是一个分布式计算框架,可以处理大量数据。下面将详细介绍 Hadoop 的部署模式、单机安装、伪分布式配置和 ...
### hadoop cdh版本伪分布式集群搭建图文教程详解 #### 一、引言 随着大数据技术的发展,Hadoop已成为处理大规模数据集的核心工具之一。CDH(Cloudera Distribution Including Apache Hadoop)作为Hadoop的一个发行...
虚拟机Ubuntu下hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)非常详细的安装配置指南
这个压缩包文件“hadoop 2.X 伪分布式配置文件”是为在单个机器上模拟Hadoop集群的伪分布式环境而设计的。这种环境对于学习、测试和调试Hadoop组件非常有用,因为它避免了实际分布式环境中的复杂性,同时保留了主要...
Hadoop安装教程_单机/伪分布式配置_Hadoop2.7.1/Ubuntu 16.04 本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结...
伪分布式运行模式 这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点(NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode),请注意分布式运行中的这几个结点的区别:从分布式...
redis 伪分布式安装 所有步骤,从菜鸟到大神,一步一步走,安装这个后 完全分布式和这个是一洋的道理,都可以实现
### 伪分布式Hadoop的配置信息 在深入探讨伪分布式Hadoop配置之前,我们先来了解下何为伪分布式模式。伪分布式模式是指Hadoop集群的所有守护进程运行在同一台机器上,但它们仍然通过网络(通常是在不同的端口上)...
此伪分布式搭建文件绝对正确,LZ亲自试验过。另,本文件为传智播客中使用文件,请勿用于商业用途,否则后果自负。