`

hadoop学习--伪分布式

 
阅读更多
1、以主机网络模式--桥接模式 为例
2、修改主机名
vim /etc/sysconfig/network
#主机名修改为hadoop01

e、修改主机名和IP的映射关系
vim /etc/hosts
			
192.168.1.103	hadoop01

3、关闭防火墙
#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#查看防火墙开机启动状态
chkconfig iptables --list
#关闭防火墙开机启动
chkconfig iptables off

#重启Linux
reboot


修改win8共享


之后win8和linux就可以互ping

=======================配置伪分布式==========================
1、安装jdk、hadoop
tar -zxvf jdk-7u71-linux-x64.tar.gz -C /usr/local
tar -zxvf hadoop-2.6.0.tar.gz -C /cloud/

vim /etc/profile
#在文件最后添加
export JAVA_HOME=/usr/local/jdk1.7
export HADOOP_HOME=/cloud/hadoop-2.6.0
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
#刷新配置
source /etc/profile


2、修改hadoop配置文件
第一个:hadoop-env.sh
#在27行修改
export JAVA_HOME=/usr/local/jdk1.7

第二个:core-site.xml
<configuration>
	<!-- 指定HDFS老大(namenode)的通信地址 -->
	<property>
			<name>fs.defaultFS</name>
			<value>hdfs://hadoop01:9000</value>
	</property>
	<!-- 指定hadoop运行时产生文件的存储路径 -->
	<property>
			<name>hadoop.tmp.dir</name>
			<value>/cloud/hadoop-2.6.0/tmp</value>
	</property>
</configuration>

第三个:hdfs-site.xml
<configuration>
	<!-- 设置hdfs副本数量 -->
	<property>
			<name>dfs.replication</name>
			<value>1</value>
	</property>
</configuration>

第四个:mapred-site.xml.template 需要重命名: mv mapred-site.xml.template mapred-site.xml
<configuration>
	<!-- 通知框架MR使用YARN -->
	<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
	</property>
</configuration>

第五个:yarn-site.xml
<configuration>
	<!-- reducer取数据的方式是mapreduce_shuffle -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>


3、启动
格式化HDFS(namenode)第一次使用时要格式化
hdfs namenode -format

先启动HDFS
sbin/start-dfs.sh

再启动YARN
sbin/start-yarn.sh

验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode


在这个文件中添加linux主机名和IP的映射关系
C:\Windows\System32\drivers\etc\hosts
192.168.1.103 hadoop01
http://hadoop01:50070  (HDFS管理界面)
http://hadoop01:8088 (MR管理界面)

4、测试hdfs
cd /cloud
#上传一个压缩包,后续测试下载测试包是否可用
mkdir testGz
cd testGz
vim jzk.txt #在testGz目录建文件并输入内容
#打包
cd ..
tar -zcvf testGz.tar.gz testGz/
#用hadoop上传文件到hdfs,最后的/必须,表示路径
hadoop fs -put testGz.tar.gz hdfs://hadoop01:9000/或者
hadoop fs -put testGz.tar.g /

上传结果如下图:

也可以用命令行下载测试
#下载文件到/home目录并改名为testGz.tar.gz进行解包测试
hadoop fs -get hdfs://hadoop01:9000/testGz /home/testGz.tar.gz
cd /home
tar -zxvf testGz.tar.gz 


5、允许mapReduce进行简单测试
cd /cloud
vim words #输入如下内容
hello jzk
hello wyq
hello jdd
hello jdd
hello jdd
#上传到hdfs
hadoop fs -put words hdfs://hadoop01:9000/words

#进入mapreduce目录使用hadoop-mapreduce-examples-2.6.0.jar进行统计字符个数的统计
cd /cloud/hadoop-2.6.0/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount hdfs://hadoop01:9000/words hdfs://hadoop01:9000/wcwords
#计算完成通过wcwords查看结果


6、配置ssh免登陆
192.168.1.103免登陆到192.168.1.104
A、192.168.1.103上操作
cd ~/.ssh/
ssh-keygen -t rsa #4个回车,生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

B、将103上的公钥)拷贝到104,
ssh-copy-id 192.168.1.104
#ssh-copy-id -i jdd@10.1.18.22
#在104的机器~/.ssh/目录下面会生成authorized_keys文件,里面有103的公钥

#####################################
所以在伪分布式启动hadoop的时候只需要执行
ssh-copy-id localhost
即:本机对本机免登陆
  • 大小: 26.1 KB
  • 大小: 12.2 KB
  • 大小: 53.9 KB
分享到:
评论

相关推荐

    Hadoop2.7.5-HBase1.2.6伪分布式安装

    伪分布式安装是在单台机器上模拟多节点环境,既保留了分布式系统的基本特性,又降低了硬件需求,是学习和测试Hadoop及HBase的理想方式。以下是具体的步骤: 1. **环境准备**:确保你的机器上安装了Java环境,Hadoop...

    Hadoop技术-Hadoop伪分布式安装.pptx

    Hadoop技术-Hadoop伪分布式安装 Hadoop技术是当前大数据处理和存储领域中最流行的技术之一,Hadoop伪分布式安装是Hadoop技术中的一个重要组件。本文将详细介绍Hadoop伪分布式安装的步骤和配置过程。 一、Hadoop伪...

    windows配置hadoop-1.1.0的伪分布式环境

    在伪分布式环境中,Hadoop在单台机器上模拟分布式运行,所有进程都在同一个Java虚拟机(JVM)中运行,这对于学习和测试非常方便。 配置Hadoop 1.1.0的伪分布式环境主要包括以下几个步骤: 1. **环境变量配置**: ...

    hadoop2.6 centos6.5 伪分布式环境部署 实例

    Hadoop 2.6 伪分布式环境部署实践 Hadoop 是一个开源的大数据处理框架,由 Apache 维护。它提供了一个可靠、高效、可扩展的分布式计算框架,广泛应用于数据处理、数据挖掘、机器学习等领域。本文将详细介绍如何在 ...

    【IT十八掌徐培成】Hadoop第01天-04.hadoop配置独立模式-伪分布式.zip

    6. "Hadoop第01天-04.hadoop配置独立模式-伪分布式.avi"视频文件可能包含徐培成老师的详细演示和讲解,帮助用户直观地了解配置过程和解决常见问题,是学习和实践Hadoop配置的宝贵资源。 总之,理解并掌握Hadoop的...

    hadoop伪分布式安装.pdf

    ### Hadoop伪分布式安装知识点详解 #### 一、Hadoop伪分布式概述 Hadoop是一种能够处理海量数据的大规模分布式计算框架。它通过将任务分解到多个计算机节点上并行处理来提高数据处理效率。Hadoop支持多种运行模式,...

    Hadoop-2.7.1分布式安装手册

    2. 伪分布式模式:在一台机器上模拟多节点环境,每个Hadoop组件(如NameNode、DataNode、ResourceManager、NodeManager等)都以独立Java进程的方式运行。配置文件需修改`etc/hadoop/hadoop-env.sh`以指定Java路径,...

    hadoop伪分布式集群搭建

    在实际应用中,Hadoop通常运行在由多台服务器组成的集群环境中,但为了方便学习和测试,可以搭建一个伪分布式集群(Pseudo Distributed Cluster)。伪分布式集群是指所有Hadoop守护进程都在同一台机器上运行,每个...

    大数据分析与内存计算-Spark安装以及Hadoop操作-实验报告

    - **定义**:Hadoop 伪分布式模式是指在一个单节点集群中模拟分布式环境,适合于开发和测试。 - **安装步骤**: 1. **环境准备**:确保Linux虚拟机已经安装并配置好JDK。 2. **下载Hadoop安装包**:可以从官方网站...

    Hadoop3.1.3安装和单机/伪分布式配置

    ### Hadoop3.1.3安装与单机/伪分布式配置知识点详解 #### 一、实验目的和要求 - **掌握Hadoop3.1.3的安装与配置**:包括单机模式和伪分布式模式。 - **理解Hadoop的工作原理**:特别是其在不同模式下的运行机制。 ...

    Linix下Hadoop的伪分布式配置

    在Linux环境下配置Hadoop的伪分布式模式是学习和测试Hadoop功能的重要步骤。...但请记住,这只是Hadoop学习旅程的起点,实际生产环境中还需要考虑更多因素,如安全性、性能优化、容错性和集群管理。

    大数据技术之-03-Hadoop学习-Hadoop运行模式及常见错误及解决方案.docx

    在本文中,我们将详细介绍 Hadoop 的三种运行模式:本地运行模式、伪分布式运行模式和完全分布式运行模式,并提供了相应的案例和解决方案。 1. 本地运行模式 本地运行模式是 Hadoop 的默认运行模式,在该模式下,...

    shell脚本配置Hadoop伪分布式.zip

    伪分布式模式是在单个节点上模拟分布式环境,这对于学习和测试Hadoop功能非常有用,无需复杂的多节点集群设置。 1. **Hadoop-2.8.1**: 这是Hadoop的特定版本,2.8.1是Hadoop 2.x系列的一个稳定版本。这个版本提供了...

    hadoop伪分布式配置教程.doc

    通过以上步骤,你将在Ubuntu系统上成功配置一个Hadoop的伪分布式环境,可用于学习、开发或测试Hadoop相关应用。务必确保每个步骤都按要求完成,避免出现配置错误导致Hadoop无法正常工作。在实际操作中,你可能需要...

    Hadoop单节点伪分布式搭建中文版

    【Hadoop 单节点伪分布式搭建】是一种适合学习和测试Hadoop环境的简易方式,无需配置复杂的多节点集群。在单节点伪分布式模式下,所有Hadoop服务都在同一个节点上以独立Java进程的方式运行,模拟分布式环境的行为,...

    【IT十八掌徐培成】Hadoop第01天-05.hadoop伪分布式2.zip

    【IT十八掌徐培成】Hadoop第01天-05.hadoop伪分布式2.zip 这个压缩包文件主要涵盖了Hadoop技术中的一个重要概念——伪分布式模式。在深入讲解这个主题之前,我们先来理解一下Hadoop是什么。Hadoop是一个开源的、基于...

Global site tag (gtag.js) - Google Analytics