`

Hadoop使用笔记三 --hadoop环境安装问题汇总

阅读更多
注:linux服务器的用户名/密码:root/lijian

1.准备Linux环境 
1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok
回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:192.168.8.100 子网掩码:255.255.255.0 -> 点击确定
在虚拟软件上 --My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok
1.1修改主机名
vim /etc/sysconfig/network
		
		NETWORKING=yes
		HOSTNAME=itcast01    ###


1.2修改IP
两种方式:
第一种:通过Linux图形界面进行修改(强烈推荐)
			进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual -> 点击add按钮 -> 添加IP:192.168.8.118 子网掩码:255.255.255.0 网关:192.168.1.1 -> apply
	
		第二种:修改配置文件方式(屌丝程序猿专用)
			vim /etc/sysconfig/network-scripts/ifcfg-eth0
			
			DEVICE="eth0"
			BOOTPROTO="static"               ###
			HWADDR="00:0C:29:3C:BF:E7"
			IPV6INIT="yes"
			NM_CONTROLLED="yes"
			ONBOOT="yes"
			TYPE="Ethernet"
			UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"
			IPADDR="192.168.8.118"           ###
			NETMASK="255.255.255.0"          ###
			GATEWAY="192.168.8.1"            ###


1.3修改主机名和IP的映射关系
vim /etc/hosts
			
		192.168.8.118	itcast01


1.4关闭防火墙
#查看防火墙状态
		service iptables status
		#关闭防火墙
		service iptables stop
		#查看防火墙开机启动状态
		chkconfig iptables --list
		#关闭防火墙开机启动
		chkconfig iptables off
	

1.5重启Linux
reboot

2.安装JDK
2.1上传

2.2解压jdk
#创建文件夹
		mkdir /usr/java
		#解压
		tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/


2.3将java添加到环境变量中
vim /etc/profile
		#在文件最后添加
		export JAVA_HOME=/usr/java/jdk1.7.0_55
		export PATH=$PATH:$JAVA_HOME/bin
	
		#刷新配置
		source /etc/profile
		

3.安装hadoop2.4.1
注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop
伪分布式需要修改5个配置文件
3.1配置hadoop
第一个:
hadoop-env.sh
		vim hadoop-env.sh
		#第27行
		export JAVA_HOME=/usr/java/jdk1.7.0_65


第二个:
core-site.xml
		<!-- 制定HDFS的老大(NameNode)的地址 -->
		<property>
			<name>fs.defaultFS</name>
			<value>hdfs://itcast01:9000</value>
		</property>
		<!-- 指定hadoop运行时产生文件的存储目录 -->
		<property>
			<name>hadoop.tmp.dir</name>
			<value>/itcast/hadoop-2.4.1/tmp</value>
        </property>


第三个:
hdfs-site.xml
		<!-- 指定HDFS副本的数量 -->
		<property>
			<name>dfs.replication</name>
			<value>1</value>
        </property>

第四个:
mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
		mv mapred-site.xml.template mapred-site.xml
		vim mapred-site.xml
		<!-- 指定mr运行在yarn上 -->
		<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
        </property>


第五个:
yarn-site.xml
		<!-- 指定YARN的老大(ResourceManager)的地址 -->
		<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>itcast01</value>
        </property>
		<!-- reducer获取数据的方式 -->
        <property>
			<name>yarn.nodemanager.aux-services</name>
			<value>mapreduce_shuffle</value>
        </property>


3.2将hadoop添加到环境变量

vim /etc/proflie
		export JAVA_HOME=/usr/java/jdk1.7.0_65
		export HADOOP_HOME=/itcast/hadoop-2.4.1
		export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

	source /etc/profile


3.3格式化namenode(是对namenode进行初始化)
hdfs namenode -format (hadoop namenode -format)


3.4启动hadoop
先启动HDFS
		sbin/start-dfs.sh
		
		再启动YARN
		sbin/start-yarn.sh


3.5验证是否启动成功
使用jps命令验证
		27408 NameNode
		28218 Jps
		27643 SecondaryNameNode
		28066 NodeManager
		27803 ResourceManager
		27512 DataNode
	
		http://192.168.8.118:50070 (HDFS管理界面)
		http://192.168.8.118:50030 (MR管理界面)
		

4.配置ssh免登陆
#生成ssh免登陆密钥
#进入到我的home目录
	cd ~/.ssh

	ssh-keygen -t rsa (四个回车)
	执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
	将公钥拷贝到要免登陆的机器上
	ssh-copy-id localhost


分享到:
评论

相关推荐

    Hadoop学习笔记.pdf

    例如,可以配置hadoop.log.dir来指定日志的存储位置,这有助于开发者在遇到问题时迅速定位和排查问题。 最后,Hadoop是一个不断演进的技术栈,随着版本的更新,新的特性和组件也会被添加进来。学习Hadoop不仅要关注...

    hadoop学习笔记(三)

    在本篇"Hadoop学习笔记(三)"中,我们将探讨如何使用Hadoop的MapReduce框架来解决一个常见的问题——从大量数据中找出最大值。这个问题与SQL中的`SELECT MAX(NUMBER) FROM TABLE`查询相似,但在这里我们通过编程...

    hadoop- w3c 学习笔记

    Hadoop 包含三个核心组件:Hadoop 分布式文件系统(HDFS)、YARN(Yet Another Resource Negotiator)和 MapReduce。HDFS 是一个分布式文件系统,它将大型文件分割成多个块并存储在不同的节点上,每个块通常默认为 ...

    Hadoop知识点笔记

    Hadoop知识点笔记 Hadoop是一种基于分布式计算的数据处理框架,由 Doug Cutting 和 Mike Cafarella 于2005年创建。Hadoop的主要组件包括HDFS(Hadoop Distributed File System)、YARN(Yet Another Resource ...

    Hadoop学习网址

    - **安装指南**: 提供了详细的步骤来指导用户如何在本地或集群环境中安装和配置Hadoop。 - **API文档**: 针对Hadoop的各种API提供详细的说明,包括Java API文档,这对于开发者来说是非常宝贵的资源。 - **最佳...

    Hadoop Hive入门学习笔记.pdf

    ### Hadoop Hive 入门学习笔记 #### 一、Hadoop Hive 概述 Hadoop Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,使得 Hadoop 上的数据可以被...

    尚硅谷大数据技术之Hadoop(MapReduce)1

    【尚硅谷大数据技术之Hadoop(MapReduce)1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型,被广泛应用于大数据处理领域。Hadoop将其作为核心组件,实现了分布式计算的功能...

    Hadoop阶段初识学习笔记

    2. **日志处理**:很多网站和应用程序使用Hadoop处理海量的日志数据,以提取有价值的信息。 3. **搜索引擎**:Hadoop可以用来构建大规模的搜索引擎后端,如处理网页索引、排名算法等。 4. **科学计算**:在科学研究...

    hadoop文档

    - **hadoop笔记.ppt**:这可能是一个PPT形式的学习笔记,整理了Hadoop的关键概念、核心组件的工作原理以及一些实例分析。 总之,Hadoop作为一个强大的分布式计算框架,对于大数据处理和分析有着至关重要的作用。...

    大数据笔记汇总

    大数据 笔记汇总 hadoop学习笔记

    Hive操作笔记(呕心沥血制作)

    - 确保安装机器上有 Hadoop 环境,因为 Hive 需要与 Hadoop 集群交互。 - 处理可能出现的 Jline、Metastore 错误等。 - 根据机器配置调整 YARN 的内存分配。 - 启动 Hadoop 集群和 Hive 服务。 - **错误处理**...

    大数据Hadoop

    - **功能**:Hive是一种数据仓库工具,提供类似SQL的查询语言HQL,简化了非程序员对Hadoop的使用。 - **优势**:易于上手;支持复杂的查询操作;可扩展性强。 ##### 3. Pig - **用途**:Pig是一种高层数据流语言和...

    hadoop文件资源包,包含图片

    在Hadoop的环境中,可能会涉及到诸如core-site.xml、hdfs-site.xml和mapred-site.xml等配置文件的编辑,这些文件控制着Hadoop集群的行为。 "document"可能包含更深入的技术文档,比如Hadoop的原理介绍、安装指南、...

    HBase自学笔记

    以上就是HBase自学笔记中的关键知识点总结,涵盖了HBase的基本概念、与其他Hadoop组件的关系、存储机制、架构以及环境搭建等方面。通过这些知识点的学习,可以帮助我们更好地理解和掌握HBase的核心技术和应用场景。

    大数据学习笔记汇总指南

    这份“大数据学习笔记汇总指南”涵盖了大数据技术栈中的关键组件,包括Hadoop、Hive、Spark、Storm、Flink以及HBase。让我们逐一深入探讨这些技术及其在大数据生态系统中的作用。 一、Hadoop Hadoop是Apache基金会...

    Hadoop-Trainer:这是我的 hadoop trainer 文件夹。 它包含我在课堂上使用的说明和源代码

    7. **Hadoop配置与安装**:学习如何在本地或集群环境中安装和配置Hadoop环境。 8. **数据输入与输出**:理解如何将数据导入HDFS,以及从Hadoop系统中导出处理结果。 9. **错误处理与容错**:了解Hadoop如何处理节点...

    2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf

    Hive是一种基于Hadoop的大数据仓库工具,可以将结构化的数据文件映射为一个表,并提供类SQL查询功能。Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高,使得Hive适合用于离线的...

    hive-笔记.docx

    Hive 是一个基于 Hadoop 的数据仓库工具,它为海量数据集提供了便捷的数据汇总、分析和查询能力。Hive 的设计初衷是解决直接使用 Hadoop MapReduce 进行复杂查询时面临的困难,如学习成本高、开发周期短和实现复杂...

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...

Global site tag (gtag.js) - Google Analytics