Hadoop的安装配置
Hadoop所有版本:
http://archive.apache.org/dist/
1.查看防火墙开机启动状态
chkconfig iptables --list |
关掉防火墙开机启动
chkconfig iptables off |
2.修改主机名
2.1 vim /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.122.128 nameNode |
2.2 vim /etc
NETWORKING=yes HOSTNAME=nameNode |
3.安装jdk,并配置环境
export JAVA_HOME=/usr/java/jdk1.7.0_79
|
source /etc/profile (文件生效)
4.hadoop配置步骤:
/usr/hc/hadoop-2.2.0/etc/hadoop
4.1 /usr/hc/hadoop-2.2.0/etc/hadoop/hadoop-env.sh
修改内容:export JAVA_HOME=/usr/java/jdk1.7.0_79
4.2 /usr/hc/hadoop-2.2.0/etc/hadoop core-site.xml
修改内容
<configuration> <!—用来指定HDFS老大(NameNode)的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://nameNode:9000</value> </property> <!—用来指定Hadoop运行时产生文件的存放目录--> <property> <name>hadoop.tmp.dir</name> <value>/usr/hc/hadoop-2.2.0/tmp</value> </property> </configuration> |
4.3 /usr/hc/hadoop-2.2.0/etc/hadoop/hdfs-site.xml
修改内容:
<configuration> <!—指定hDFS保存数据副本的数量(1表示伪分布式)--> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> |
4.4 /usr/hc/hadoop-2.2.0/etc/hadoop/mapred-site.xml
(mapred-site.xml.template重命名为mapred-site.xml)
<configuration> <!--告诉hadoop以后MR运行在YARN上--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> |
4.5 /usr/hc/hadoop-2.2.0/etc/hadoop/yarn-site.xml
<configuration> <!--NodeManager获取数据的方式是shuffle--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定Yarn的老大(ResourceManager)的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>nameNode</value> </property> <!-- Site specific YARN configuration properties -->
</configuration> |
5.将hadoop添加到环境变量中
在/etc/profile修改如下
export JAVA_HOME=/usr/java/jdk1.7.0_79 export HADOOP_HOME=/usr/hc/hadoop-2.2.0 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin |
再刷新
source /etc/profile
6.初始化HDFS (格式化文件系统)
#hadoop namenode -format(过时了,但是依然可用)
hdfs namenode -format |
6.1 启动HDFS和YARN
./start-all.sh
(过时了This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh)
#有个小问题:需要多次输入密码
6.2.可以通过浏览器的方式验证
http://192.168.122.128:50070 (hdfs管理界面)
6.3点击Browse the filesystem 出现文件管理界面
此时什么也没有,因为没有给hdfs存任何文件
http://192.168.122.128:8088 (yarn管理界面)
6.4 测试HDFS
#上传文件到hdfs
hadoop fs -put /usr/local/src/devsoft/jdk-7u79-linux-i586.gz hdfs://nameNode:9000/jdk
将文件jdk上传至hdfs。再从HDFS管理界面点击Browse the filesystem,将会出现如下界面
#从HDFS下载文件到本地
hadoop fs -get hdfs://nameNode:9000/jdk /home/jdk1.7
6.5.测试MR和YARN
/usr/hc/hadoop-2.2.0/share/hadoop/mapreduce目录下
hadoop jar hadoop-mapreduce-examples-2.2.0.jar |
有提示,运行其中一个例子
hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount |
再有提示,
提示需要两个参数,分别是输入和输出参数
先用命令hadoop fs -ls hdfs://nameNode:9000/ 查看hdfs下面存储的文件
hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount hdfs://nameNode:9000/words hdfs://nameNode:9000/wout |
7.配置ssh免登陆
生成ssh免登陆秘钥
ssh-keygen -t rsa |
执行完这个命令后,会生成两个文件id_rsa(私钥) id_rsa.pub(公钥),再将公钥拷贝到要登陆的机器上。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized |
或
ssh-copy-id nameNode |
分布式文件存储系统与HDFS
1.常见的分布式文件系统
GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS
2.HDFS shell
2.1 查看帮助
hadoop fs -help
2.2上传
hadoop fs -put <linux上文件> <hdfs上的路径>
2.3查看文件内容
hadoop fs -cat <hdfs上的路径>
2.4查看文件列表
hadoop fs -ls /
2.5下载文件
hadoop fs -get <hdfs上的路径> <linux上文件路径>
3.HDFS架构
3.1 RPC远程调用,底层走的还是Socket;
4.MapReduce
4.1执行步骤
(1)Map任务 处理
1.1读入输入的文件内容,解析成key,value对。对输入文件的每一行,解析成key,value对。每一个键值对,调用一次map函数;
1.2 写自己的逻辑,对输入的key,value处理,转换成新的key,value输出;
1.3对输出的key,value进行分区;
1.4对不同分区的数据,按照key进行排序、分组。相同的key的value放到一个集合里面。
1.5(可选)分组后的数据进行归约;
(2)Reduce的原理
2.1对多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点;
2.2对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑,对输入的key、value处理,转换成新的key,value输出;
2.3把reduce的输出保存到文件中;
--------------------------------------------待续不断更新-----------------------------------
<!--EndFragment-->
相关推荐
hadoop1.x环境搭建及其入门,如需获取更多hadoop资源
#### 四、Hadoop 2.x 环境搭建 为了能够有效地使用Hadoop 2.x进行大数据处理,需要搭建一个适合的运行环境。具体步骤包括但不限于: 1. **安装Java**:Hadoop依赖于Java运行,因此首先需要在服务器上安装合适的...
### Hadoop2.x HA环境搭建知识点详解 #### 一、HA2.0集群搭建与测试 **准备工作:** 1. **停掉之前的服务:** - 在搭建Hadoop2.x HA集群之前,需要确保所有相关的服务都已经停止运行,避免与新搭建的集群产生...
它包括了集群的搭建、安装步骤、配置以及与Hadoop 2.x的不同之处。特别提到的是,对于那些没有Hadoop知识背景的初学者而言,也有零基础部署的详细教程。 #### 2. Hadoop 3.0改变了哪些默认端口? 文档指出,Hadoop ...
Hadoop是大数据技术中最重要的框架之一,是学习大数据...以企业实际生产环境为背景,增加了更全面、更细致、更硬核的生产调优手册,对源码解析部分进行了全新的扩充和升级,并增加大量企业实战案例! 视频大小: 12.9G
在开始Hadoop 2.x集群的搭建之前,需要确保以下条件已经满足: 1. **操作系统环境**: 所有的服务器节点均应安装Linux操作系统。 2. **Java Development Kit (JDK) 安装**: 每个节点都需要安装JDK,推荐版本为1.6.0_...
通过以上步骤,你已经成功地搭建起了一个完整的Hadoop 2.x环境,接下来可以进一步探索Hadoop在大数据处理中的强大能力,例如数据导入、查询、分析等。记住,持续监控和优化Hadoop集群的性能至关重要,确保系统的稳定...
以上就是Hadoop 2.x集群的安装与配置过程,这是一个基础的大数据环境搭建,后续可以根据需要添加更多节点,或者集成其他大数据组件,如Hive、Spark等,构建更复杂的数据处理平台。在实际生产环境中,还需要考虑高...
### Hadoop 2.x 集群搭建详细指南 #### 一、概述 Hadoop 2.x 是一个基于分布式计算框架的重要版本,它在Hadoop 1.x的基础上进行了大幅度的改进,引入了HDFS High Availability (HA) 和 YARN (Yet Another Resource...
根据提供的文件信息,本文将详细解析Hadoop 2.x集群的搭建步骤以及遇到的问题,特别是针对MapReduce提交Job执行失败的情况进行分析。 ### Hadoop 2.x 集群搭建 #### 一、前期准备 在搭建Hadoop 2.x集群之前,我们...
完成环境搭建后,接下来进入 Hadoop 的源码编译阶段。 ##### 2.1 解压缩 Hadoop 源码包 ```bash tar -zxvf hadoop-2.2.0-src.tar.gz ``` ##### 2.2 修改 POM 文件 由于 Hadoop 2.2.0 的源码中缺少对 jetty-util ...
2. **设置环境变量**: 配置 `HADOOP_HOME` 环境变量指向 Hadoop 的安装目录,并将 `%HADOOP_HOME%\bin` 添加到 `PATH` 变量,确保可以访问 `hadoop` 和 `winutils.exe` 等命令。 3. **配置 Hadoop**: 修改 `hadoop/...
标题"hadop2.7.x_winutils_exe&&hadoop_dll"暗示我们关注的是Hadoop 2.7.x版本在Windows环境下的两个关键组件:`winutils.exe`和`hadoop.dll`。这些文件对于在Windows上配置和运行Hadoop生态系统至关重要。 首先,...
`2.6.5`属于Hadoop 2.x系列,而`3.2.1`是Hadoop 3.x系列的一部分。每个版本都有其特定的改进和特性,选择合适的版本取决于具体项目的需求和兼容性。 `hadoop.dll`是Hadoop在Windows环境下运行的一个关键组件。通常...
本文档详细介绍了如何在Ubuntu系统上搭建Hadoop2.x环境,包括创建用户、安装Java环境、配置SSH无密码登录、安装Hadoop并配置相关核心文件的过程。通过这些步骤,用户可以顺利地在自己的Ubuntu环境中运行Hadoop集群,...
通常,这样的文档会涵盖Hadoop环境配置、集群搭建、分布式文件系统HDFS的设置、MapReduce任务调度以及YARN资源管理等内容。为了给您提供详尽的Hadoop 2.x安装知识,我会基于常规的安装流程来阐述相关知识点。 ...
本文将详细讲解如何在Windows操作系统上搭建和使用Hadoop 2.6.x及2.7.x版本的可执行环境,主要基于提供的压缩包文件:`hadoop2.7.1X64.zip`和`hadoop2.6(x64)V0.2.zip`。 一、Hadoop简介 Hadoop的核心组件包括HDFS...
正确配置和使用这两个文件,可以让你在本地Windows机器上搭建和运行Hadoop 2.7.x分布式计算环境,从而进行大数据处理和分析。务必遵循最佳实践,确保所有依赖和配置都完整无误,以便获得稳定可靠的Hadoop服务。
本压缩包“Hadoop3.1.x_Windows环境整合依赖.rar”是为了帮助用户在Windows操作系统上搭建Hadoop 3.1.x环境而准备的,它包含了所有必要的依赖文件和安装包。 首先,我们要了解Hadoop的两个核心组件:HDFS(Hadoop ...