1、hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop
分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google
MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的
分布式基础架构。
对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是
由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系
统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。
MapReduce框架是由一个单独运行在主节点上的JobTracker 和运行在每个集群从节点的
TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同
的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由
主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就
会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构
的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和
任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce
在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,
完成了Hadoop分布式集群的主要任务。
2、hadoop测试环境安装情况
四台虚拟机,1个Master,3个Salve,节点之间可以互相ping通。
master 192.168.1.2
salve1 192.168.1.3
salve2 192.168.1.4
salve3 192.168.1.5
操作系统使用centos6.0
3、网络配置
查看当前机器的名称
hostmane
发现机器名称不对,修改配置文件“/etc/sysconfig/network”,
修改其中的"HOSTNAME",设定形式:设定值=值
修改方式如下:
vi /etc/sysconfig/network
将HOSTNAME修改为
HOSTNAME=Master.Hadoop
备注:
NETWORKING 是否利用网络
GATEWAY 默认网关
IPGTEWAYDEV 默认网关的网卡名
HOSTNAME 主机名
DOMAIN 域名
修改当前机器IP
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文件),
ifcfg-eth0默认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
备注:
EVICE 接口名(设备,网卡)
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文
认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
这里面的文件是相当重要的
设定形式:设定值=值
设定项目项目如下:
D
BOOTPROTO IP的配置方法(static:固定IP,dhcpHCP,none:手动)
HWADDR MAC地址
ONBOOT 系统启动的时候网络接口是否有效(yes/no)
TYPE 网络类型(通常是Ethemet)
NETMASK 网络掩码
IPADDRIP地址
IPV6INIT IPV6是否有效(yes/no)
GATEWAY 默认网关IP地址
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改
IPADDR=192.168.1.2
GATEWAY=192.168.1.1
DNS1=202.113.222.123
ifconfig查看修改后结果
配置Hosts文件
我们要测试俩台机器之间是否联通,一般是ping机器的IP,如果想ping机器的名字
而不是机器的IP,就需要修改Hosts文件。
vi /etc/hosts
增加 Master.Hadoop
ping Master.Hadoop
二、Hadoop安装
1、下载jdk.tar和hadoop1.0.tar
将这俩个文件通过FTP上传到linux
2、SSH无密码验证配置
Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode
是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在
节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥
认证的形式,这样NameNode使用SSH无密码登陆并启动DataName进程,
同样原理,DataNode上也能使用SSH无密码登录到NameNode。
相关推荐
这个插件允许开发者直接在IDE中对Hadoop集群进行操作,如创建、编辑和运行MapReduce任务,极大地提升了开发效率。本文将详细介绍这两个版本的Hadoop Eclipse Plugin——1.2.1和2.8.0。 首先,Hadoop-Eclipse-Plugin...
尽管有一些额外的挑战,但通过正确配置和理解这些核心概念,你可以在Windows上构建一个功能完备的Hadoop集群。这对于Windows开发者和测试环境来说非常有价值,他们可以在本地系统上进行Hadoop相关的开发和实验,而...
Hadoop-Eclipse-Plugin 3.1.1是该插件的一个特定版本,可能包含了一些针对Hadoop 3.x版本的优化和修复,以确保与Hadoop集群的兼容性和稳定性。 6. **使用场景**: 这个插件主要适用于大数据开发人员,特别是那些...
Ubuntu虚拟机HADOOP集群搭建eclipse环境 hadoop-eclipse-plugin-3.3.1.jar
Hadoop-eclipse-plugin-2.7.2正是为了解决这个问题,它为Eclipse提供了与Hadoop集群无缝对接的功能,使得开发者可以在熟悉的Eclipse环境中编写、调试和运行Hadoop MapReduce程序。 首先,让我们深入了解Hadoop-...
Hadoop-eclipse-plugin是Hadoop生态系统中的一个重要工具,它允许开发者使用Eclipse IDE直接在Hadoop集群上开发、测试和部署MapReduce程序。这个插件极大地简化了Hadoop应用程序的开发流程,使得Java开发者能够利用...
本文将深入探讨如何使用Eclipse IDE结合hadoop-eclipse-plugin-2.6.0.jar插件,实现在Windows环境下进行远程连接到Hadoop集群,尤其适用于64位操作系统。 首先,我们要理解Hadoop的核心概念。Hadoop是由Apache基金...
此外,这种 JAR 文件便于分发和执行,因为用户只需要提交这一个 JAR 到集群,而无需关心内部的依赖关系。 这个特定版本的 Flink Shaded Hadoop Uber JAR 针对的是 Hadoop 2.7.5,这意味着它兼容这个版本的 Hadoop ...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/...行不行,不行的话,重启一下hadoop 集群
通过该插件,开发者可以将Java代码编写、编译和测试的流程无缝集成到熟悉的Eclipse界面中,无需离开IDE就能对Hadoop集群进行操作。 在安装Hadoop-Eclipse-Plugin-2.6.4.jar之后,开发者可以通过Eclipse的"New -> ...
描述中提到的"Mac下编译的hadoop-lzo"意味着这个版本是在Mac操作系统上编译构建的,这确保了在Mac环境下运行Hadoop集群时,可以顺利集成和使用这个压缩库。Hadoop-LZO的源代码编译通常涉及到Java开发环境(JDK)、...
2. 配置集群信息:如果你的Hadoop集群不是本地模式,需要在"Cluster Configuration"中添加集群的配置,包括JobTracker和NameNode的地址。 三、创建Hadoop项目 有了插件支持,创建Hadoop MapReduce项目变得非常简单...
3. **作业提交**:开发者可以直接在Eclipse中编译、打包和提交MapReduce作业到Hadoop集群,无需手动执行命令行操作,极大地简化了开发流程。 4. **调试支持**:插件提供了强大的调试功能,可以在本地模拟运行...
6. **格式化NameNode**: 运行`hdfs namenode -format`命令,对NameNode进行格式化,这是启动Hadoop集群的第一步。 7. **启动Hadoop服务**: 使用`start-dfs.cmd`和`start-yarn.cmd`命令启动Hadoop的DataNode、...
这个JAR文件需要添加到Hadoop的类路径(classpath)中,以便Hadoop集群能够识别并使用LZO压缩格式。 在实际使用Hadoop LZO时,我们需要进行以下步骤: 1. 安装和配置:首先,下载hadoop-lzo-0.4.21-SNAPSHOT.jar,...
2. 网络通信库:Hadoop Common包含了一套高效的网络通信库,如Netty,用于节点间的高速数据传输,确保了Hadoop集群的数据交换效率。 3. 容错机制:Hadoop Common提供了诸如检查点、心跳检测等容错机制,增强了整个...
这些命令通过Hadoop的shell界面提供,使得在Windows上与远程HDFS集群的交互变得简单。 5. **安全性与认证**: 在Hadoop 3.1.3中,安全性是重要的考量。如果HDFS集群启用了Kerberos认证,客户端也需要相应的配置,...
3. **Hadoop配置**:通过使用此连接器,Flink可以直接读取Hadoop的配置文件,无需在Flink作业中重复配置。这简化了跨系统的工作流,并确保了配置的一致性。 4. **数据转换**:Flink支持将Hadoop的MapReduce作业转换...
这个压缩包包含了运行Hadoop集群所必需的一些基础工具和库文件,对于理解和使用Hadoop至关重要。 Hadoop Common是Hadoop生态系统的基础,它为所有其他Hadoop模块提供了通用服务,包括文件系统操作、网络通信、安全...
6. **格式化NameNode**:在命令行中使用`hdfs namenode -format`命令对NameNode进行格式化,这是启动Hadoop集群的必要步骤。 7. **启动Hadoop**:使用`start-dfs.cmd`和`start-yarn.cmd`命令启动Hadoop的DataNodes...