步骤一:安装java,1.6版本的jdk,否则会导致hadoop无法运行。
步骤二:多机集群ssh配置(实现一台机器可以向其他所有机器ssh无密码登录)
步骤三:安装hadoop
将hadoop-0.21.0.tar.gz解压到andychen用户目录下, 修改其中的conf/hadoop-env.sh文件, 这里主要配置JAVA_HOME环境变量。
在其中设置 JAVA_HOME 环境变量:export JAVA_HOME=”/usr/java/jdk1.6.0_26”
配置hadoop:
1、core-site.xml文件配置如下:
<property>
<name>fs.default.name</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop/hadoop-${user.name}</value>
</property>
2、hdfs-site.xml文件配置如下:
<property>
<name>dfs.name.dir</name>
<value>/home/andychen/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/andychen/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
其中dfs.name.dir配置namenode节点的目录,dfs.data.dir配置datanode节点的目录。
3、mapred-site.xml文件配置如下:
<property>
<name>mapred.job.tracker</name>
<value>node1:9001</value>
</property>
配置jobtracker
4、masters文件配置如下:
node1
5、slaves文件配置如下:
node2
node3
完成hadoop的配置之后,将其拷贝到node2和node3的andychen目录中。通过scp命令拷贝。
步骤四:使用hadoop
1、格式化一个分布式文件系统。
在node1节点,进入hadoop根目录,执行如下命令:
bin/hadoop namenode -format
2、启动hadoop。
执行如下命令:
bin/start-all.sh
这样在node1节点用 jps命令可以看到如下三个进程:
namenode、secondary namenode、jobtracker
在node2和node3用 jps命令看到如下两个进程:
datanode和tasktracker
3、拷贝测试数据到hdfs中
首先建立一个test-in目录,将英文文本文件存入其中,可以是多个文本文件。
然后执行如下命令:
bin/hadoop fs -put test-in input
将test-in目录中的文件put到hdfs中的input目录中。
4、执行wordcount例子程序
bin/hadoop jar hadoop-mapred-examples-0.21.0.jar input output
其中hdfs中的input目录中的文件作为程序的输入,计算结果存入在output目录中。
5、查看执行结果
bin/hadoop fs -get output test-out
将hdfs中的output目录拷贝到本地文件系统的test-out目录中。
进入test-out目录,查看part-r-00000 文件即可。
5、补充:hdfs文件系统操作的有用命令:
bin/hadoop fs -ls /
查看hdfs的跟目录
bin/hadoop fs -cat /user/andychen/output/part-r-00000
查看执行结果
bin/hadoop fs -rm /user/andychen/input/file1.txt
删除file1.txt文件
bin/hadoop fs -rmr /user/andychen/input
删除input目录
分享到:
相关推荐
本篇手记详细记录了在RedHat Enterprise 5.4上部署Hadoop集群的步骤,这对于希望构建稳定且高效云计算平台的IT专业人员来说具有很高的参考价值。选择RedHat Enterprise 5.4作为虚拟机平台主要是考虑其商业支持和稳定...
本文主要介绍如何在Windows 7环境下使用Eclipse 3.3连接到运行在Red Hat Enterprise Linux 5上的远程Hadoop集群,并进行程序测试。以下将详细阐述整个过程涉及的关键步骤和技术要点。 1. **Hadoop集群配置**: - *...
实验环境操作系统为RedHat Enterprise Linux 5.6,使用三个节点:clovem001、clovem002和clovem003,IP地址分别为192.168.0.101、192.168.0.102和192.168.0.103。 三、所需软件 1. Hadoop版本:hadoop-0.20...
在Red Hat Enterprise Linux或CentOS系统上搭建Hadoop集群,首先需要确保以下软件准备: - **Hadoop**:根据需求选择合适的版本,如hadoop-0.20。 - **SSH**:确保所有节点间可以通过SSH无密码登录,方便管理。 - *...
10. **测试程序**:在“Eclipse3.3_(windows7)连接远程hadoop(RedHat.Enterprise.Linux.5)并测试程序.doc”中,详细讲述了如何编写、部署和测试一个简单的Hadoop程序,验证远程访问的正确性。 以上所述涵盖了从...
- **大数据处理**:RedHat Linux 7.4支持多种大数据处理框架,如Hadoop,非常适合用于构建大数据集群。 - **云计算平台**:由于其高度的安全性和稳定性,RedHat Linux 7.4也是构建私有云和混合云的理想选择。 - **...
在文档《Eclipse3.3_(windows7)连接远程hadoop(RedHat.Enterprise.Linux.5)并测试程序.doc》中,可能详细介绍了如何在Windows环境下使用Eclipse 3.3连接到运行在Red Hat Enterprise Linux 5上的Hadoop集群,包括了...
标题中的"hadoop2.2-64-native包(redhat6.3x64)"指的是一个针对Red Hat Enterprise Linux 6.3 64位系统的Hadoop 2.2版本的本地库(native libraries)包。这个包是用户从源代码编译而来的,通常包含了Hadoop运行时所需...
本指南使用的系统环境是RedHat Enterprise Linux Server 6.3,Hadoop版本是Hadoop-1.0.3,JDK版本是jdk-6u34-linux-x64。 三、软件安装 ### 3.1 安装JDK 在Master节点和所有Slave节点上安装JDK,具体安装步骤如下...
- **操作系统**: Red Hat Enterprise Linux Server release 7.x 或更高版本。 - **硬件配置**: 至少4GB内存,推荐8GB以上;磁盘空间至少20GB。 - **网络环境**: 为避免网络延迟问题,建议内网速度达到千兆级别。 ##...
3. Redhat Enterprise 5.5:选择的操作系统。 4. SSH Secure Shell Client:用于远程无密码登录,便于管理集群。 **Linux操作系统安装**是部署的起点,确保所有服务器都安装了相同版本的Linux。 **JDK安装**步骤...
1. **Redhat下安装hadoop.doc**:这份文档详细指导了如何在Red Hat Enterprise Linux操作系统上安装和配置Hadoop,涵盖了系统需求、安装步骤、配置参数等关键环节,是初学者快速入门的基础教程。 2. **Hadoop权威...
本资源包含redhat7版本的CM6.2.1和CDH6.2.1: cloudera-manager-daemons-6.2.1-1426065.el7.x86_64.rpm oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm jdk-8u151-linux-x64.rpm enterprise-debuginfo-6.2.1-1426065...
实验中,学生需要创建一个虚拟机,安装Redhat Enterprise Linux 8.0 (RHEL8.0)操作系统。实验步骤包括选择自定义配置、设置虚拟机硬件参数(如处理器、内存、网络模式和磁盘大小)、添加镜像文件、进行系统安装,...
在这个案例中,我们使用的操作系统是RedHat Enterprise Linux 7.4。为了运行Flink,JDK 1.8是必需的,因为它提供了Java运行时环境。Scala 2.12.1是Flink的编译环境,而Hadoop 2.7.2则为Flink提供分布式存储和计算的...
在Red Hat Enterprise Linux (RHEL) 7或CentOS 7系统中,由于默认的软件仓库不包含MySQL 5.7.x,因此需要额外的步骤来安装这个特定版本的数据库服务器。本教程将指导你如何通过YUM包管理器在Redhat7上安装MySQL ...
CentOS是一个流行的Linux发行版本,以其与Red Hat Enterprise Linux(RHEL)的高度兼容性和稳定性,而获得了广泛的应用,尤其在需要高稳定性服务器的场合。下面,将从几个方面详细介绍知识点。 ### CentOS简介 ...
- 操作系统:推荐使用Red Hat Enterprise Linux AS 4 Update 2或更高版本。 - 内核:至少需要2.6.9以上的内核版本。 - Perl支持:系统应包含Perl 5.8.5或更高版本。 - Python:需要Python 2或更高版本,且应包含...