A、集群搭建:
机器:(两台机器,后续会加数据节点,以及次节点和主节点分离)
192.168.9.193 master
192.168.10.29 slave
1、下载hadoop-1.0.3、jdk1.7.0_04(略过)
2、安装hadoop和jdk
(hadoop目录为:/opt/789/hadoop-1.0.3,jdk安装目录为:/opt/789/jdk1.7.0_04)
3、用户设置以及无密钥通信
a、分别为机器创建hadoop专用用户,命令:$adduser
hadoop
b、为hadoop用户设置密码,命令:$passwd
hadoop
c、给hadoop用户一定的权限(视个人需求,为的给的是/opt/下的789目录。我的hadoop就安装在此。)
4、无密钥通信
a、使用hadoop用户登录master主机执行命令$ssh-keygen
-t rsa,然后一路回车,完毕后会生成文件/home/hadoop/.ssh/id_rsa.pub(私钥)
b、查看在/home/hadoop/.ssh/目录下是否存在authorized_keys(公钥)。
I、如果存在就将上一步生成的私钥追加到已经存在的公钥上,
命令:$cat
~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
II、如果不存在,就把上一步生成的私钥匙复制到当前位置,命名为authorized_keys
命令:$cp
id_rsa.pub authorized_keys
III、检查是否可以无密钥通信,$ssh
localhost,如果不需要密码,则配置成功。如果需要输入密码,修改authorized_keys的权限,命令:$chown 644 authorized_keys
IV、将authorized_keys拷贝到slave主机上的同目录下(/home/hadoop/.ssh/)
如果slave主机上的.ssh目录不存在,需要手动创建,并赋予600权限
5、修改hadoop配置文件
a、修改/opt/789/hadoop-1.0.3/conf/下的hadoop-env.sh文件
export
JAVA_HOME=/opt/789/jdk1.7.0_04 jdk安装路径
export
HADOOP_HEAPSIZE=512 hadoop的jvm内存大小
b、修改/opt/789/hadoop-1.0.3/conf/下的core-site.xml文件
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.9.193:9000</value>
</property>
</configuration>
修改/opt/789/hadoop-1.0.3/conf/下的mapred-site.xml文件
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.9.193:9001</value>
</property>
</configuration>
修改/opt/789/hadoop-1.0.3/conf/下的hdfs-site.xml文件(数据快备份数)
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
c、修改/opt/789/hadoop-1.0.3/conf/下的master文件(配置次节点)
192.168.9.193
修改/opt/789/hadoop-1.0.3/conf/下的master文件(配置数据节点)
192.168.10.29
6、格式化hdfs文件系统:$/opt/789/hadoop-1.0.3/bin/hadoop
namenode -format
7、启动hadoop命令:$/opt/789/hadoop-1.0.3/bin/start-all.sh
B、eclipse开发环境配置
1、下载插件hadoop-eclipse-plugin-1.0.1.jar(见附件)。将该jar包放入eclipse下的plugins/文件夹下。重启eclipse。
2、将Map/Reduce视图和hdfs文件系统的视图配置,见下图:
3、在eclipse中配置hadoop的安装路经,见下图
5、新建hadoop项目
a、将hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java
的文件copy到项目中。
b、上传模拟数据文件夹。 为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。
在本地新建word.txt
java
c++ python c c# android
java
c++ object-c
hadoop
oracle
mapreduce
hive hbase
通过hadoop的命令在HDFS上创建/tmp/workcount目录,命令如下:bin/hadoop
fs -mkdir /tmp/wordcount
通过copyFromLocal命令把本地的word.txt复制到HDFS上,命令如下:bin/hadoop
fs -copyFromLocal /home/hadoop/word.txt /tmp/wordcount/word.txt
6、运行项目
a.在新建的项目Hadoop,点击WordCount.java,右键-->Run
As-->Run Configurations
b、在弹出的Run
Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
c、配置运行参数,点Arguments,在Program
arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”
d、点击run
详细见下图:
7、查看运行结果
等运行结束后,查看运行结果。
使用命令:
bin/hadoop fs -ls /tmp/wordcount/out查看例子的输出结果,发现有两个文件夹和一个文件,使用命令查看part-r-00000文件, bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000可以查看运行结果。
在eclipse试图中查看
8、合并文件实例
运行结果:
- 大小: 42.4 KB
- 大小: 17.4 KB
- 大小: 22.7 KB
- 大小: 15.6 KB
- 大小: 30.9 KB
- 大小: 28.7 KB
- 大小: 37.5 KB
- 大小: 41.5 KB
分享到:
相关推荐
需要注意的是,伪集群环境和真实集群环境之间存在一定的差异,这可能导致在开发环境中没有问题的程序在实际环境中运行时出现错误。比如,在伪集群环境下,HDFS的端口号可能与实际集群不同,这时可以通过将`core-site...
在介绍Hadoop-Eclipse开发环境配置之前,我们首先要了解Hadoop和Eclipse的基本概念。Hadoop是一个由Apache基金会开发的开源框架,能够支持在普通硬件上运行的分布式应用。它旨在从单一服务器扩展到数千台机器上,...
解压后,它提供了Hadoop运行时所需的配置文件、库文件和可执行文件,是搭建本地或远程Hadoop开发环境的基础。 在配置这个开发环境时,你需要做以下几步: 1. 安装Java Development Kit (JDK):因为Hadoop是用Java...
"Hadoop搭建与eclipse开发环境设置"这一标题主要涵盖了两个核心知识点:一是Hadoop的安装和配置,二是如何在Eclipse集成开发环境中配置Hadoop项目。 【Hadoop搭建】 Hadoop是Apache软件基金会的一个开源分布式计算...
接下来,"Cygwin+Eclipse搭建Hadoop开发环境"文档将指导你如何配置Eclipse IDE,使其能够与Cygwin集成,用于Hadoop项目开发。Eclipse是Java开发者常用的一款强大IDE,它提供了丰富的插件支持,包括Hadoop开发插件,...
总结来说,成功搭建Eclipse 3.3 + Hadoop 0.20.0开发环境的关键在于选择兼容的软件版本,正确配置Hadoop的相关参数,并安装相应的Eclipse插件。通过这种方式,开发者可以充分利用Eclipse的强大功能,高效地进行...
首先,需要在开发环境中安装Eclipse,这是一个强大的Java集成开发环境。接着,安装Hadoop-Eclipse-Plugin插件,该插件允许开发者在Eclipse中直接编写、调试和运行MapReduce程序。配置插件时,要确保指向正确的Hadoop...
在本文中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境。Cygwin是一个为Windows操作系统提供Linux-like环境的开源工具,而Eclipse是一款流行的集成开发环境(IDE),广泛用于Java应用程序的开发...
在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,以便在Windows操作系统上进行高效的数据处理和分析。Cygwin是一个提供Linux-like环境的开源工具集,使得Windows用户可以运行原本为...
在Windows7 x64 + Eclipse + Hadoop 2.5.2搭建MapReduce开发环境,下载的文件中包括下载的文件包括:hadoop 2.5.2.tar.gz,hadoop-common-2.2.0-bin-master.zip,hadoop-eclipse-plugin-2.5.2.jar。应用这些软件的...
在Windows 7操作系统中搭建Hadoop开发环境,通常需要借助Eclipse IDE和虚拟机软件,如Ubuntu,来实现。以下是一步步的详细步骤: 1. **安装虚拟机和Ubuntu操作系统**: - 首先,你需要下载并安装虚拟机软件,如...
【大数据云计算技术系列 hadoop搭建与eclipse开发环境设置】主要涵盖了如何在Windows环境下配置Eclipse开发工具,以便于进行Hadoop项目的开发。Hadoop是一个分布式计算框架,它允许存储和处理海量数据,而Eclipse是...
【大数据与云计算培训学习资料 hadoop + eclipse源码环境搭建】是关于如何在Eclipse环境中配置和搭建Hadoop源码的教程。Hadoop是一个开源的分布式计算框架,它使用Apache Ant进行构建管理,并通过Ivy依赖管理系统来...
在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...
5. **配置Eclipse开发环境** - 安装Eclipse的Hadoop插件,如Hadoop插件(Hadoop Plugin for Eclipse)或Cloudera的CDT(Cloudera Development Tools)。 - 创建新的Hadoop Map/Reduce项目,导入Hadoop的jar包到...
HadoopEclipse插件是专为Eclipse开发环境设计的插件,它将Hadoop类库集成到Eclipse中,使得开发者可以在一个图形化的界面中编写、调试和运行Hadoop程序。该插件的主要特点包括: - **简化开发流程**:通过自动化...
【Hadoop搭建与Eclipse开发环境设置】 在大数据处理领域,Apache Hadoop是一个关键的开源框架,它提供了分布式存储和计算的能力。为了在Windows环境下利用Eclipse进行Hadoop应用的开发,我们需要按照以下步骤配置...
### Eclipse安装Hadoop插件详解 #### 一、前言 随着大数据技术的快速发展,Hadoop作为处理海量数据的重要工具之一,其应用越来越广泛。...希望本指南能够帮助您顺利完成Eclipse上的Hadoop开发环境搭建工作。