准备环境:
ubuntu9.04
sun-java-6
eclipse 3.3.2
hadoop 0.20.2
开始安装java基本套件,
$sudo apt-get install java-common sun-java6-bin sun-java6-jdk sun-java6-jre
安装sun-java6-doc, 将javadoc下载到/tmp 目录下,下载点
https://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_Developer-Site/en_US
/-/USD/ViewProductDetail-Start?ProductRef=jdk-6u10-docs-oth-JPR@CDS-CDS_Developer
然后执行:$sudo apt-get install sun-java6-doc
接下来是配置ssh连接不需要密码,因为hadoop要通过ssh来进行连接通讯,如果有密码,则会出问题。
$ ssh-keygen -t rsa -P ” -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
通过上面两个命令后,应该就没有问题了,$ssh localhost ,进行测试,没有密码提示,则通过。
安装hadoop
到hadoop.apache.org去download最新版本的hadoop,目前是hadoop-0.20.2.tar.gz,
下载后放到home目录下。
$tar zxvf hadoop-0.20.2.tar.gz
$sudo mv hadoop-0.20.2 /opt/
$sudo chown -R fling:fling /opt/hadoop-0.20.2
$sudo ln -sf /opt/hadoop-0.20.2 /opt/hadoop
编辑 /opt/hadoop/conf/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:/opt/hadoop/bin
编辑 /opt/hadoop/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop/hadoop-${user.name}</value>
</property>
</configuration>
编辑 /opt/hadoop/conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
编辑 /opt/hadoop/conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
然后,就可以启动hadoop,进行测试了。
$ cd /opt/hadoop
$ source /opt/hadoop/conf/hadoop-env.sh
$ hadoop namenode -format
$ start-all.sh
$ hadoop fs -put conf input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
以上没有错误,就算是运行成功了,我们已经运行了hadoop自带的sample程序"grep",
当然,我们也可以运行其他的程序,比如wordcount.
命令行下的hadoop,我们已经跑通了,下面,我们来配置eclipse开发hadoop。
安装eclipse 3.3.2 classic,这里要注意了,一定是eclipse 3.4版本以下的,
如果用的3.4/3.5/3.6,hadoop自带的eclipse插件是没用的,
需要自己编译,我会在下一篇中讲解,如何编译适合自己的hadoop eclipse plugin。
下载 eclipse 3.3.2 classic 到home目录下,
$ cd ~
$ tar -zxvf eclipse-SDK-3.3.2-linux-gtk.tar.gz
$ sudo mv eclipse /opt
$ sudo ln -sf /opt/eclipse/eclipse /usr/local/bin/
部署hadoop eclipse plugin,
$ cd /opt/hadoop
$ sudo cp /opt/hadoop/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar
/opt/eclipse/plugins
启动eclipse,然后就是在eclipse 上操作了。
更多信息请查看 java进阶网 http://www.javady.com
分享到:
相关推荐
【Hadoop入门-01-集群搭建】 Hadoop是一个由Apache基金会所开发的开源分布式计算框架,它旨在处理和存储海量数据。Hadoop的核心组件包括HDFS(分布式文件系统)、YARN(运算资源调度系统)以及MAPREDUCE(分布式...
对于初次使用者,推荐参考Hadoop快速入门指南;对于大型分布式集群环境,则需查阅Hadoop集群设置文档,以确保系统能够高效稳定地运行Map-Reduce任务。 #### 概览 Hadoop Map-Reduce将输入数据集分割成独立的块,...
2. **资源管理**:插件允许用户浏览和管理HDFS(Hadoop Distributed File System)上的文件和目录,进行上传、下载、删除等操作。 3. **作业提交**:开发者可以直接在Eclipse中提交MapReduce作业到Hadoop集群,减少...
《Hadoop2x-eclipse-plugin-master:Eclipse插件与Hadoop环境的深度融合》 在大数据处理领域,Hadoop作为开源框架的翘楚,扮演着不可或缺的角色。它为分布式存储和计算提供了强大的支持,而Hadoop2x-eclipse-plugin...
【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...
Hadoop入门手册的高清版确保了阅读体验,清晰的文字和图表有助于理解复杂的概念。书签版则使得在大量内容中快速定位特定章节变得轻松,这对于深入学习和查找特定知识点极其重要。以下是对Hadoop开发者入门中主要知识...
这包括安装配置Hadoop环境、理解Hadoop的Master-Slave架构、设置HDFS参数以及优化集群性能等。此外,还会详细介绍Hadoop的命令行工具,如hdfs dfs命令,用于与HDFS进行交互,以及Hadoop的YARN资源管理系统,用于调度...
- **安装和配置Hadoop 2.x**:详细介绍如何在个人计算机或服务器上安装和配置Hadoop 2.x环境,包括必要的软件包和依赖项。 - **理解YARN的工作原理**:深入讲解YARN作为资源管理器的作用,以及它是如何协调和分配...
【Hadoop入门教程】 本文将带你逐步了解如何在Ubuntu虚拟机中安装配置Hadoop,并使用Eclipse进行Hadoop程序开发。教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的...
这份说明通常会涵盖如何配置Hadoop环境,如何在Eclipse中创建Hadoop项目,以及如何调试和运行MapReduce任务等内容。遵循这些步骤,即使是初学者也能快速上手,提高开发效率。 总的来说,Hadoop Eclipse Plugin ...
### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...
"Hadoop入门到精通"的学习资料旨在帮助初学者掌握这一强大的框架,并逐步晋升为专家。以下是对Hadoop及其相关概念的详细解读。 一、Hadoop概述 Hadoop是由Apache基金会开发的一个开源框架,主要用于处理和存储大...
本文将详细介绍如何在本地环境中进行Hadoop2.7.5与HBase1.2.6的伪分布式安装,这是一个适合初学者入门的实践教程。 Hadoop是Apache基金会的一个开源项目,主要由HDFS(Hadoop Distributed File System)和MapReduce...
9. 总结:这个“windows-hadoop-2.7.4-bin”压缩包为Windows用户提供了一种在本地环境运行Hadoop的便捷途径,降低了大数据处理技术的入门门槛。不过,为了获得更好的性能和稳定性,生产环境中通常推荐在Linux集群上...
### Hadoop快速入门介绍 #### 一、Hadoop简介 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它能够在廉价的商用硬件上运行,并且具有高可靠性和可扩展性。Hadoop的核心组件包括HDFS(Hadoop ...
### Hadoop-1.2.1安装与配置详解 #### 一、背景介绍 Hadoop是一款开源的大数据处理框架,能够高效地存储和处理大规模的数据集。本文档旨在提供一个详细的Hadoop-1.2.1版本的安装教程,特别针对Red Hat Enterprise ...
《Hadoop入门实战手册》是一本专为初学者设计的中文版指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和实际操作技巧。Hadoop是Apache软件基金会的一个开源项目,它为海量数据处理提供了可靠的分布式...
- **软件安装**:遵循官方文档进行安装,配置Hadoop环境变量,并进行初始化设置。 - **参数调优**:根据实际负载调整HDFS和MapReduce的配置参数,如副本数量、内存分配等。 - **监控和维护**:使用Ambari等工具监控...