`

hadoop入门-环境配置二

阅读更多

 

准备环境:

ubuntu9.04

sun-java-6

eclipse 3.3.2

hadoop 0.20.2

开始安装java基本套件,

$sudo apt-get install java-common sun-java6-bin sun-java6-jdk sun-java6-jre


安装sun-java6-doc, 将javadoc下载到/tmp 目录下,下载点


https://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_Developer-Site/en_US


/-/USD/ViewProductDetail-Start?ProductRef=jdk-6u10-docs-oth-JPR@CDS-CDS_Developer


然后执行:$sudo apt-get install sun-java6-doc



接下来是配置ssh连接不需要密码,因为hadoop要通过ssh来进行连接通讯,如果有密码,则会出问题。


$ ssh-keygen -t rsa -P ” -f ~/.ssh/id_rsa


$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


通过上面两个命令后,应该就没有问题了,$ssh localhost ,进行测试,没有密码提示,则通过。


安装hadoop


到hadoop.apache.org去download最新版本的hadoop,目前是hadoop-0.20.2.tar.gz,

下载后放到home目录下。

$tar zxvf hadoop-0.20.2.tar.gz

$sudo mv hadoop-0.20.2 /opt/

$sudo chown -R fling:fling /opt/hadoop-0.20.2

$sudo ln -sf /opt/hadoop-0.20.2 /opt/hadoop

编辑 /opt/hadoop/conf/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-6-sun

export HADOOP_HOME=/opt/hadoop

export PATH=$PATH:/opt/hadoop/bin


编辑 /opt/hadoop/conf/core-site.xml


<configuration>

  <property>

    <name>fs.default.name</name>

    <value>localhost:9000</value>

  </property>

  <property>

    <name>hadoop.tmp.dir</name>

    <value>/tmp/hadoop/hadoop-${user.name}</value>

  </property>

</configuration>


编辑 /opt/hadoop/conf/hdfs-site.xml

<configuration>

  <property>

    <name>dfs.replication</name>

    <value>1</value>

  </property>

</configuration>

编辑 /opt/hadoop/conf/mapred-site.xml

<configuration>

  <property>

    <name>mapred.job.tracker</name>

    <value>localhost:9001</value>

  </property>

</configuration>

然后,就可以启动hadoop,进行测试了。

$ cd /opt/hadoop

$ source /opt/hadoop/conf/hadoop-env.sh

$ hadoop namenode -format

$ start-all.sh

$ hadoop fs -put conf input

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

以上没有错误,就算是运行成功了,我们已经运行了hadoop自带的sample程序"grep",

当然,我们也可以运行其他的程序,比如wordcount.

命令行下的hadoop,我们已经跑通了,下面,我们来配置eclipse开发hadoop。

安装eclipse 3.3.2 classic,这里要注意了,一定是eclipse 3.4版本以下的,

如果用的3.4/3.5/3.6,hadoop自带的eclipse插件是没用的,

需要自己编译,我会在下一篇中讲解,如何编译适合自己的hadoop eclipse plugin。

下载 eclipse 3.3.2 classic 到home目录下,

$ cd ~

$ tar -zxvf eclipse-SDK-3.3.2-linux-gtk.tar.gz

$ sudo mv eclipse /opt

$ sudo ln -sf /opt/eclipse/eclipse /usr/local/bin/

部署hadoop eclipse plugin,

$ cd /opt/hadoop

$ sudo cp /opt/hadoop/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar

/opt/eclipse/plugins

启动eclipse,然后就是在eclipse 上操作了。


更多信息请查看 java进阶网 http://www.javady.com

 

分享到:
评论

相关推荐

    hadoop入门-01-集群搭建.docx

    【Hadoop入门-01-集群搭建】 Hadoop是一个由Apache基金会所开发的开源分布式计算框架,它旨在处理和存储海量数据。Hadoop的核心组件包括HDFS(分布式文件系统)、YARN(运算资源调度系统)以及MAPREDUCE(分布式...

    hadoop map-reduce turorial

    对于初次使用者,推荐参考Hadoop快速入门指南;对于大型分布式集群环境,则需查阅Hadoop集群设置文档,以确保系统能够高效稳定地运行Map-Reduce任务。 #### 概览 Hadoop Map-Reduce将输入数据集分割成独立的块,...

    hadoop-eclipse-plugin-2.7.0.jar

    2. **资源管理**:插件允许用户浏览和管理HDFS(Hadoop Distributed File System)上的文件和目录,进行上传、下载、删除等操作。 3. **作业提交**:开发者可以直接在Eclipse中提交MapReduce作业到Hadoop集群,减少...

    hadoop2x-eclipse-plugin-master

    《Hadoop2x-eclipse-plugin-master:Eclipse插件与Hadoop环境的深度融合》 在大数据处理领域,Hadoop作为开源框架的翘楚,扮演着不可或缺的角色。它为分布式存储和计算提供了强大的支持,而Hadoop2x-eclipse-plugin...

    hadoop入门教程.pdf

    【Hadoop入门教程】 Hadoop是一个开源的分布式计算框架,主要设计用于处理和存储大量数据。这个教程将指导你如何在Ubuntu 12.04操作系统上安装和配置Hadoop 1.0.4,这对于初学者来说是一个很好的起点。 **1. 安装...

    Hadoop开发者入门-带书签文字版

    Hadoop入门手册的高清版确保了阅读体验,清晰的文字和图表有助于理解复杂的概念。书签版则使得在大量内容中快速定位特定章节变得轻松,这对于深入学习和查找特定知识点极其重要。以下是对Hadoop开发者入门中主要知识...

    Hadoop实战-陆嘉恒(高清完整版)

    这包括安装配置Hadoop环境、理解Hadoop的Master-Slave架构、设置HDFS参数以及优化集群性能等。此外,还会详细介绍Hadoop的命令行工具,如hdfs dfs命令,用于与HDFS进行交互,以及Hadoop的YARN资源管理系统,用于调度...

    Hadoop 2 Quick-Start Guide_ Lea - Douglas Eadline

    - **安装和配置Hadoop 2.x**:详细介绍如何在个人计算机或服务器上安装和配置Hadoop 2.x环境,包括必要的软件包和依赖项。 - **理解YARN的工作原理**:深入讲解YARN作为资源管理器的作用,以及它是如何协调和分配...

    hadoop入门教程.docx

    【Hadoop入门教程】 本文将带你逐步了解如何在Ubuntu虚拟机中安装配置Hadoop,并使用Eclipse进行Hadoop程序开发。教程适用于初学者,旨在帮助你快速掌握Hadoop的基础知识。 1. **JDK安装与配置** 在开始Hadoop的...

    hadoop-eclipse-plugin-2.7.3

    这份说明通常会涵盖如何配置Hadoop环境,如何在Eclipse中创建Hadoop项目,以及如何调试和运行MapReduce任务等内容。遵循这些步骤,即使是初学者也能快速上手,提高开发效率。 总的来说,Hadoop Eclipse Plugin ...

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...

    Hadoop入门到精通

    "Hadoop入门到精通"的学习资料旨在帮助初学者掌握这一强大的框架,并逐步晋升为专家。以下是对Hadoop及其相关概念的详细解读。 一、Hadoop概述 Hadoop是由Apache基金会开发的一个开源框架,主要用于处理和存储大...

    Hadoop2.7.5-HBase1.2.6伪分布式安装

    本文将详细介绍如何在本地环境中进行Hadoop2.7.5与HBase1.2.6的伪分布式安装,这是一个适合初学者入门的实践教程。 Hadoop是Apache基金会的一个开源项目,主要由HDFS(Hadoop Distributed File System)和MapReduce...

    windows-hadoop-2.7.4-bin

    9. 总结:这个“windows-hadoop-2.7.4-bin”压缩包为Windows用户提供了一种在本地环境运行Hadoop的便捷途径,降低了大数据处理技术的入门门槛。不过,为了获得更好的性能和稳定性,生产环境中通常推荐在Linux集群上...

    Hadoop快速入门介绍文档

    ### Hadoop快速入门介绍 #### 一、Hadoop简介 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它能够在廉价的商用硬件上运行,并且具有高可靠性和可扩展性。Hadoop的核心组件包括HDFS(Hadoop ...

    史上最强Hadoop-1.2.1安装文档

    ### Hadoop-1.2.1安装与配置详解 #### 一、背景介绍 Hadoop是一款开源的大数据处理框架,能够高效地存储和处理大规模的数据集。本文档旨在提供一个详细的Hadoop-1.2.1版本的安装教程,特别针对Red Hat Enterprise ...

    Hadoop入门实战手册 中文版)

    《Hadoop入门实战手册》是一本专为初学者设计的中文版指南,旨在帮助读者快速掌握Hadoop这一分布式计算框架的基础知识和实际操作技巧。Hadoop是Apache软件基金会的一个开源项目,它为海量数据处理提供了可靠的分布式...

    hadoop 入门

    - **软件安装**:遵循官方文档进行安装,配置Hadoop环境变量,并进行初始化设置。 - **参数调优**:根据实际负载调整HDFS和MapReduce的配置参数,如副本数量、内存分配等。 - **监控和维护**:使用Ambari等工具监控...

Global site tag (gtag.js) - Google Analytics