`
wbj0110
  • 浏览: 1598582 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

hadoop开发方式总结及操作指导

阅读更多

本篇亦为学习hadoop----java零基础学习线路指导(3)第三篇,想学习hadoop,没有Java基础,可以查看下面两节内容:


学习hadoop----java零基础学习线路指导视频(1)

学习hadoop---Java初级快读入门指导(2)



本文为操作指导

1.如何引用外部包?
2.使用插件开发端口如何设置?


如果你已经比较熟悉了,可以思考:
1.hadoop脱离集群开发,加入外部包的作用是什么?
2.Hadoop eclipse plugin的作用是什么,自己能否设计一个Hadoop eclipse plugin,该如何开发和设计?



在我们的传统开发中,一般都是有一定的开发工具。比如.net,直接使用visual Studio开发环境,开发程序直接运行,剩下的事情不用管了。
但是Java开发,我们知道最起码可以分为两种常用的开发。
其实其他的语言也可以使用这两种语言,但是Java的这两种方式,用的人更多一些。
这里讲Java开发方式,
一种是采用命令行编译: javac  test.java
一种开发工具编译:用eclipse 等开发工具,直接右键run as -->java Application如果不了解可以查看
学习hadoop---Java初级快读入门指导


那么对于hadoop也有两种方式:
一、一种是脱离集群环境的开发:
那么什么是脱离集群环境开发,因为集群也是有一个Java环境的。如果我们编写程序,脱离了集群,那么就是脱离集群开发。可能说到这里,大家还是有点不太明白。
好吧,现在开始上图。

1.添加外部包

当我们建立一个普通Java项目之后,我们单击HDFS-》属性。会弹出右侧属性窗口,属性窗口弹出之后,我们找到Java Build Path,(这时候libraries是空的),我们单击Add External JARs.后面图中没有显示。Add External JARs的意思是添加外部包,什么是外部包,hadoop是由Java程序开发的,所以它会相应的Java包,我们添加的就是这些个相关的包。



                                                                                                     图1
2.那么我们选择的是与集群相应的hadoop包。

(1)hadoop文件夹下面的包
这个包的内容,以开发hdfs为例,首先我们解压hadoop包,会形成一个文件夹,这里我们称之为hadoop文件夹。我们找到这个文件夹之后,下面有相应的包,如下图2:

图2



(2)lib文件夹的包
还有一些依赖包如下图3,打开下面lib文件夹,会看到.jar文件,把里面的包都引用进来。
都引用完毕之后,我们会在图1中会看到很多的jar包,这时候,我们就引用成功了。


    图3
3.引用成功
当我们单击图1,ok按钮时,我们就会看到项目出现了外部包如图4所示。


    图4

总结:
上面因为我们是新手,所以引用了这些包,引用这些包的目的是利于开发。如果不引用这些,对于高手,照样可以开发。这里,你可能还是不太明白,这里建议同学先这样做,等时间长了,自己就会琢磨过来的。

上面准备完毕,我们就可以开发了。开发完毕,我们所做的是必须必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行

注意的这种开发方式运行采用的是:run as java  application
有的同学在使用上面开发方式的时候遇到了问题,这里补充一下:windows eclipse运行mapreduce遇到权限问题该如何解决

二、一种远程连接集群开发:


目前比较方便的方法就是用Hadoop eclipse plugin,可以浏览管理HDFS,自动创建MR程序的模板文件,最爽的就是直接Run on hadoop了。
那么这个该如何配置:
这里引用:
下面帖子
hadoop开发方式之一:利用插件开发指导

引言
在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。
插件安装
Hadoop的eclipse plugin跟hadoop发行版一起分发,到hadoop安装目录\ contrib\eclipse-plugin下可以找到该插件。在试用过程中发现不支持eclipse 3.5,因此要在eclipse3.5及以上版本运行,需要做个修改。修改方法如下:
编辑:src\contrib\eclipse-plugin\src\java\org\apache\hadoop\eclipse\launch\
HadoopApplicationLaunchShortcut.java
做如下修改:

  1. //import org.eclipse.jdt.internal.debug.ui.launcher.JavaApplicationLaunchShortcut;
  2. import org.eclipse.jdt.debug.ui.launchConfigurations.JavaApplicationLaunchShortcut;
复制代码


修改完毕后在hadoop目录执行ant package重新打包eclipse插件。

将修改后的插件拷贝到eclipse\dropins\hadoop\plugins目录下完成安装。

插件配置与使用
指定Hadoop安装目录


打开Map/Reduce视图
”Window”->”Open Perspective”->”Other”->“Map/Reduce”.
“Window”->”Show views”->”Other”->”Map Reduce Tools”->”Map/Reduce locations”.


新建 Hadoop location


DFS视图浏览文件

运行MapReduce作业

查看运行结果


上面这种方式,是直接远程连接集群的开发。
注意的这种开发方式运行采用的是:run on haoop

三、总结
对于上面两种方式,新手可能第一种感觉更适应,因为不需要懂得hadoop的相关配置,只需要引用外部包就可以了。但是面对生产环境,这是非常繁琐的。刚开始,同学们可以选择自己喜欢的方式。或则两种方式都可以尝试一下。

 

 

http://www.aboutyun.com/thread-6950-1-1.html

分享到:
评论

相关推荐

    cygwin+eclipse搭建hadoop开发环境,运行wordcount

    接下来,"Cygwin+Eclipse搭建Hadoop开发环境"文档将指导你如何配置Eclipse IDE,使其能够与Cygwin集成,用于Hadoop项目开发。Eclipse是Java开发者常用的一款强大IDE,它提供了丰富的插件支持,包括Hadoop开发插件,...

    eclipse安装Hadoop插件

    ### Eclipse安装Hadoop插件详解 #### 一、前言 随着大数据技术的快速发展,Hadoop作为处理海量数据的重要工具之一,其应用越来越广泛。...希望本指南能够帮助您顺利完成Eclipse上的Hadoop开发环境搭建工作。

    hadoop2.8.0 eclipse jb51

    对于Hadoop开发,Eclipse可以通过安装特定的插件如Hadoop插件(Hadoop Tools for Eclipse)、Hortonworks Data Platform(HDP)插件或者Apache Hadoop Eclipse Plugin来实现HDFS文件操作、MapReduce任务提交等功能。...

    hadoop应用开发技术详解代码

    在Hadoop应用开发技术的世界里,开发者们常常需要掌握一系列的核心概念和技术,以便高效地处理大规模数据。本书“Hadoop应用开发技术详解”的源代码涵盖了第3、4、5、7、8、10、11和12章的内容,为读者提供了丰富的...

    基于Hadoop的数据仓库Hive学习指南.doc

    【标题】:“基于Hadoop的数据仓库Hive学习指南” 【描述】:该文档是一份针对Hive的学习资料,旨在引导读者理解如何在Hadoop平台上利用Hive进行数据仓库操作和编程实践。它涵盖了Hive的基本概念、安装步骤、实验...

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    Hadoop开发者各期和权威指南

    《Hadoop开发者各期和权威指南》是一本深入解析Hadoop开发全生命周期的专业书籍,它由业界专家精心总结,旨在为Hadoop开发者提供全面而权威的指导。书中的内容覆盖了Hadoop生态系统的各个方面,从初学者入门到高级...

    hadoop权威指南的源码

    《Hadoop权威指南》是Hadoop领域的经典之作,它深入浅出地讲解了Hadoop生态系统的核心组件及其工作原理。这份源码压缩包包含了书中多个章节的实战案例,为读者提供了丰富的学习材料。以下是对这些知识点的详细解读:...

    Hadoop权威指南 第二版(中文版)

    Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还...

    hadoop-2.7.4.rar

    《Hadoop在Windows环境下:构建与运行指南》 Hadoop,作为开源的大数据处理框架,以其分布式计算模型和高容错性赢得了广泛的应用。本文主要针对"hadop-2.7.4.rar"这个压缩包文件,详细阐述如何在Windows操作系统上...

    实验1 安装Hadoop.doc

    通过实际操作加深对Hadoop分布式文件系统(HDFS)及MapReduce计算框架的理解。 ### 四、Hadoop的简单应用 #### 应用示例 1. **WordCount程序**:使用MapReduce编写简单的单词计数程序,了解如何处理大规模数据集...

    Hadoop单节点部署指导

    ### Hadoop单节点部署指导知识点详解 #### 一、实验目的 - **理解Hadoop原理机制**:深入了解Hadoop的工作原理及其背后的技术架构。 - **熟悉Hadoop集群体系结构**:掌握Hadoop集群中各组成部分的功能及其交互方式...

    hadoop搭建与eclipse开发环境设置.pdf

    本文旨在指导读者如何搭建Hadoop运行环境,并使用Eclipse在Windows上连接Ubuntu系统上的Hadoop进行开发与测试。整个过程分为三部分:Ubuntu安装、Hadoop安装和Eclipse配置。 部分一:Ubuntu安装 在开始搭建Hadoop...

    基于hadoop的云盘系统

    总结来说,这个基于Hadoop的云盘系统是一个综合性的项目,涉及后端开发、数据库管理、分布式存储和前端展示等多个方面。通过整合这些技术,系统可以实现高效、可靠的云存储服务,满足大规模用户对数据存储、分享和...

    Hadoop权威指南(中文版)2015上传.rar

    第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...

    software_hadoop.zip

    命令行工具如`hadoop fs`和`hadoop jar`是常见的操作方式,也可以通过Hadoop的Web界面查看集群状态。 8. **Hadoop生态**:Hadoop生态系统包含许多其他项目,如Hive(SQL-like查询工具)、Pig(数据分析工具)、...

    《Hadoop海量数据处理》高清完整PDF版

    读者将通过学习这些组件的原理和操作方法,掌握如何搭建一个稳定的Hadoop集群环境,并了解各个组件在集群中所扮演的角色和相互之间的协作方式。 应用篇会将基础理论知识与实际案例结合,通过具体的项目来展示Hadoop...

    hadoop权威指南_第4版_中文版

    《Hadoop权威指南》是大数据领域的一本经典...通过阅读《Hadoop权威指南》第4版中文版,读者不仅可以深入了解Hadoop的基本原理和操作,还能跟上Hadoop生态系统的发展趋势,为在大数据时代取得竞争优势打下坚实基础。

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 05 Hadoop API开发 共32页.pptx

    通过学习,学员将能够独立完成Hadoop的安装、配置与管理,掌握在Hadoop、操作系统以及关系型数据库之间传递数据的技能,制定有效数据集成方案,并熟练向Hadoop提交作业以及监控作业运行状态。 【Hadoop API开发】 ...

Global site tag (gtag.js) - Google Analytics