`
Appleses
  • 浏览: 347946 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

hadoop开发方式总结及操作指导

阅读更多
http://www.aboutyun.com/thread-6950-1-1.html

1、2方法中Eclipse是运行在linux中,3方法中Eclipse是运行在widows中
===================================================================
1、使用hadoop-Eclipse插件(使用插件时可以直接在Eclipse中查看并操作hadoop集群的dfs文件系统)
      a、下载hadoop-Eclipse-plugin插件,把该插件添加到Eclipse安装目录下的plugin目录,重启Eclipse。
      b、新建hadoop项目
            new-->other-->Map/Reduce project,新建hadoop项目Map/Reduce project
      c、 配置hadoop项目环境使之可以连接到hadoop集群Windouàshow view àotherà map/reduce loactions,
       新建一个map/rudece location ,配置 Map/Reduce Master的Host 和port还有 DFS Master的Port ,这里需要和
                hadoop集群的配置相吻合。其中Map/Reduce Master 的Host对应hadoop集群namenode机器的主机名或者ip,port
               对应mapred-site.xml中mapred.jobhistory.address属性的值的端口。
                DFS Master 的Port 对应core-site.xml中fs.defaultFS属性的值的端口。
        d、运行项目(新建一个类如MyWordCount,把hadoop自带的wordcount demo 代码复制到到MyWordCount类中),运行方
               式有两种,把项目打成jar包,放到hadoop集群中去运行,如在hadoop集群中运行wordcount demo
               一样。另外一种是直接在Eclipse中运行。
               在Eclipse中运行方式:右击MyWordCount-->run as -->run configrations-->arguments
               在argument中配置hadoop文件系统dfs中的文件地址已经统计结果的输出地址:
               hdfs://4Master:9000/user/hadoop/inputData/text 
               hdfs://4Master:9000/user/hadoop/outputData4
         e、在Eclipse中运行完后可以直接在Eclipse中查看dfs文件系统的输出文件,也可以在hadoop集群中查看输出文件信息
               如下:
               [hadoop@4Master bin]$ hdfs dfs -ls
           Found 2 items
           drwxr-xr-x   - hadoop supergroup          0 2014-09-01 17:32 inputData
           drwxr-xr-x   - hadoop supergroup          0 2014-09-02 09:42 outputData4
           [hadoop@4Master bin]$ hdfs dfs -ls outputData4
           Found 2 items
           -rw-r--r--   3 hadoop supergroup          0 2014-09-02 09:42 outputData4/_SUCCESS
           -rw-r--r--   3 hadoop supergroup         28 2014-09-02 09:42 outputData4/part-r-00000
           [hadoop@4Master bin]$ hdfs dfs -cat outputData4/*
           demo     1
           hadoop     1
           is     2
           this     2
       ps:其中输入文件是inputData/text
           [hadoop@4Master bin]$ hdfs dfs -cat inputData/text
           this is hadoop
           this is demo
           [hadoop@4Master bin]

2、不使用插件时开发(此例子中,hadoop集群部署在linux中,Eclipse运行在hadoop集群的namenode机器中,Eclipse运行在windows中时此方法
      会出错,因为windows系统需要安装cygwin模拟linux的环境,否则当Eclipse运行在windows中进行开发时,只能使用插件或者打成jar包放到
     hadoop集群中去运行)
     关于不使用hadoop-Eclipse插件时,只要导入外部jar包就可以,这里jar包都在哪里呢?
     a、新建一个普通的java project项目。
     b、导入hadoop集群的外部jar包。右击项目-->build path-->configure build path-->libraries-->add external jars
          以CDH4.7为例子,在${HADOOP_HOME}/hadoop下的各个子目录下包含了hadoop所需要的全部jar包(一般导入common和mapreduce1
          两个目录下的jar包和这两个目录下的lib目录下的jar包基本满足需要,common和mapreduce1下的lib包下的jar包有很多是相同的),直接
          导入这些jar包就可以了。
     c、运行项目(新建一个类如MyWordCount,把hadoop自带的wordcount demo 代码复制到到MyWordCount类中),运行方
             式有两种,把项目打成jar包,放到hadoop集群中去运行,如在hadoop集群中运行wordcount demo
             一样。另外一种是直接在Eclipse中运行。
             在Eclipse中运行方式:右击MyWordCount-->run as -->run configrations-->arguments
             在argument中配置hadoop文件系统dfs中的文件地址已经统计结果的输出地址:
              hdfs://192.168.27.151:9000/user/hadoop/inputData/text
              hdfs://192.168.27.151:9000/user/hadoop/outputData4
       d、在Eclipse中运行完毕时可以在hadoop集群中查看dfs文件系统上的输出文件(如1使用插件开发时的e步骤一致,除不能在Eclipse中查看和
             操作hadoop集群的dfs文件)

3、Eclipse真正的离群开发(Eclipse运行在windows系统中,当使用和不使用插件时开发步骤和1、2类似)
      参考网址:http://blog.csdn.net/aaa1117a8w5s6d/article/details/20918221
     需要在Eclipse中安装cygwin,模拟linux环境,否则直接在windows中Eclipse连接到linux系统的hadoop集群,会报以下错误:
     Cannot run program "cygpath": CreateProcess error=2
       hadoop集群在linux,eclipse调试环境是在windows,需要安装一个linux模拟器“cygwin”来支持程序的运行。
     在windows开发服务器上安装好cygwin,然后在环境变量中添加cygwin的bin目录,比如“D:\Program\cygwin\bin”,成功后重启
     myeclipse运行代码,问题得以解决。
     注意是在系统环境变量的Path上加入“D:\Program\cygwin\bin”这样我们就行像在linux上运行命令一样在windows的dos窗口下执行ls,cd等命令。




  • 大小: 24.8 KB
分享到:
评论

相关推荐

    cygwin+eclipse搭建hadoop开发环境,运行wordcount

    接下来,"Cygwin+Eclipse搭建Hadoop开发环境"文档将指导你如何配置Eclipse IDE,使其能够与Cygwin集成,用于Hadoop项目开发。Eclipse是Java开发者常用的一款强大IDE,它提供了丰富的插件支持,包括Hadoop开发插件,...

    eclipse安装Hadoop插件

    ### Eclipse安装Hadoop插件详解 #### 一、前言 随着大数据技术的快速发展,Hadoop作为处理海量数据的重要工具之一,其应用越来越广泛。...希望本指南能够帮助您顺利完成Eclipse上的Hadoop开发环境搭建工作。

    hadoop2.8.0 eclipse jb51

    对于Hadoop开发,Eclipse可以通过安装特定的插件如Hadoop插件(Hadoop Tools for Eclipse)、Hortonworks Data Platform(HDP)插件或者Apache Hadoop Eclipse Plugin来实现HDFS文件操作、MapReduce任务提交等功能。...

    hadoop应用开发技术详解代码

    在Hadoop应用开发技术的世界里,开发者们常常需要掌握一系列的核心概念和技术,以便高效地处理大规模数据。本书“Hadoop应用开发技术详解”的源代码涵盖了第3、4、5、7、8、10、11和12章的内容,为读者提供了丰富的...

    基于Hadoop的数据仓库Hive学习指南.doc

    【标题】:“基于Hadoop的数据仓库Hive学习指南” 【描述】:该文档是一份针对Hive的学习资料,旨在引导读者理解如何在Hadoop平台上利用Hive进行数据仓库操作和编程实践。它涵盖了Hive的基本概念、安装步骤、实验...

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    Hadoop开发者各期和权威指南

    《Hadoop开发者各期和权威指南》是一本深入解析Hadoop开发全生命周期的专业书籍,它由业界专家精心总结,旨在为Hadoop开发者提供全面而权威的指导。书中的内容覆盖了Hadoop生态系统的各个方面,从初学者入门到高级...

    hadoop权威指南的源码

    《Hadoop权威指南》是Hadoop领域的经典之作,它深入浅出地讲解了Hadoop生态系统的核心组件及其工作原理。这份源码压缩包包含了书中多个章节的实战案例,为读者提供了丰富的学习材料。以下是对这些知识点的详细解读:...

    Hadoop权威指南 第二版(中文版)

    Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还...

    hadoop-2.7.4.rar

    《Hadoop在Windows环境下:构建与运行指南》 Hadoop,作为开源的大数据处理框架,以其分布式计算模型和高容错性赢得了广泛的应用。本文主要针对"hadop-2.7.4.rar"这个压缩包文件,详细阐述如何在Windows操作系统上...

    实验1 安装Hadoop.doc

    通过实际操作加深对Hadoop分布式文件系统(HDFS)及MapReduce计算框架的理解。 ### 四、Hadoop的简单应用 #### 应用示例 1. **WordCount程序**:使用MapReduce编写简单的单词计数程序,了解如何处理大规模数据集...

    Hadoop单节点部署指导

    ### Hadoop单节点部署指导知识点详解 #### 一、实验目的 - **理解Hadoop原理机制**:深入了解Hadoop的工作原理及其背后的技术架构。 - **熟悉Hadoop集群体系结构**:掌握Hadoop集群中各组成部分的功能及其交互方式...

    hadoop搭建与eclipse开发环境设置.pdf

    本文旨在指导读者如何搭建Hadoop运行环境,并使用Eclipse在Windows上连接Ubuntu系统上的Hadoop进行开发与测试。整个过程分为三部分:Ubuntu安装、Hadoop安装和Eclipse配置。 部分一:Ubuntu安装 在开始搭建Hadoop...

    基于hadoop的云盘系统

    总结来说,这个基于Hadoop的云盘系统是一个综合性的项目,涉及后端开发、数据库管理、分布式存储和前端展示等多个方面。通过整合这些技术,系统可以实现高效、可靠的云存储服务,满足大规模用户对数据存储、分享和...

    Hadoop权威指南(中文版)2015上传.rar

    第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...

    software_hadoop.zip

    命令行工具如`hadoop fs`和`hadoop jar`是常见的操作方式,也可以通过Hadoop的Web界面查看集群状态。 8. **Hadoop生态**:Hadoop生态系统包含许多其他项目,如Hive(SQL-like查询工具)、Pig(数据分析工具)、...

    《Hadoop海量数据处理》高清完整PDF版

    读者将通过学习这些组件的原理和操作方法,掌握如何搭建一个稳定的Hadoop集群环境,并了解各个组件在集群中所扮演的角色和相互之间的协作方式。 应用篇会将基础理论知识与实际案例结合,通过具体的项目来展示Hadoop...

    hadoop权威指南_第4版_中文版

    《Hadoop权威指南》是大数据领域的一本经典...通过阅读《Hadoop权威指南》第4版中文版,读者不仅可以深入了解Hadoop的基本原理和操作,还能跟上Hadoop生态系统的发展趋势,为在大数据时代取得竞争优势打下坚实基础。

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 05 Hadoop API开发 共32页.pptx

    通过学习,学员将能够独立完成Hadoop的安装、配置与管理,掌握在Hadoop、操作系统以及关系型数据库之间传递数据的技能,制定有效数据集成方案,并熟练向Hadoop提交作业以及监控作业运行状态。 【Hadoop API开发】 ...

Global site tag (gtag.js) - Google Analytics