`

在Hadoop平台上运行程序时,导入第三方类库的方法

阅读更多

    在将编写的MapReduce程序提交到Hadoop集群中运行时,往往需要导入第三方类库,否则很容易报出:Error: java.lang.ClassNotFoundException:异常,首先说一下以下四种解决方法:

 

(1) 将第三方jar包放在集群中每个节点$HADOOP_HOME/lib目录下或者JDK的ext目录下,其中$HAOOP_HOME为Hadoop的根目录。

 

 

      这种方法在linux下还可以写一个shell脚本,用scp或者rcp命令来实现,这脱离了java范畴,依赖操作系统,不好。

 

(2) 将所有的jar包解压缩,然后把他和源程序的类文件打包到一个jar包中,这种方法比较笨重,可以用程序去实现。

 

(3) 用DistributedCache .addFileToClassPath(Path file, Configuration conf)或者DistributedCache .addArchiveToClassPath(Path archive, Configuration conf) ,其中路径是HDFS上的一个路径,不要用HDFS://等类似的路径,而要用相对路径。

(4) 将第三方jar包和源程序类文件打包到一个jar包中,设置manifest.mf的classpath值,为jar包所在的路径,这个路径必须是相对应当前jar包的路径。

 

原理:

   主要借鉴了在提交作业到Haodop中时,hadoop寻找classpath的方式,寻找的地方来解决的。

分享到:
评论
2 楼 zz_19830103 2011-07-07  
谢谢了,学习了
1 楼 muruan 2010-12-24  
真是绝好文章,很有帮助,谢谢博主!

相关推荐

    实验2-在Hadoop平台上部署WordCount程序-孙淼1

    实验2的目的是在Hadoop平台上部署WordCount程序,以此来理解和体验云计算的基础应用。这个实验主要涉及以下几个关键知识点: 1. **Linux系统基础**:实验要求学生具备Linux系统的使用知识,包括基本的命令行操作、...

    window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包

    在Windows环境下,使用Eclipse开发MapReduce程序时,必须确保所有必要的Hadoop库都被正确引入。这是因为MapReduce是Hadoop生态系统中的核心组件,用于处理分布式计算任务。以下是一些关于如何在Eclipse中配置和使用...

    hadoop源码的第三方jar包

    在这个过程中,引入第三方库是非常常见的,因为Hadoop自身虽然强大,但并不是一个完全封闭的系统,它依赖于许多其他开源库来实现其功能。在这个压缩包中,包含了一些用于支持Hadoop 2.2版本开发的第三方jar包,这些...

    Hadoop系统安装运行与程序开发

    需要注意的是,在集群分布模式下,已经在单机或伪分布模式下编写并调试完成的程序,在不进行修改的情况下,可以运行在真实的分布式Hadoop集群中,尽管通常需要修改配置。 3. Hadoop集群远程作业提交与执行 在集群...

    实验2-在Hadoop平台上部署WordCount程序1

    【描述】:本实验旨在让学生掌握如何在Hadoop平台上部署并运行WordCount程序,这是Hadoop入门的经典案例,旨在统计文本中的单词出现次数。通过实践,学生将了解Hadoop分布式文件系统(HDFS)的工作原理以及MapReduce...

    hadoop在windows上运行的工具

    在Windows上运行Hadoop时,通常会遇到一些特定的问题,比如依赖库的缺失。本篇文章将深入探讨如何在Windows环境中成功运行Hadoop,重点介绍"libwinutils.lib"和"winutils.exe"这两个关键组件。 标题中提到的...

    基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip

    环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库...

    Hadoop用微软运行库

    在IT行业中,Hadoop是一个广泛使用的开源大数据处理框架,它主要设计用于分布式...通过提供必要的C运行时库,这个库确保了Hadoop在Windows系统上的平稳运行,对于在非Linux环境下的Hadoop使用者来说是一个宝贵的资源。

    Hadoop示例程序WordCount运行及详解

    本文将详细讲解Hadoop平台上WordCount的运行和实现。 基于Hadoop的map-reduce模型,WordCount程序可以将输入的文本文件进行词频统计,并将结果输出到HDFS中。在这个示例程序中,我们使用了Hadoop的map-reduce框架来...

    基于Kubernetes平台部署Hadoop实践.docx

    第三,Hadoop与Kubernetes分别属于两个不同的领域,一个是传统的大数据领域,一个是新兴的容器与微服务架构领域,这两个领域之间交集本来很小,加之Hadoop最近几年已经失去焦点,所以,没有多少人关注和研究Hadoop在...

    hadoop在windows上运行需要winutils支持和hadoop.dll等文件

    在Windows上运行Hadoop时,你需要下载与Hadoop版本相匹配的WinUtils,并将其添加到系统的PATH环境变量中,以便Hadoop可以找到并使用这些必要的系统工具。 接下来是"Hadoop.dll"文件,这是Hadoop在Windows环境中运行...

    基于Java和ssh在Hadoop平台上完成文件操作

    Java中可以通过第三方库,如JSch,实现SSH连接和命令执行。通过SSH,开发者可以编写程序自动执行Hadoop命令,如启动、停止服务,提交Job,甚至进行集群资源管理。 接下来,我们讨论如何在Hadoop平台上使用Java和SSH...

    Hadoop2.7.1源码(可直接导入Eclipse)

    Hadoop2.7.1源码(可直接导入Eclipse)

    Hadoop平台搭建.ppt

    配置JDK环境变量是为了使JDK能够在Hadoop平台上正确地运行。配置SSH是为了实现远程登录和文件传输。配置Hadoop是为了使Hadoop平台能够正确地运行。配置Hadoop包括配置hadoop-env.sh、core-site.xml和mapred-site.xml...

    hadoop Windows 运行环境

    它最初设计时主要考虑的是在Linux集群上运行,但随着技术的发展,Hadoop也开始支持在Windows平台上运行,尽管这并不像在Linux上那样常见。这个"hadopp Windows 运行环境"就是为在Windows操作系统上搭建和运行Hadoop...

    hadoop平台的搭建过程简介

    1. 虚拟机配置:搭建Hadoop平台前,通常需要在虚拟机上进行操作,这样做的好处是可以在隔离的环境中测试而不影响物理机的正常工作。虚拟机软件如VMware用于创建多个虚拟机实例,每个实例代表Hadoop集群中的一个节点...

    flink安装所需要的第三方jar

    标题中的“flink安装所需要的第三方jar”指的是在部署和运行Apache Flink项目时,除了Flink自身的基础库之外,可能还需要依赖的一些外部JAR包。这些JAR包通常包含了Flink与其它系统的交互所需的组件,比如Hadoop。在...

    Hadoop_windows运行解决办法

    由于官方并未提供Windows版本,你需要找到一个可靠的第三方实现,将其放入`HADOOP_HOME\bin`目录下,并确保可执行。 Hadoop使用HDFS(Hadoop Distributed File System)作为其分布式文件系统,你需要配置Hadoop的...

    Hadoop平台详细搭建过程

    现实中安装Hadoop时,需要从官方网站下载对应版本的软件包,而且不同版本的Hadoop可能在功能和配置上有所差异。 7. 配置文件编辑: 搭建过程中需要编辑多个配置文件,如core-site.xml、hdfs-site.xml、mapred-...

Global site tag (gtag.js) - Google Analytics