from http://hi.baidu.com/adamsi/blog/item/7415adef32fb121ffcfa3cd9.html
写过Hadoop程序的人都知道,引用第三方的jar是个麻烦事情。这里我介绍一个方法,可以用ant脚本把自己的代码类和所有的第三方jar都打包到一个jar中,然后就能用hadoop jar xxx.jar来运行整个程序。
对应的ant任务描述如下,百度空间贴代码不容易,我就不缩进了,大家谅解。
<target name="hadoop-jar" depends="compile" description="Create binary distribution">
<!-- 首先,我们把所有的第三方jar都复制到build/lib目录中 -->
<copy todir="${path.build.classes}/lib">
<fileset dir="lib">
<include name="**/*.jar"/>
<!-- 因为hadoop-*-core.jar在hadoop系统中已经有了,我们就不对其打包了 -->
<exclude name="**/hadoop-*-core.jar"/>
</fileset>
</copy>
<!-- 列出所有jar文件的名字,并生成一个有效的classpath字符串,放在hadoop-jar.classpath中 -->
<pathconvert property="hadoop-jar.classpath" pathsep=" ">
<regexpmapper from="^(.*)/lib/(.*\.jar)$" to="lib/\2" />
<path>
<fileset dir="${path.build.classes}/lib">
<include name="**/*.jar" />
</fileset>
</path>
</pathconvert>
<!-- 生成一个Manifest文件,包含刚生成的classpath字符串和这个jar的默认运行类 -->
<manifest file="MANIFEST.MF">
<attribute name="Class-Path" value="${hadoop-jar.classpath}" />
<attribute name="Main-Class" value="org.nogroup.Main" />
</manifest>
<!-- 把刚才生成的Manifest文件、程序的类文件和所有依赖的第三方jar都打包在一个jar中 -->
<jar basedir="${path.build.classes}" manifest="MANIFEST.MF" jarfile="${path.build}/learning-hadoop.jar">
<include name="**/*.class"/>
<include name="**/*.jar"/>
</jar>
<!-- 删除manifest文件 -->
<delete dir="${path.build.classes}/lib"/>
<delete file="MANIFEST.MF" />
</target>
我们主要在hadoop-0.15.0上使用这种打包方法,非常方便,在新版本上也是没有问题的。如果在你的hadoop cluster上有问题,欢迎留言交流。
分享到:
相关推荐
在这个压缩包中,包含了一些用于支持Hadoop 2.2版本开发的第三方jar包,这些jar包对于理解Hadoop的内部工作原理以及进行自定义开发具有重要意义。 1. **hadoop-hdfs-bkjournal-2.1.0-beta.jar**:这是Hadoop HDFS...
在这种情况下,描述中提到的“flink-shaded-hadoop-2-uber-2.7.5-10.0.jar”就是一个关键的第三方JAR,它是Flink为兼容Hadoop 2.7.5版本而构建的阴影(shaded)JAR,用于解决依赖冲突问题。 阴影JAR(Uber JAR)是...
在大数据处理领域,Hadoop是一个不可或缺的开源框架,主要用于...总之,正确配置和使用Hadoop的JAR包是开发Hadoop应用程序的关键。通过Eclipse这样的IDE,可以方便地管理这些依赖,加速大数据应用的开发和调试过程。
7. **开发与调试**:对于开发和调试Hadoop应用,使用`hadoop jar`命令可以提交MapReduce作业到集群上执行。例如,`hadoop jar myjob.jar com.example.MyMainClass`将运行包含在`myjob.jar`中的`MyMainClass`。 总之...
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...
在Hadoop生态系统中,JAR(Java Archive)文件扮演着至关重要的角色,它们包含了运行Hadoop应用所需的类和库。以下是两个压缩包子文件的详细信息: 1. **hadoop-common-2.0.5-alpha.jar**:这是Hadoop Common的JAR...
包含hadoop平台Java开发的所有所需jar包,例如activation-1.1.jar apacheds-i18n-2.0.0-M15.jar apacheds-kerberos-codec-2.0.0-M15.jar api-asn1-api-1.0.0-M20.jar api-util-1.0.0-M20.jar asm-3.2.jar avro-1.7.7...
"hadoop-2.7.2-hbase-jar"文件中的JAR包,包含HBase运行所需的类库和API,使得开发者可以在Hadoop集群上开发和运行HBase应用。 集成Hadoop和HBase时,通常会将HBase的JAR包添加到Hadoop的类路径中,确保Hadoop集群...
总的来说,"hadoop 所用的jar包"是开发和运行Hadoop应用必不可少的组成部分,它们提供了Hadoop框架的核心功能和API,使得开发者能够充分利用分布式计算的优势处理大数据问题。理解和掌握这些JAR包的用途和使用方法,...
在开发Hadoop应用程序时,Eclipse作为Java IDE是开发者常用的选择。为了在Eclipse中运行Hadoop 2.7.3程序,你需要确保正确配置了项目依赖并包含了所有必需的JAR包。以下是你需要知道的关键知识点: 1. **Hadoop环境...
这个"hadop jar包.rar"文件很显然是包含了运行Hadoop相关程序所需的jar包集合,用户解压后可以直接使用,省去了自行编译和配置的步骤。 Hadoop的核心组件主要包括两个:HDFS(Hadoop Distributed File System)和...
总结来说,"eclipse开发hadoop2.5.2所用到的jar"指的是在Eclipse中开发Hadoop应用时,需要导入的一系列JAR文件,包括Hadoop的核心组件、依赖库和其他辅助工具,以支持Hadoop MapReduce的编程和调试。这些JAR文件确保...
这个压缩包文件包含了运行和开发Hadoop应用程序所需的所有jar包。这些jar包是Hadoop生态系统的关键组成部分,它们提供了核心Hadoop的功能,包括分布式文件系统(HDFS)和MapReduce计算模型。 1. **Hadoop核心**:...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/Mac_OS_X-x86_64-64 下的所有文件 拷到 ...
它不仅包含了上述三个JAR文件中的类,还包含了其他必要的库,如Hadoop命令行工具,使得开发者可以轻松地与Hadoop集群进行交互。 这些JAR文件对于开发、部署和运行Hadoop应用是必不可少的。例如,如果你要编写一个...
hadoop-common-2.7.2.jar
在描述中提到的 "hadoop 2.7.5 eclipse jar" 指的是一个专门用于在Eclipse环境中开发和调试Hadoop应用的插件。 Hadoop的jar包通常包含了Hadoop的核心库,包括HDFS(Hadoop Distributed File System)和MapReduce等...
### 在Windows上使用Eclipse编写Hadoop应用程序 #### 前言 随着大数据技术的不断发展,Hadoop作为处理大规模数据集的重要工具之一,在企业和研究机构中得到了广泛应用。Hadoop主要由两个部分组成:Hadoop分布式...
本文将详细介绍如何使用 Eclipse 将 Hadoop 程序打包成 JAR 文件,并直接设定参数运行。通过本文,您将了解到 Eclipse 中的项目导出、JAR 文件生成、Hadoop 程序运行等知识点。 一、Eclipse 中的项目导出 在 ...
例如,如果要编写一个连接HBase的Java应用程序,需要包含HBase的client jar包,这样程序才能调用HBase的API。同时,由于HBase依赖于Hadoop,因此还需要包含Hadoop的jar包,以确保HBase能正确地与HDFS通信。 在开发...