`

使用ANT实现Run-on-Hadoop功能

阅读更多

撇开eclipse的插件不说,如果直接在eclipse运行main方法,运行的时刻会提示map,reduce找不到的错误。其实就是没有把需要的类提供给集群环境。

 

看过使用hadoop-eclipse-plugin插件(http://winseclone.iteye.com/blog/1837035)最后解析的Run-on-Hadoop的实现,不难得出下面的方法。

首先打包jar,然后啊jar的路径给Main的-Dmapred.jar参数。这样,就可以把环境需要的class上传到hadoop了。 

主要的ant代码如下:

 

<property name="exported.jar" value="${build.dir}/tmp-runonhadoop-${now}.jar"></property>

<target name="jar" depends="build" description="Make tmp-run.jar">
	<jar jarfile="${exported.jar}" basedir="${build.classes}">
		<fileset dir="${build.classes}" includes="**/example/*" />
		<exclude name="**/core-site.xml"/>
	</jar>
</target>

<target name="WordCount" depends="build, jar" >
	<java classname="com.winse.hadoop.examples.WordCount" failonerror="true" fork="yes">
		<arg line="-fs=${fs.default.name} -jt=${mapred.job.tracker} -Dmapred.jar=${exported.jar} /test/input /test/output"/>
		
		<classpath refid="runon.classpath"/>
	</java>
</target>

 

源码

最后附有源码。

就build.xml重要,其他就是exmaples里面的wordcount的源码而已。

 

 

分享到:
评论

相关推荐

    Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码

    Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop 序列化】---- 代码 Hadoop 3.x(MapReduce)----【Hadoop ...

    spark--bin-hadoop3-without-hive.tgz

    总的来说,"spark--bin-hadoop3-without-hive.tgz"提供了一个在CentOS 8和Hadoop 3.1.3环境下运行的Spark实例,不包含Hive支持,适合那些需要高效大数据处理而不依赖Hive功能的用户。要充分利用这个版本,理解Spark...

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

    hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0

    在实际使用中,安装Hadoop-Eclipse-Plugin非常简单。只需将jar文件(如hadoop-eclipse-plugin-2.8.0.jar)复制到Eclipse的plugins目录下,然后重启Eclipse,即可在“New Project”中看到Hadoop相关的项目类型。在...

    spark-3.1.3-bin-without-hadoop.tgz

    总的来说,Spark-3.1.3-bin-without-hadoop.tgz是一个强大的大数据处理工具,它在多个维度上扩展了大数据处理的可能性,为开发者提供了丰富的功能和灵活性。不过,为了充分发挥其潜力,需要根据具体环境和需求进行...

    spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar

    spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar

    spark-2.0.0-bin-hadoop2.6.tgz

    本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载

    spark-2.1.0-bin-without-hadoop版本的压缩包,直接下载到本地解压后即可使用

    在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模...

    spark-3.0.0-bin-hadoop2.7.tgz

    Spark-3.0.0-bin-hadoop2.7版本确保与Hadoop 2.7的兼容性,这意味着用户可以在使用Hadoop作为存储和计算平台的同时,充分利用Spark的高性能计算优势。这涵盖了HDFS(Hadoop分布式文件系统)和其他Hadoop生态系统...

    spark-3.2.1-bin-hadoop2.7.tgz

    与Hadoop 2.7的兼容性意味着Spark可以无缝地集成到Hadoop生态系统中,使用HDFS作为默认的数据存储系统,同时也能与YARN资源管理器配合,进行集群资源的管理和调度。Hadoop 2.7版本引入了YARN(Yet Another Resource ...

    spark-2.4.7-bin-without-hadoop

    通过合理的配置和使用,你可以利用它的强大功能处理大规模数据,实现高效的分析和计算。对于那些已经有自定义存储解决方案或不需要Hadoop功能的开发者和数据科学家来说,这个版本无疑是理想的选择。

    spark-2.4.7-bin-hadoop2.7.tgz

    这个版本兼容Hadoop 2.7,这意味着它可以在使用Hadoop 2.7作为数据存储和资源管理的环境中无缝运行。Spark的核心特性包括批处理、交互式查询(通过Spark SQL)、流处理(通过Spark Streaming)以及机器学习(通过...

    spark-2.3.0-bin-hadoop2-without-hive

    《Spark 2.3.0 与 Hive 集成详解——无 Hive JAR 包版本...在使用时,需要自行配置 Hive 的元数据访问,实现 Hive on Spark 的功能。这种精简的集成方式有助于提高系统的灵活性和可维护性,同时满足特定场景下的需求。

    SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures

    为了更好地利用Hadoop的强大功能并保持对SQL的支持,出现了一系列的SQL-on-Hadoop解决方案,旨在将传统的SQL查询能力与Hadoop的大规模分布式计算能力相结合,满足企业级数据分析的需求。 #### Hive与Impala对比 - ...

    大数据安全-kerberos技术-hadoop安装包,hadoop版本:hadoop-3.3.4.tar.gz

    安装Hadoop-3.3.4时,需确保配置Kerberos以实现安全运行。首先,需要设置Kerberos的KDC服务器,并为每个Hadoop组件创建相应的服务主体名(SPN)。接着,为所有参与节点生成Kerberos密钥材料,包括principal和keytabs...

    spark-3.2.0-bin-hadoop3.2.tgz

    这个压缩包"spark-3.2.0-bin-hadoop3.2.tgz"包含了Spark 3.2.0版本的二进制文件,以及针对Hadoop 3.2的兼容构建。 Spark的核心组件包括:Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图...

    spark-3.1.3-bin-hadoop3.2.tgz

    在这个特定的压缩包"spark-3.1.3-bin-hadoop3.2.tgz"中,我们得到了Spark的3.1.3版本,它已经预编译为与Hadoop 3.2兼容。这个版本的Spark不仅提供了源码,还包含了预编译的二进制文件,使得在Linux环境下快速部署和...

    spark-3.0.0-bin-hadoop3.2

    8. **Hadoop 3.2兼容性**:此版本的Spark与Hadoop 3.2兼容,意味着可以充分利用Hadoop的新功能,如YARN的资源调度优化和HDFS的增强。 9. **机器学习库MLlib**:MLlib在3.0.0版本中也有所更新,支持更多的算法,同时...

    spark-3.0.0-bin-without-hadoop.tgz

    它通过引入基于内存计算的DAG(有向无环图)执行模型,大大减少了磁盘I/O,从而实现了速度上的飞跃。Spark的核心组件包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理库)。 ...

Global site tag (gtag.js) - Google Analytics