使用ANT实现Run-on-Hadoop功能 - - ITeye博客

`

winseclone

浏览: 57969 次

最近访客更多访客>>

winse

xiefapan

chenweiye120

sunbin

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hduqinyunhao： ...
TabbedProperties实现

使用ANT实现Run-on-Hadoop功能

博客分类：

bigdata

ant run-on-hadoop

阅读更多

撇开eclipse的插件不说，如果直接在eclipse运行main方法，运行的时刻会提示map，reduce找不到的错误。其实就是没有把需要的类提供给集群环境。

看过使用hadoop-eclipse-plugin插件（http://winseclone.iteye.com/blog/1837035）最后解析的Run-on-Hadoop的实现，不难得出下面的方法。

首先打包jar，然后啊jar的路径给Main的-Dmapred.jar参数。这样，就可以把环境需要的class上传到hadoop了。

主要的ant代码如下：

<property name="exported.jar" value="${build.dir}/tmp-runonhadoop-${now}.jar"></property>

<target name="jar" depends="build" description="Make tmp-run.jar">
	<jar jarfile="${exported.jar}" basedir="${build.classes}">
		<fileset dir="${build.classes}" includes="**/example/*" />
		<exclude name="**/core-site.xml"/>
	</jar>
</target>

<target name="WordCount" depends="build, jar" >
	<java classname="com.winse.hadoop.examples.WordCount" failonerror="true" fork="yes">
		<arg line="-fs=${fs.default.name} -jt=${mapred.job.tracker} -Dmapred.jar=${exported.jar} /test/input /test/output"/>
		
		<classpath refid="runon.classpath"/>
	</java>
</target>

源码：

最后附有源码。

就build.xml重要，其他就是exmaples里面的wordcount的源码而已。

ant-run-on-hadoop.rar (2.9 KB)
下载次数: 6

分享到：

masters用来启动secondarynamenode | 使用hadoop-eclipse-plugin插件

2013-03-27 18:53
浏览 1054
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop 3.x（MapReduce）----【Hadoop 序列化】---- 代码: Hadoop 3.x（MapReduce）----【Hadoop 序列化】---- 代码 Hadoop 3.x（MapReduce）----【Hadoop 序列化】---- 代码 Hadoop 3.x（MapReduce）----【Hadoop 序列化】---- 代码 Hadoop 3.x（MapReduce）----【Hadoop ...

spark--bin-hadoop3-without-hive.tgz: 总的来说，"spark--bin-hadoop3-without-hive.tgz"提供了一个在CentOS 8和Hadoop 3.1.3环境下运行的Spark实例，不包含Hive支持，适合那些需要高效大数据处理而不依赖Hive功能的用户。要充分利用这个版本，理解Spark...

hadoop最新版本3.1.1全量jar包: hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0: 在实际使用中，安装Hadoop-Eclipse-Plugin非常简单。只需将jar文件（如hadoop-eclipse-plugin-2.8.0.jar）复制到Eclipse的plugins目录下，然后重启Eclipse，即可在“New Project”中看到Hadoop相关的项目类型。在...

spark-3.1.3-bin-without-hadoop.tgz: 总的来说，Spark-3.1.3-bin-without-hadoop.tgz是一个强大的大数据处理工具，它在多个维度上扩展了大数据处理的可能性，为开发者提供了丰富的功能和灵活性。不过，为了充分发挥其潜力，需要根据具体环境和需求进行...

spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar: spark-assembly-1.6.0-cdh5.9.2-hadoop2.6.0-cdh5.9.2.jar

spark-2.4.7-bin-without-hadoop: 通过合理的配置和使用，你可以利用它的强大功能处理大规模数据，实现高效的分析和计算。对于那些已经有自定义存储解决方案或不需要Hadoop功能的开发者和数据科学家来说，这个版本无疑是理想的选择。

spark-2.0.0-bin-hadoop2.6.tgz: 本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模...

spark-3.0.0-bin-hadoop2.7.tgz: Spark-3.0.0-bin-hadoop2.7版本确保与Hadoop 2.7的兼容性，这意味着用户可以在使用Hadoop作为存储和计算平台的同时，充分利用Spark的高性能计算优势。这涵盖了HDFS（Hadoop分布式文件系统）和其他Hadoop生态系统...

spark-3.2.0-bin-hadoop3.2.tgz: 这个压缩包"spark-3.2.0-bin-hadoop3.2.tgz"包含了Spark 3.2.0版本的二进制文件，以及针对Hadoop 3.2的兼容构建。 Spark的核心组件包括：Spark Core、Spark SQL、Spark Streaming、MLlib（机器学习库）和GraphX（图...

spark-3.2.0-bin-hadoop3-without-hive: 需要注意的是，对于没有 Hive 支持的 Spark，你可能需要使用其他方式来实现数据仓库的功能，比如使用 Parquet 或 Avro 格式存储数据，或者利用 Spark 自身的数据湖解决方案——Delta Lake。总结来说，“spark-...

spark-3.2.1-bin-hadoop2.7.tgz: 与Hadoop 2.7的兼容性意味着Spark可以无缝地集成到Hadoop生态系统中，使用HDFS作为默认的数据存储系统，同时也能与YARN资源管理器配合，进行集群资源的管理和调度。Hadoop 2.7版本引入了YARN（Yet Another Resource ...

spark-2.4.7-bin-hadoop2.7.tgz: 这个版本兼容Hadoop 2.7，这意味着它可以在使用Hadoop 2.7作为数据存储和资源管理的环境中无缝运行。Spark的核心特性包括批处理、交互式查询（通过Spark SQL）、流处理（通过Spark Streaming）以及机器学习（通过...

SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures: 为了更好地利用Hadoop的强大功能并保持对SQL的支持，出现了一系列的SQL-on-Hadoop解决方案，旨在将传统的SQL查询能力与Hadoop的大规模分布式计算能力相结合，满足企业级数据分析的需求。 #### Hive与Impala对比 - ...

spark-assembly-1.5.2-hadoop2.6.0.jar: Spark-assembly-1.5.2-hadoop2.6.0.jar中的优化包括RDD（弹性分布式数据集）的缓存策略、Task调度优化、内存管理优化等，以确保在大数据处理中实现高效的性能。 7. 开发和调试：开发者在本地开发时，可以直接...

spark-2.4.5-bin-without-hadoop.tgz: spark-2.4.5-bin-without-hadoop.tgz spark最新已编译好的包，...export SPARK_DIST_CLASSPATH=$(hadoop --config /opt/bigdata/hadoop-2.9.2/etc/hadoop classpath) export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

大数据安全-kerberos技术-hadoop安装包，hadoop版本：hadoop-3.3.4.tar.gz: 安装Hadoop-3.3.4时，需确保配置Kerberos以实现安全运行。首先，需要设置Kerberos的KDC服务器，并为每个Hadoop组件创建相应的服务主体名（SPN）。接着，为所有参与节点生成Kerberos密钥材料，包括principal和keytabs...

spark-2.3.0-bin-hadoop2-without-hive: 《Spark 2.3.0 与 Hive 集成详解——无 Hive JAR 包版本...在使用时，需要自行配置 Hive 的元数据访问，实现 Hive on Spark 的功能。这种精简的集成方式有助于提高系统的灵活性和可维护性，同时满足特定场景下的需求。

Global site tag (gtag.js) - Google Analytics