`
winse
  • 浏览: 94828 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

利用maven的资源提交spark任务

阅读更多

 官网的教程提交依赖的jar,使用 --jars 参数来添加额外的jar。这种方式比较费劲,如果依赖比较多需要一个个的弄,挺麻烦。

 

查看 SparkSubmit 源码时(结合help帮助),可以通过 --packages --repositories  两个参数来添加需要的包(当然也可以包括 primaryResource )。packages写法类似于sbt类似,多个包通过逗号分隔;repositories就是公共库的地址,多个库同样适用逗号分隔。

 

 ~/opt/spark-2.0.0-bin-2.6.3/bin/spark-submit  \
--packages \
"com.eshore.zhfx:analyser:2.5,org.elasticsearch:elasticsearch-spark-20_2.11:5.0.0-beta1" \
--repositories "http://cu1:8081/nexus/content/groups/public/" \
--class XXXXAnalyser --conf spark.es.nodes=cu2 --conf spark.es.port=9200 \
analyser-2.5.jar cu2:9092 cu2 $PWD >analyser.log 2>&1 &
 
分享到:
评论

相关推荐

    java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

    Java提交Spark任务到YARN平台是一项常见的大数据处理操作,它结合了Java的编程能力和Spark的高性能计算框架,以及Hadoop的资源管理系统YARN。在这个过程中,开发者需要理解多个关键概念和配置步骤,以便有效地调度和...

    java提交spark任务到yarn平台的配置讲解共9页

    2. 提交任务:在命令行中,使用`spark-submit`工具提交Spark任务到YARN集群: ```bash $ spark-submit \ --class com.example.SubmitToYarn \ --master yarn \ --deploy-mode cluster \ --jars /path/to/your/...

    大数据技术原理及应用课实验7 :Spark初级编程实践

    一旦应用编写完成,可以通过`spark-submit`命令提交到Spark集群执行。 接下来,实验中还涉及到了两个具体的编程任务: 1. 数据去重:这个任务要求合并两个文件A和B,并去除其中重复的内容。在Spark中,可以使用`...

    spark 笔记、学习笔记、资料

    总的来说,Spark 2.1.0提供了一套完整的工具和接口,使开发者能够方便地编写分布式计算应用程序,充分利用集群资源进行高效的数据处理。其核心理念在于快速、容错和易于使用,使得大数据分析变得更加便捷和强大。

    大数据-spark

    此外,Spark还支持多种共享变量,如广播变量和累加器,这些共享变量能够帮助开发者更好地管理和利用集群资源。 #### 二、引入Spark与环境配置 在编写Spark应用程序之前,首先需要配置好开发环境。Spark支持多种...

    Spark-core核心部分的用Elipse IDE软件编写得内容

    此外,Spark提供的`SparkUI`可以监控任务执行情况,包括任务进度、资源使用、延迟等,有助于性能调优。 11. **分布式缓存** Spark Core支持将数据缓存在内存或磁盘,以加速重复访问。Eclipse中可以通过`persist`或...

    基于Spark框架的新闻网大数据实时分析可视化系统项目.zip

    3. **Spark工作流程**:提交作业、数据分区、任务调度、容错机制等。 4. **实时数据处理**:使用Spark Streaming处理持续流入的数据,如DStream的创建、窗口操作、数据 joins 和状态管理。 5. **数据清洗与预处理**...

    spark-core3.1.0基础

    - **Kubernetes容器化运行**:随着云原生技术的发展,越来越多的企业倾向于采用Kubernetes来部署Spark任务。 #### 三、Spark Core 编程体验 ##### 3.1 工程搭建 在开发Spark程序时,首先需要搭建一个合适的开发...

    Hive on Spark安装配置详解.pdf

    Hive on Spark默认支持Spark on YARN,这是因为YARN作为资源管理器,可以更好地管理和调度Spark任务。在Spark on YARN模式下,又分为Cluster和Client两种部署模式。Cluster模式下,Driver程序在ResourceManager上...

    web平台调用hadoop集群2.0

    相较于Hadoop 1.x,YARN将数据处理任务(MapReduce)与资源调度分离,提高了集群的灵活性和利用率。这意味着Web应用程序可以通过API与YARN交互,提交任务并监控其进度。 为了实现Web平台调用Hadoop集群,我们需要...

    zeus安装部署全套资料

    在实际使用中,可能需要根据业务场景调整调度策略,优化资源利用率。例如,可以通过定制调度插件实现特定的负载均衡策略,或者开发新的任务类型适配新型计算框架。 总结,Zeus是大数据领域的一个强大工具,这套安装...

    百度去BMR解决方案,百度云平台

    - **运行Spark作业**:使用spark-submit命令提交作业。 - **查看结果**:分析输出结果,确认数据处理的准确性。 **3.4.4 Spark SQL** - **配置**:集成Spark SQL模块。 - **查看结果**:执行SQL查询,获取结果集。...

    精选_大数据Hadoop平台2-2、MapReduce_源码打包

    8. **分布式缓存**:在打包时,可以将依赖的资源文件(如词典、配置文件等)包含在JAR中,利用Hadoop的分布式缓存机制,提高作业执行效率。 9. **YARN调度**:在Hadoop 2.x中,MapReduce作业的调度由YARN(Yet ...

    Sparkling_

    最后,通过Spark的提交机制运行任务。 五、挑战与未来 虽然Sparkling为Java开发者带来了极大的便利,但同时也面临着性能优化、容错处理和资源管理等挑战。随着大数据技术的不断发展,Sparkling需要不断更新以适应...

    windows版hadoop插件

    3. **作业提交**:直接在IDEA中提交MapReduce或Spark作业,省去了命令行操作的繁琐步骤。 4. **日志查看**:实时监控作业执行过程中的日志输出,有助于调试和问题定位。 5. **资源管理**:查看集群的CPU、内存等资源...

    rwandaemr:配置卢旺达 EMR

    通过以上步骤,你可以在卢旺达成功配置并运行EMR集群,利用Java应用程序处理大数据任务。这个过程中,理解Hadoop生态系统、Java编程和AWS服务的使用至关重要。随着技术的不断进步,卢旺达的EMR配置将更加高效和智能...

    groupProjectData2310

    Java在数据处理领域有着广泛的应用,例如使用Java集合框架进行数据组织,通过Java的多线程能力进行大规模数据并行处理,或者利用Java的I/O流进行数据读写。此外,Java还与许多大数据处理框架紧密关联,如Hadoop和...

    Jigsaw:用于创建 Oozie 工作流的基于拼图的 UI

    Oozie是一个开源的工作流调度系统,它能够管理和协调Hadoop生态系统中的各种任务。Oozie是Apache软件基金会的一个顶级项目,旨在简化大数据处理过程中的作业管理和调度。它支持Hadoop MapReduce、Pig、Hive、Sqoop等...

Global site tag (gtag.js) - Google Analytics