`

spark查看历史任务的信息

阅读更多




1、在spark-default.conf中增加:
spark.eventLog.enabled                  true
spark.eventLog.dir                           hdfs://10.0.0.37:9000/sparklogs
spark.eventLog.compress                true

 

2、在spark-env.sh中增加:

export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://10.0.0.37:9000/sparklogs"

(加入改行可以在start-history-server.sh启动中,不再加入hdfs://10.0.0.37:9000/sparklogs)


3、启动 start-history-server.sh 命令
4、然后就可以看到历史任务的详细信息

 

分享到:
评论

相关推荐

    一种基于历史任务分析的Apache Spark应用自动化调优方法.pdf

    基于历史任务分析的Apache Spark应用自动化调优方法 本文档提出了一种基于历史任务分析的Apache Spark应用自动化调优方法,该方法通过对Spark应用的任务提交接口进行封装,判断是否已有该Spark应用的分层灰盒时间...

    Spark生产优化总结

    UI 是一个非常有用的工具,可以查看任务的情况,设置 spark.eventLog.enabled 为 true 可以查看历史日志,运行的任务中,显示了 stage 的数据当前运行的 stage 输入和输出的数据量大小、shuffle 文件大小等信息。...

    基于spark的电影点评系统

    Spark作为大数据处理框架,以其高效、易用和可扩展性在分布式计算领域占据重要地位,特别适合大规模数据分析任务。 首先,我们需要理解Spark的核心概念。Spark是一种快速、通用且可扩展的大数据处理引擎,它提供了...

    1Spark生态和安装部署

    - **Spark Web UI**:提供了丰富的用户界面,用于查看集群状态、任务进度以及诊断性能问题。 - **Spark Event Log**:记录了 Spark 应用程序运行过程中的事件信息,可用于分析和调试。 - **Spark History Server**:...

    Spark安装包及部署文档

    - **启动Spark History Server**:为了查看Spark作业的历史记录,需要启动Spark History Server。 - **提交应用**:使用`spark-submit`命令提交Spark应用程序,指定YARN为资源管理器。 5. **注意事项**: - **...

    Spark V3.0 概述.pdf

    Apache Spark是一个大数据处理和分析的开源引擎,它的设计目标是快速、通用和可扩展,支持各种大数据处理任务,包括批处理、流处理、机器学习、图计算等。Spark的诞生标志着大数据处理能力的又一次飞跃,它不仅仅...

    Spark2.4.3集群部署

    * 启动Spark历史日志服务 Worker 节点的启动包括: * 启动Spark服务 4. 集群测试 集群测试包括: * 使用jps命令查看Master 节点和Worker 节点的进程 * 使用spark-shell命令测试Spark集群的计算功能 * 使用spark-...

    java提交spark任务到yarn平台的配置讲解共9页

    2. Spark History Server:启用Spark History Server,可以查看Spark作业的历史记录和日志。 六、优化技巧 1. 参数调优:根据集群资源和任务需求调整executor的数量、内存和CPU等参数。 2. 数据源和持久化:合理...

    spark完全分布式环境搭建.pdf

    Spark 配置文件是 Spark 的核心配置文件,包括 Spark 的运行模式、日志路径、历史服务器的配置等信息。在本文档中,Spark 配置文件的修改主要包括: * spark.master:Spark 主服务器的地址 * spark.eventLog....

    spark简介及使用

    如果某个 RDD 的部分分区丢失,Spark 可以通过重新计算丢失的分区来恢复,这个过程依赖于 RDD 的转换历史。这种机制使得 Spark 在处理大规模数据时既高效又可靠。 三、Spark 的部署 Spark 支持多种部署模式,包括...

    工信部Spark初级考前辅导.pdf

    - 18080:JobHistory端口,记录作业的历史信息。 【Spark性能误解】 虽然Spark通常比MapReduce快,但这种加速并非总是10x-100x。例如,如果Hadoop使用HDFS缓存,性能差距可能远小于100x。实际性能提升取决于具体...

    spark单节点调优

    - History Server (http://masterIP:18080):存储并展示完成的应用历史信息,需额外配置。 - HDFS UI (http://masterIP:50070):监控Hadoop文件系统的状态。 2. **工作负载数据集大小** 数据集大小应与硬件资源...

    基于spark的外卖大数据平台分析系统.zip

    在系统架构层面,Spark运行在Hadoop YARN或独立的Standalone集群上,提供资源管理和任务调度。对于大规模数据处理,可以采用Spark的弹性分布式数据集(RDD)和DataFrame/Dataset API,确保高效的数据并行处理和容错...

    code: spark for python developer

    2. Spark UI:通过Web界面实时查看作业状态、Stage信息等。 总结,Spark for Python开发者不仅需要理解Spark的核心概念和API,还需要掌握如何在Python环境中高效地读写数据、执行SQL、进行流处理以及机器学习任务。...

    超级详细的spark体系思维导图

    Spark Streaming支持多种数据源,如Kafka、Flume、Twitter等,并且可以与其他Spark组件如Spark SQL和MLlib集成,实现复杂的流处理任务。 **Spark-SQL**是Spark处理结构化数据的主要模块,它允许用户通过SQL或...

    spark之sparkStreaming 理解

    - **集成能力**:Spark Streaming的一个显著优势在于它可以无缝地运行在Spark平台上,这意味着开发者可以使用同一套代码来处理批处理任务和实时流数据。此外,Spark Streaming还能与其他Spark模块(如Spark SQL、...

Global site tag (gtag.js) - Google Analytics