spark查看历史任务的信息 - - ITeye博客

`

sxyqhyt

浏览: 80291 次
性别:
来自: 北京

最近访客更多访客>>

mzyp

czbkjava

feige1990

繁星水

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

spark查看历史任务的信息

博客分类：

spark

阅读更多

1、在spark-default.conf中增加：
spark.eventLog.enabled true
spark.eventLog.dir hdfs://10.0.0.37:9000/sparklogs
spark.eventLog.compress true

2、在spark-env.sh中增加：

export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://10.0.0.37:9000/sparklogs"

(加入改行可以在start-history-server.sh启动中，不再加入hdfs://10.0.0.37:9000/sparklogs)

3、启动 start-history-server.sh 命令
4、然后就可以看到历史任务的详细信息

分享到：

linux中-jar参数运行时classpath设置方法 | Spark把执行结果写入到mysql中

2015-05-18 15:56
浏览 1400
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

一种基于历史任务分析的Apache Spark应用自动化调优方法.pdf: 基于历史任务分析的Apache Spark应用自动化调优方法本文档提出了一种基于历史任务分析的Apache Spark应用自动化调优方法，该方法通过对Spark应用的任务提交接口进行封装，判断是否已有该Spark应用的分层灰盒时间...

Spark生产优化总结: UI 是一个非常有用的工具，可以查看任务的情况，设置 spark.eventLog.enabled 为 true 可以查看历史日志，运行的任务中，显示了 stage 的数据当前运行的 stage 输入和输出的数据量大小、shuffle 文件大小等信息。...

基于spark的电影点评系统: Spark作为大数据处理框架，以其高效、易用和可扩展性在分布式计算领域占据重要地位，特别适合大规模数据分析任务。首先，我们需要理解Spark的核心概念。Spark是一种快速、通用且可扩展的大数据处理引擎，它提供了...

1Spark生态和安装部署: - **Spark Web UI**：提供了丰富的用户界面，用于查看集群状态、任务进度以及诊断性能问题。 - **Spark Event Log**：记录了 Spark 应用程序运行过程中的事件信息，可用于分析和调试。 - **Spark History Server**：...

Spark安装包及部署文档: - **启动Spark History Server**：为了查看Spark作业的历史记录，需要启动Spark History Server。 - **提交应用**：使用`spark-submit`命令提交Spark应用程序，指定YARN为资源管理器。 5. **注意事项**： - **...

Spark V3.0 概述.pdf: Apache Spark是一个大数据处理和分析的开源引擎，它的设计目标是快速、通用和可扩展，支持各种大数据处理任务，包括批处理、流处理、机器学习、图计算等。Spark的诞生标志着大数据处理能力的又一次飞跃，它不仅仅...

Spark2.4.3集群部署: * 启动Spark历史日志服务 Worker 节点的启动包括： * 启动Spark服务 4. 集群测试集群测试包括： * 使用jps命令查看Master 节点和Worker 节点的进程 * 使用spark-shell命令测试Spark集群的计算功能 * 使用spark-...

java提交spark任务到yarn平台的配置讲解共9页: 2. Spark History Server：启用Spark History Server，可以查看Spark作业的历史记录和日志。六、优化技巧 1. 参数调优：根据集群资源和任务需求调整executor的数量、内存和CPU等参数。 2. 数据源和持久化：合理...

spark完全分布式环境搭建.pdf: Spark 配置文件是 Spark 的核心配置文件，包括 Spark 的运行模式、日志路径、历史服务器的配置等信息。在本文档中，Spark 配置文件的修改主要包括： * spark.master：Spark 主服务器的地址 * spark.eventLog....

spark简介及使用: 如果某个 RDD 的部分分区丢失，Spark 可以通过重新计算丢失的分区来恢复，这个过程依赖于 RDD 的转换历史。这种机制使得 Spark 在处理大规模数据时既高效又可靠。三、Spark 的部署 Spark 支持多种部署模式，包括...

工信部Spark初级考前辅导.pdf: - 18080：JobHistory端口，记录作业的历史信息。【Spark性能误解】虽然Spark通常比MapReduce快，但这种加速并非总是10x-100x。例如，如果Hadoop使用HDFS缓存，性能差距可能远小于100x。实际性能提升取决于具体...

spark单节点调优: - History Server (http://masterIP:18080)：存储并展示完成的应用历史信息，需额外配置。 - HDFS UI (http://masterIP:50070)：监控Hadoop文件系统的状态。 2. **工作负载数据集大小** 数据集大小应与硬件资源...

基于Spark的新闻推荐系统，包含爬虫项目、web网站以及spark推荐系统.zip: Apache Spark是一个分布式计算框架，以其高效的数据处理能力而闻名，特别适合大规模的机器学习任务。在新闻推荐系统中，Spark可以用来处理海量的用户行为数据，执行协同过滤、基于内容的推荐或深度学习等算法。协同...

基于spark的外卖大数据平台分析系统.zip: 在系统架构层面，Spark运行在Hadoop YARN或独立的Standalone集群上，提供资源管理和任务调度。对于大规模数据处理，可以采用Spark的弹性分布式数据集（RDD）和DataFrame/Dataset API，确保高效的数据并行处理和容错...

code: spark for python developer: 2. Spark UI：通过Web界面实时查看作业状态、Stage信息等。总结，Spark for Python开发者不仅需要理解Spark的核心概念和API，还需要掌握如何在Python环境中高效地读写数据、执行SQL、进行流处理以及机器学习任务。...

超级详细的spark体系思维导图: Spark Streaming支持多种数据源，如Kafka、Flume、Twitter等，并且可以与其他Spark组件如Spark SQL和MLlib集成，实现复杂的流处理任务。 **Spark-SQL**是Spark处理结构化数据的主要模块，它允许用户通过SQL或...

Global site tag (gtag.js) - Google Analytics