`

spark 查看 job history 日志

阅读更多

SPARK_HOME/conf 下:

spark-defaults.conf 增加如下内容

spark.eventLog.enabled true 
spark.eventLog.dir hdfs://master:8020/var/log/spark 
spark.eventLog.compress true

spark-env.sh 增加如下内容

export SPARK_HISTORY_OPTS=”-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs:/master.et2:8020/var/log/spark”

启动start-history-server.sh

SPARK_HOME/conf 下: 执行 ./start-history-server.sh

spark job history web: master:18080

这样在spark任务运行完成之后,就可以通过web页面查看日志了

history server相关的配置参数描述

  1. spark.history.updateInterval 
      默认值:10 
      以秒为单位,更新日志相关信息的时间间隔

  2. spark.history.retainedApplications 
      默认值:50 
      在内存中保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,当再次访问已被删除的应用信息时需要重新构建页面。

  3. spark.history.ui.port 
      默认值:18080 
      HistoryServer的web端口

  4. spark.history.kerberos.enabled 
      默认值:false 
      是否使用kerberos方式登录访问HistoryServer,对于持久层位于安全集群的HDFS上是有用的,如果设置为true,就要配置下面的两个属性

  5. spark.history.kerberos.principal 
      默认值:用于HistoryServer的kerberos主体名称

  6. spark.history.kerberos.keytab 
      用于HistoryServer的kerberos keytab文件位置

  7. spark.history.ui.acls.enable 
      默认值:false 
      授权用户查看应用程序信息的时候是否检查acl。如果启用,只有应用程序所有者和spark.ui.view.acls指定的用户可以查看应用程序信息;否则,不做任何检查

  8. spark.eventLog.enabled 
      默认值:false 
      是否记录Spark事件,用于应用程序在完成后重构webUI

  9. spark.eventLog.dir 
      默认值:file:///tmp/spark-events 
      保存日志相关信息的路径,可以是hdfs://开头的HDFS路径,也可以是file://开头的本地路径,都需要提前创建

  10. spark.eventLog.compress 
      默认值:false 
      是否压缩记录Spark事件,前提spark.eventLog.enabled为true,默认使用的是snappy

以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.conf 
尊重原创,未经允许不得转载:http://blog.csdn.net/stark_summer/article/details/46459701

6
2
分享到:
评论

相关推荐

    Spark Streaming

    云梯的JobHistory日志包含了云梯作业的执行历史记录和配置信息。这些日志是由阿里内部的日志收集系统 TT (Time Tunnel) 实时收集并上传至服务器的。为了能够高效地处理这些日志数据,云梯开发团队选择了Spark ...

    工信部Spark初级考前辅导.pdf

    - 18080:JobHistory端口,记录作业的历史信息。 【Spark性能误解】 虽然Spark通常比MapReduce快,但这种加速并非总是10x-100x。例如,如果Hadoop使用HDFS缓存,性能差距可能远小于100x。实际性能提升取决于具体...

    Spark大数据处理:技术、应用与性能优化 (大数据技术丛书).pdf

    12. **Spark监控与调试**:通过Spark UI、Spark History Server和日志监控,可以追踪作业状态,诊断性能问题。 以上是Spark大数据处理中的关键知识点,它们涵盖了Spark的主要功能和使用场景,对于理解和掌握Spark...

    java提交spark任务到yarn平台的配置讲解共9页

    2. Spark History Server:启用Spark History Server,可以查看Spark作业的历史记录和日志。 六、优化技巧 1. 参数调优:根据集群资源和任务需求调整executor的数量、内存和CPU等参数。 2. 数据源和持久化:合理...

    YARN监控管理与资源管理.pdf

    <name>mapreduce.jobhistory.webapp.address <value>node1.itcast.cn:19888</value> ``` - **日志聚合**: 日志聚合功能允许将容器的日志文件聚合到一个中心位置(通常是HDFS),这有助于简化日志管理和分析过程...

    hadoop完全分布式安装(二)

    4. 在`mapred-site.xml`中配置MapReduce框架,指定JobHistory Server和YARN资源管理器的地址。 5. 对于完全分布式,还需要配置`yarn-site.xml`,设置YARN的相关参数。 四、格式化NameNode 首次部署Hadoop时,需要...

    DataHubble配置说明文档1

    配置Hadoop涉及修改`core-site.xml`(设置HDFS的默认名称节点)、`hdfs-site.xml`(定义副本数量和目录结构)以及`mapred-site.xml`(指定jobhistory服务器的端口,这里是10020,web端口为19888)。 四、Spark ...

    YARN框架代码详细分析

    1. Jobhistory机制:主要涉及NM收集日志、MRAppMaster收集JobHistory和JobHistoryServer的记录。JobHistoryServer存储作业的历史信息,为用户提供历史作业的详细情况。 2. RM调度器:包括调度器的简述和Fair...

    Hadoop集群搭建详细简明教程

    MapReduce的JobHistory Server也需启动,以便记录和查看作业执行情况。 最后,进行集群测试。可以使用Hadoop自带的WordCount程序,将文本数据输入HDFS,然后运行MapReduce作业,观察输出结果是否正确。如果一切顺利...

    Yarn框架代码详细分析V0.3.pdf

    - **MRAppMaster收集JobHistory:** - MRAppMaster在整个作业完成后会汇总日志信息。 - **JobHistoryServer:** - 专门的服务用于收集和展示所有作业的历史记录,便于后续的分析和审计。 **3.2 ResourceManager...

    大数据技术之高频面试题

    Hadoop 的主要组件如 NameNode(8020)、DataNode(50010)、ResourceManager(8032)、NodeManager(8040)和 JobHistory Server(10020)都有固定的默认端口,面试时可能会问到如何配置和理解这些端口的作用。...

    Yarn框架代码详细分析

    YARN的功能点详细分析中包括了JobHistory机制,它记录了作业执行的历史信息,对于作业的调试和优化至关重要。YARN中的调度器(如FairScheduler)会根据资源的使用情况和预设策略进行资源的分配和调度,它包括了资源...

    Hadoop平台搭建方案_hadoop_

    5. 启动Hadoop服务:依次启动DataNode、NameNode、SecondaryNameNode、YARN和MapReduce JobHistory Server等服务。 6. 测试Hadoop集群:通过`hadoop fs -ls /`检查HDFS是否正常工作,或者运行一个简单的MapReduce...

    hadoop超级详细安装文档

    主要配置包括HDFS的名称节点(NameNode)、数据节点(DataNode)、MapReduce的JobHistory服务器和YARN的资源管理器(ResourceManager)。 **启动Hadoop服务** 在配置完成后,启动Hadoop的服务进程,包括NameNode、...

    hadoop-examples:https

    6. **Hadoop Shell 命令**:学习如何使用 Hadoop 提供的各种命令行工具,如 hdfs dfs 命令进行文件操作,以及 mr-jobhistory 命令查看作业历史。 7. **数据处理框架**:除了基本的 MapReduce,还可能涉及到 Pig、...

Global site tag (gtag.js) - Google Analytics