SPARK_HOME/conf 下:
spark-defaults.conf 增加如下内容
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:8020/var/log/spark
spark.eventLog.compress true
spark-env.sh 增加如下内容
export SPARK_HISTORY_OPTS=”-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs:/master.et2:8020/var/log/spark”
启动start-history-server.sh
SPARK_HOME/conf 下: 执行 ./start-history-server.sh
spark job history web: master:18080
这样在spark任务运行完成之后,就可以通过web页面查看日志了
history server相关的配置参数描述
-
spark.history.updateInterval
默认值:10
以秒为单位,更新日志相关信息的时间间隔 -
spark.history.retainedApplications
默认值:50
在内存中保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,当再次访问已被删除的应用信息时需要重新构建页面。 -
spark.history.ui.port
默认值:18080
HistoryServer的web端口 -
spark.history.kerberos.enabled
默认值:false
是否使用kerberos方式登录访问HistoryServer,对于持久层位于安全集群的HDFS上是有用的,如果设置为true,就要配置下面的两个属性 -
spark.history.kerberos.principal
默认值:用于HistoryServer的kerberos主体名称 -
spark.history.kerberos.keytab
用于HistoryServer的kerberos keytab文件位置 -
spark.history.ui.acls.enable
默认值:false
授权用户查看应用程序信息的时候是否检查acl。如果启用,只有应用程序所有者和spark.ui.view.acls指定的用户可以查看应用程序信息;否则,不做任何检查 -
spark.eventLog.enabled
默认值:false
是否记录Spark事件,用于应用程序在完成后重构webUI -
spark.eventLog.dir
默认值:file:///tmp/spark-events
保存日志相关信息的路径,可以是hdfs://开头的HDFS路径,也可以是file://开头的本地路径,都需要提前创建 -
spark.eventLog.compress
默认值:false
是否压缩记录Spark事件,前提spark.eventLog.enabled为true,默认使用的是snappy
以spark.history开头的需要配置在spark-env.sh中的SPARK_HISTORY_OPTS,以spark.eventLog开头的配置在spark-defaults.conf
尊重原创,未经允许不得转载:http://blog.csdn.net/stark_summer/article/details/46459701
相关推荐
云梯的JobHistory日志包含了云梯作业的执行历史记录和配置信息。这些日志是由阿里内部的日志收集系统 TT (Time Tunnel) 实时收集并上传至服务器的。为了能够高效地处理这些日志数据,云梯开发团队选择了Spark ...
- 18080:JobHistory端口,记录作业的历史信息。 【Spark性能误解】 虽然Spark通常比MapReduce快,但这种加速并非总是10x-100x。例如,如果Hadoop使用HDFS缓存,性能差距可能远小于100x。实际性能提升取决于具体...
12. **Spark监控与调试**:通过Spark UI、Spark History Server和日志监控,可以追踪作业状态,诊断性能问题。 以上是Spark大数据处理中的关键知识点,它们涵盖了Spark的主要功能和使用场景,对于理解和掌握Spark...
2. Spark History Server:启用Spark History Server,可以查看Spark作业的历史记录和日志。 六、优化技巧 1. 参数调优:根据集群资源和任务需求调整executor的数量、内存和CPU等参数。 2. 数据源和持久化:合理...
<name>mapreduce.jobhistory.webapp.address <value>node1.itcast.cn:19888</value> ``` - **日志聚合**: 日志聚合功能允许将容器的日志文件聚合到一个中心位置(通常是HDFS),这有助于简化日志管理和分析过程...
4. 在`mapred-site.xml`中配置MapReduce框架,指定JobHistory Server和YARN资源管理器的地址。 5. 对于完全分布式,还需要配置`yarn-site.xml`,设置YARN的相关参数。 四、格式化NameNode 首次部署Hadoop时,需要...
配置Hadoop涉及修改`core-site.xml`(设置HDFS的默认名称节点)、`hdfs-site.xml`(定义副本数量和目录结构)以及`mapred-site.xml`(指定jobhistory服务器的端口,这里是10020,web端口为19888)。 四、Spark ...
1. Jobhistory机制:主要涉及NM收集日志、MRAppMaster收集JobHistory和JobHistoryServer的记录。JobHistoryServer存储作业的历史信息,为用户提供历史作业的详细情况。 2. RM调度器:包括调度器的简述和Fair...
MapReduce的JobHistory Server也需启动,以便记录和查看作业执行情况。 最后,进行集群测试。可以使用Hadoop自带的WordCount程序,将文本数据输入HDFS,然后运行MapReduce作业,观察输出结果是否正确。如果一切顺利...
- **MRAppMaster收集JobHistory:** - MRAppMaster在整个作业完成后会汇总日志信息。 - **JobHistoryServer:** - 专门的服务用于收集和展示所有作业的历史记录,便于后续的分析和审计。 **3.2 ResourceManager...
Hadoop 的主要组件如 NameNode(8020)、DataNode(50010)、ResourceManager(8032)、NodeManager(8040)和 JobHistory Server(10020)都有固定的默认端口,面试时可能会问到如何配置和理解这些端口的作用。...
YARN的功能点详细分析中包括了JobHistory机制,它记录了作业执行的历史信息,对于作业的调试和优化至关重要。YARN中的调度器(如FairScheduler)会根据资源的使用情况和预设策略进行资源的分配和调度,它包括了资源...
5. 启动Hadoop服务:依次启动DataNode、NameNode、SecondaryNameNode、YARN和MapReduce JobHistory Server等服务。 6. 测试Hadoop集群:通过`hadoop fs -ls /`检查HDFS是否正常工作,或者运行一个简单的MapReduce...
主要配置包括HDFS的名称节点(NameNode)、数据节点(DataNode)、MapReduce的JobHistory服务器和YARN的资源管理器(ResourceManager)。 **启动Hadoop服务** 在配置完成后,启动Hadoop的服务进程,包括NameNode、...
6. **Hadoop Shell 命令**:学习如何使用 Hadoop 提供的各种命令行工具,如 hdfs dfs 命令进行文件操作,以及 mr-jobhistory 命令查看作业历史。 7. **数据处理框架**:除了基本的 MapReduce,还可能涉及到 Pig、...