在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的
在Spark的conf目录下,把log4j.properties.template修改为log4j.properties,原来的内容如下:
#Set everything to be logged to the console
log4j.rootCategory=INFO, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
#Settings to quiet third party logs that are too verbose
log4j.logger.org.spark-project.jetty=WARN
log4j.logger.org.spark-project.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
把log4j.rootCategory=INFO, console改为log4j.rootCategory=WARN, console即可抑制Spark把INFO级别的日志打到控制台上。如果要显示全面的信息,则把INFO改为DEBUG。
如果希望一方面把代码中的println打印到控制台,另一方面又保留spark 本身输出的日志,可以将它输出到日志文件中
log4j.rootCategory=INFO, console,FILE
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
# Settings to quiet third party logs that are too verbose
log4j.logger.org.eclipse.jetty=WARN
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender
log4j.appender.FILE.Threshold=DEBUG
log4j.appender.FILE.file=/home/hadoop/spark.log
log4j.appender.FILE.DatePattern='.'yyyy-MM-dd
log4j.appender.FILE.layout=org.apache.log4j.PatternLayout
log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-dd HH:mm:ss}] [%C{1}:%M:%L] %m%n
# spark
log4j.logger.org.apache.spark=INFO
上面的操作,spark的日志一方面打印到控制台,一方面写入到/home/hadoop/spark.log中了,这是日志的继承特性,后面再来改进,目前把log4j.rootCategory=INFO, console,FILE改为log4j.rootCategory=INFO, FILE即可
相关推荐
(1)利用SparkStreaming从文件目录读入日志信息,日志内容包含: ”日志级别、函数名、日志内容“ 三个字段,字段之间以空格拆分。请看数据源的文件。 (2)对读入都日志信息流进行指定筛选出日志级别为error或warn...
- `spark.eventLog.enabled`: 是否开启事件日志,便于事后分析和调试。 - `spark.ui.showConsoleProgress`: 是否在控制台显示进度条。 3. **高级配置与调优** - `spark.sql.broadcastTimeout`: 广播JOIN操作的...
spark 大数据日志分析项目所使用的配置文件,对应的编译器为idea2018社区版
在实际应用中,可能还需要考虑性能优化,例如调整Spark配置、分区策略,以及利用广播变量和累加器提高效率。此外,对于更复杂的日志格式,可能需要自定义解析逻辑。总之,Spark SQL为日志分析提供了一个强大而灵活的...
spark2.3的配置文件log4j.properties,修改部分是为了只显示ERROR信息,隐藏INFO信息
### Spark安装配置教程 #### 一、前提准备 在开始安装Spark之前,有几个重要的准备工作需要完成。 1. **确保Java已安装**: - Spark依赖于Java环境运行,因此需要确保系统上已经安装了JDK,并且正确设置了`JAVA_...
通过虚拟机环境的搭建、基础存储和处理平台的配置,以及针对日志的规范化处理和分析技术的运用,本文提出了一套完整的基于Spark的分布式网络日志处理系统的设计与实现方案。该方案不仅满足了大规模网络日志数据处理...
Spark配置是优化Spark应用程序性能、资源管理和运行时行为的关键因素。本篇文章将深入探讨Spark配置的默认值及其含义,帮助你更好地理解和调整Spark的工作方式。 首先,我们来看一些核心的Spark配置参数: 1. `...
在Vmware的Centos7环境中配置Spark虚拟机涉及到多个步骤,包括系统设置、免密登录、Java环境配置、Hadoop的安装与配置以及Yarn的设置。以下是详细的知识点说明: 1. **系统设置**: - 修改主机名:使用`...
《Hive on Spark安装配置详解》 在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,常用于大规模数据集的查询和分析。然而,Hive默认使用MapReduce作为执行引擎,由于MapReduce的磁盘I/O特性,其性能相对较...
### 基于Spark的用户上网WAP日志分析 #### 概述 在移动互联网蓬勃发展的背景下,用户的手机上网行为日益活跃,这对电信运营商来说既是机遇也是挑战。用户上网日志不仅记录了大量的用户个性化需求和偏好信息,还...
对于 `spark-defaults.conf` 文件,虽然在这里未给出具体内容,但可以根据实际需求配置 Spark 的默认属性,如内存分配、日志级别等。 最后,确保全局环境变量的设置,如 `JAVA_HOME`, `SCALA_HOME`, `HADOOP_HOME` ...
- **内存管理**:合理配置 Spark 的内存参数,避免 OOM 错误。 6. **监控和调试**: - **Spark Web UI**:Spark 提供了一个可视化界面,可以监控作业的执行情况,包括任务进度、资源使用等。 - **日志检查**:...
本视频教程旨在通过实例讲解如何使用Spark SQL进行日志分析,以及如何在虚拟主机上搭建和配置Spark集群。学习本教程后,你将能够掌握以下技能: - 如何安装和配置Spark集群。 - 如何使用Spark SQL进行高效的数据...
同时,可以通过Hadoop的Log4j配置,收集和分析Spark作业的日志。 9. **故障恢复与容错**: Spark在YARN上运行时,如果Executor失败,YARN会自动重新分配资源启动新的Executor,保证作业的连续性。通过配置`spark....
- **配置日志级别**:在节点机上修改`/usr/local/spark/spark-2.3.1-bin-hadoop2.6/conf/log4j.properties`文件中的日志级别为`WARN`,减少不必要的日志输出。 - **配置`spark-env.sh`文件**:在Master机和节点机上...
Spark 配置文件是 Spark 的核心配置文件,包括 Spark 的运行模式、日志路径、历史服务器的配置等信息。在本文档中,Spark 配置文件的修改主要包括: * spark.master:Spark 主服务器的地址 * spark.eventLog....
Spark 1.3 和 Hadoop 2.6 环境配置是大数据处理领域中的重要环节,它们共同构建了一个高效、可扩展的数据处理框架。Spark 是一个快速、通用且可扩展的大数据处理引擎,而 Hadoop 则是分布式存储和计算的基础平台。在...
通过运行Spark客户端、SparkWeb和Openfire服务器的日志来排查任何可能出现的问题。 在配置过程中,可能会遇到兼容性、权限、网络或配置错误等问题,需要根据具体情况进行调试。参考官方文档、社区论坛和已有的配置...