在测试Spark Streaming时,大量的日志显示到控制台,影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上),可以通过修改Spark的日志配置的方式,不让Spark Streaming把它的日志显示在console
在Spark的conf目录下,把log4j.properties.template修改为log4j.properties,原来的内容如下:
log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
把log4j.rootCategory=INFO, console改为log4j.rootCategory=WARN, console即可抑制Spark把INFO级别的日志打到控制台上。如果要显示全面的信息,则把INFO改为DEBUG。
如果希望一方面把代码中的println打印到控制台,另一方面又保留Spark Streaming本身输出的日志,可以将它输出到日志文件中
log4j.rootCategory=INFO, console,FILE log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender log4j.appender.FILE.Threshold=DEBUG log4j.appender.FILE.file=/home/hadoop/spark.log log4j.appender.FILE.DatePattern='.'yyyy-MM-dd log4j.appender.FILE.layout=org.apache.log4j.PatternLayout log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-dd HH:mm:ss}] [%C{1}:%M:%L] %m%n # spark log4j.logger.org.apache.spark=INFO
上面的操作,spark的日志一方面打印到控制台,一方面写入到/home/hadoop/spark.log中了,这是日志的继承特性,后面再来改进,目前把log4j.rootCategory=INFO, console,FILE改为log4j.rootCategory=INFO, FILE即可
相关推荐
(1)利用SparkStreaming从文件目录读入日志信息,日志内容包含: ”日志级别、函数名、日志内容“ 三个字段,字段之间以空格拆分。请看数据源的文件。 (2)对读入都日志信息流进行指定筛选出日志级别为error或warn...
通过虚拟机环境的搭建、基础存储和处理平台的配置,以及针对日志的规范化处理和分析技术的运用,本文提出了一套完整的基于Spark的分布式网络日志处理系统的设计与实现方案。该方案不仅满足了大规模网络日志数据处理...
- `spark.eventLog.enabled`: 是否开启事件日志,便于事后分析和调试。 - `spark.ui.showConsoleProgress`: 是否在控制台显示进度条。 3. **高级配置与调优** - `spark.sql.broadcastTimeout`: 广播JOIN操作的...
在实际应用中,可能还需要考虑性能优化,例如调整Spark配置、分区策略,以及利用广播变量和累加器提高效率。此外,对于更复杂的日志格式,可能需要自定义解析逻辑。总之,Spark SQL为日志分析提供了一个强大而灵活的...
这里提到的"基于Flume+kafka+spark大型电商网站日志分析系统(离线+实时)"就是一个这样的解决方案,结合了三个关键组件:Apache Flume、Apache Kafka和Apache Spark。下面将详细介绍这三个技术及其在系统中的作用。...
spark 大数据日志分析项目所使用的配置文件,对应的编译器为idea2018社区版
spark2.3的配置文件log4j.properties,修改部分是为了只显示ERROR信息,隐藏INFO信息
同时,日志管理也非常重要,可以使用Spark的log4j配置来定制日志输出。 通过以上步骤,你可以理解并掌握Spark的基本安装、配置和使用方法。对于更深入的学习,建议参考官方文档和其他专业教程,了解更多的高级特性...
- **内存管理**:合理配置 Spark 的内存参数,避免 OOM 错误。 6. **监控和调试**: - **Spark Web UI**:Spark 提供了一个可视化界面,可以监控作业的执行情况,包括任务进度、资源使用等。 - **日志检查**:...
初始化Spark涉及到设置Spark的运行环境和配置参数。具体步骤如下: 1. **创建SparkConf对象**:设置应用名称和其他配置项。 2. **创建SparkContext对象**:通过SparkConf对象创建SparkContext,这是使用Spark的主要...
Spark配置是优化Spark应用程序性能、资源管理和运行时行为的关键因素。本篇文章将深入探讨Spark配置的默认值及其含义,帮助你更好地理解和调整Spark的工作方式。 首先,我们来看一些核心的Spark配置参数: 1. `...
本视频教程旨在通过实例讲解如何使用Spark SQL进行日志分析,以及如何在虚拟主机上搭建和配置Spark集群。学习本教程后,你将能够掌握以下技能: - 如何安装和配置Spark集群。 - 如何使用Spark SQL进行高效的数据...
### 基于Spark的用户上网WAP日志分析 #### 概述 在移动互联网蓬勃发展的背景下,用户的手机上网行为日益活跃,这对电信运营商来说既是机遇也是挑战。用户上网日志不仅记录了大量的用户个性化需求和偏好信息,还...
1. **配置文件**:如`spark-streaming-config.conf`,包含Spark Streaming的配置信息,如集群设置、数据源和输出设置等。 2. **源代码**:包括`main.py`或`app.scala`等,这是实际的Spark Streaming应用程序代码,...
通过运行Spark客户端、SparkWeb和Openfire服务器的日志来排查任何可能出现的问题。 在配置过程中,可能会遇到兼容性、权限、网络或配置错误等问题,需要根据具体情况进行调试。参考官方文档、社区论坛和已有的配置...
同时,可以通过Hadoop的Log4j配置,收集和分析Spark作业的日志。 9. **故障恢复与容错**: Spark在YARN上运行时,如果Executor失败,YARN会自动重新分配资源启动新的Executor,保证作业的连续性。通过配置`spark....
Spark 1.3 和 Hadoop 2.6 环境配置是大数据处理领域中的重要环节,它们共同构建了一个高效、可扩展的数据处理框架。Spark 是一个快速、通用且可扩展的大数据处理引擎,而 Hadoop 则是分布式存储和计算的基础平台。在...
Spark 配置文件是 Spark 的核心配置文件,包括 Spark 的运行模式、日志路径、历史服务器的配置等信息。在本文档中,Spark 配置文件的修改主要包括: * spark.master:Spark 主服务器的地址 * spark.eventLog....