`
zhangxiong0301
  • 浏览: 355732 次
社区版块
存档分类
最新评论

yarn配置日志聚合

阅读更多

 

日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。

 

这个日志存储的就是具体map和reduce的日志,包括框架的和应用程序里自己打印的。这个日志聚合是用来看日志的,而mapreduce job history server,则是用来看某个application的大致统计信息的,包括启停时间,map任务数,reduce任务数以及各种计数器的值等等。job history server是抽象概要性的统计信息,而聚合日志是该application所有任务节点的详细日志集合。


查看日志的命令:$HADOOP_HOME/bin/yarn logs 
-applicationId <app Id>。app id在你命令行执行mapreduce任务的
时候会出现的,比如会出现这么一行:

15/03/16 20:14:27 INFO mapreduce.Job: The url to track the job: http://ylhadoop126:8088/proxy/application_1426507165782_0002/。
或者去你配置的
yarn.nodemanager.remote-app-log-dir所指定的hdfs路径找,具体路径格式为${yarn.nodemanager.remote-app-log-dir}/$user/logs/${app Id}/$nodelog

 

要实现日志聚集,只需要在yarn-site.xml中配置如下几个参数:

(1) yarn.log-aggregation-enable

参数解释:是否启用日志聚集功能。

默认值:false

(2) yarn.log-aggregation.retain-seconds

参数解释:在HDFS上聚集的日志最多保存多长时间。

默认值:-1

(3) yarn.log-aggregation.retain-check-interval-seconds

参数解释:多长时间检查一次日志,并将满足条件的删除,如果是0或者负数,则为上一个值的1/10。

默认值:-1

(4) yarn.nodemanager.remote-app-log-dir

参数解释:当应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效)。

默认值:/tmp/logs

分享到:
评论

相关推荐

    Hadoop大数据平台构建、YARN配置、启动与验证教学课件.pptx

    3. `&lt;name&gt;yarn.log-aggregation-enable&lt;/name&gt;`:开启或关闭日志聚合功能,值设为`true`则表示启用,这有助于收集和聚合应用程序的日志,简化日志管理。 4. `&lt;name&gt;yarn.log-aggregation.retain-seconds&lt;/name&gt;`:...

    Yarn常见问题维护手册V1.01

    用户可以通过配置来调整日志聚合的策略和存储位置。 **YARN 常见问题** 1. **任务提交异常** - `[YARN-10001]` 在 Windows 环境下提交 MR 任务失败:这通常与环境变量配置不正确、Hadoop 客户端与服务器版本不...

    HadoopHA集群部署、YARNHA配置、启动与验证教学课件.pptx

    2. **启用日志聚集功能**:`yarn.log-aggregation-enable`设为`true`,使日志在任务完成后自动聚合到HDFS上。 3. **设置日志保留时间**:`yarn.log-aggregation.retain-seconds`定义了在HDFS上保留日志的最长时间。 ...

    YARN监控管理与资源管理.pdf

    - **日志聚合**: 日志聚合功能允许将容器的日志文件聚合到一个中心位置(通常是HDFS),这有助于简化日志管理和分析过程。启用此功能后,应用程序完成后,ApplicationMaster会自动收集每个容器的日志,并将它们移动...

    flink on yarn 模式下,flink 1.12.5版本运行所需完整lib包

    - **YARN 日志**:YARN 提供的日志聚合功能可以帮助调试作业问题,通过 YARN Web UI 或命令行工具查看。 总的来说,成功运行 Flink 1.12.5 作业于 YARN 需要正确配置 Hadoop 集成、管理作业依赖、调整资源分配,并...

    Spark的Yarn模式

    为方便查看,可以设置日志聚合,通过配置YARN的`log-aggregation-enabled`参数为`true`,并在Spark的提交参数中添加`--conf spark.eventLog.enabled=true`和`--conf spark.eventLog.dir=hdfs://namenode:port/path/...

    编写YARN应用程序的快速而有趣的方式。___下载.zip

    8. **日志聚合**:YARN提供了一种集中的日志聚合机制,方便开发者查看和分析应用运行时的日志。 在"___下载.zip"的"Kitten-master"项目中,你可能找到相关的源代码和文档,帮助你理解和学习如何实现上述步骤。项目...

    airflow-yarn-executor-plugin:利用YARN执行任务的实验气流执行器-进行中

    6. **日志聚合**:YARN支持日志聚合,使得所有任务的日志都可在一个地方查看,这对于调试和问题排查至关重要。 “airflow-yarn-executor-plugin-master”这个文件名表明这是项目的主分支或版本,可能包含了源代码、...

    伪分布式hadoop的配置信息

    - **yarn.log-aggregation-enable**: 控制日志聚合功能是否启用。 - **yarn.log-aggregation.retain-seconds**: 设置日志保留的时间长度,默认为86400秒(即24小时),可以根据需要进行调整。 #### 4. MapReduce...

    Hodoop3.3.1 集群配置 笔记

    3. **日志聚合**:配置日志聚合功能,方便收集和分析 NodeManager 的日志。 **九、优化与调优** 1. **参数调整**:根据实际硬件和负载情况,调整 Hadoop 相关配置参数以提高性能。 2. **性能监控**:定期评估集群...

    hadoop 2.X 伪分布式配置文件

    3. **配置文件**:主要的配置文件包括`core-site.xml`(核心配置)、`hdfs-site.xml`(HDFS配置)、`yarn-site.xml`(YARN配置)和`mapred-site.xml`(MapReduce配置)。这些文件中包含的参数定义了服务的行为和相互...

    Hadoop默认配置文件

    2. **日志管理**:配置日志级别、日志路径和日志聚合策略。 3. **命名空间**:包括Hadoop元数据的存储位置和命名空间的最大元素数量。 4. **缓存机制**:如本地文件系统的缓存配置,影响I/O性能。 接下来,`hdfs-...

    大数据采集技术-Flume监控日志到HDFS.pptx

    Flume作为Apache Hadoop生态的一部分,被广泛用于大规模日志数据的采集、聚合和传输。以下是关于"Flume监控日志到HDFS"的详细知识点: 1. **Flume简介**:Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量...

    高级软件人才培训专家-Hadoop课程资料-3-第三章 - MapReduce & YARN入门

    - **环境搭建**:安装配置Hadoop集群,包括配置HDFS、YARN、MapReduce等相关服务。 - **注意事项**:确保所有节点之间的网络通信顺畅;合理设置内存、CPU等硬件资源分配;正确配置YARN和MapReduce参数以优化性能。 ...

    Hadoop日志分析的数据包

    配置文件主要包括`core-site.xml`(核心配置)、`hdfs-site.xml`(HDFS配置)、`mapred-site.xml`(MapReduce配置)和`yarn-site.xml`(YARN配置)。 3. **格式化NameNode**:首次启动Hadoop集群前,需要对NameNode...

    Hadoop 0.20.1 配置手册-高清pdf文字版

    7. **集群监控与日志管理**:了解如何配置和使用Hadoop自带的监控工具,如Nagios、Ganglia,以及日志聚合工具Flume和Scribe,以便于监控集群状态和调试问题。 8. **故障排查**:提供常见问题及解决方案,帮助用户...

    【IT十八掌徐培成】Hadoop第02天-05.hadoop类库和配置文件抽取-2nn配置.zip

    配置YARN可以调整资源分配策略,影响应用程序的运行效率。 7. **Hadoop生态系统**:除了核心组件,Hadoop还有许多关联项目,如HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据分析平台)、Spark(快速计算...

    Hadoop HA集群配置.docx

    3. **监控和日志聚合**:为了提高集群的可管理性和故障排查效率,还需要设置监控系统(如Ambari Metrics Collector)和日志聚合工具(如Flume或Logstash),以便集中查看和分析整个集群的状态和日志信息。...

    Hadoop 分布式集群搭建_部分2.docx

    这个文件配置了YARN的运行参数,包括设置`yarn.nodemanager.aux-services`来启用MapReduce的混洗服务,`yarn.resourcemanager.hostname`指定ResourceManager的位置,以及`yarn.log-aggregation-enable`开启日志聚合...

    基于Hadoop 集群的日志分析系统的设计与实现.docx

    6. 性能优化:通过调整Hadoop参数(如MapReduce的槽位数、内存分配等),以及使用YARN(Yet Another Resource Negotiator)进行资源调度,提高系统整体性能。 7. 故障恢复:设计冗余备份策略,如HDFS的副本机制,...

Global site tag (gtag.js) - Google Analytics