`

Hadoop日志到底存在哪里?

 
阅读更多

初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。

 

Hadoop MapReduce日志分为两部分,一部分是服务日志,一部分是作业日志,具体介绍如下:

1. Hadoop 1.x版本

Hadoop 1.x中MapReduce的服务日志包括JobTracker日志和各个TaskTracker日志,他们的日志位置如下:

JobTracker:在JobTracker安装节点上,默认位置是

${hadoop.log.dir}/logs/*-jobtracker-*.log,该文件每天生成一个,旧的日志后缀是日期,当天的日志文件后缀是“.log”,其中${hadoop.log.dir}默认值是hadoop安装目录,即${HADOOP_HOME}。

TaskTracker:在各个TaskTracker安装节点上,默认位置是

$HADOOP_HOME/logs/*-tasktracker-*.log,该文件每天生成一个,旧的日志后面会跟一个日志,当天的日志文件后缀是“.log”

作业日志包括jobhistory日志和task日志两部分,其中,jobhistory日志是作业运行日志,包括作业启动时间、结束时间,每个任务的启动时间、结束时间,各种counter信息等,用户可以从这个日志中解析出作业运行的各种信息,是非常有价值的信息。默认存放位置是JobTracker所在节点的${hadoop.log.dir}/history目录下,可通过参数hadoop.job.history.location配置。每个task日志存放在task运行节点上,存放位置是${hadoop.log.dir}/userlogs/<jobid>/<attempt-id>目录下,每个task包含三个日志文件,分别是stdout、stderr和syslog,其中,stdout是通过标准输出打印出来的日志,比如System.out.println,注意,程序中通过标准输出打印的日志并不会直接显示在终端上,而是保存在这个文件中,syslog是通过log4j打印的日志,通常这个日志中包含的有用信息最多,也是错误调试中最关键的参考日志。

2. Hadoop 2.x版本

Hadoop 2.x中YARN系统的服务日志包括ResourceManager日志和各个NodeManager日志,他们的日志位置如下:

ResourceManager日志存放位置是Hadoop安装目录下的logs目录下的yarn-*-resourcemanager-*.log

NodeManager日志存放位置是各个NodeManager节点上hadoop安装目录下的logs目录下的yarn-*-nodemanager-*.log

应用程序日志包括jobhistory日志和Container日志,其中,jobhistory日志是应用程序运行日志,包括应用程序启动时间、结束时间,每个任务的启动时间、结束时间,各种counter信息等。

Container日志包含ApplicationMaster日志和普通Task日志,它们均存放在Hadoop安装目录下的userlogs目录中的application_xxx目录下,其中ApplicationMaster日志目录名称为container_xxx_000001,普通task日志目录名称则为container_xxx_000002,container_xxx_000003,….,同Hadoop 1.x一样,每个目录下包含三个日志文件:stdout、stderr和syslog,且具体含义是一样的。

3. 总结

Hadoop日志是用户定位问题的最重要渠道,对于初学者而言,往往意识不到这一点,或者即使意识到这一点,也找不到日志存放位置,希望本文对初学者有帮助。

原创文章,转载请注明: 转载自董的博客

分享到:
评论

相关推荐

    hadoop启动日志

    此外,Hadoop社区还开发了一些专门用于Hadoop日志分析的工具,如Apache Hadoop Log4j Viewer,方便用户快速定位和解析日志。 总之,理解和分析Hadoop启动日志是Hadoop运维工作的重要一环,通过深入挖掘这些日志,...

    基于Hadoop集群的分布式日志分析系统研究

    ### 基于Hadoop集群的分布式日志分析系统研究 #### 一、Hadoop及其在日志分析中的应用背景 随着互联网技术的飞速发展,各类Web2.0网站、电子商务平台以及大型网络游戏产生了空前的数据量。这些系统在运行过程中会...

    Hadoop1.0&2.0快速入门

    由于Hadoop能够处理大量非结构化和半结构化数据,因此在互联网公司中得到了广泛的应用,比如搜索引擎的日志分析、社交网络中用户行为的分析、零售商处理大量的交易数据等。 Hadoop的生态系统也在不断发展和完善。...

    hadoop安装过程中的问题

    (这是Hadoop的基础) ...3./etc/host 里配置 master和slaves 4.修改/etc/hostname 主机名 5、/etc/profile的java和Hadoop配置路径 ...3.最后发现是hdfs中存在上次的数据,删掉即可。: 安装ssh和解决jdk找不到path问腿

    Java-org.apache.hadoop

    Java-org.apache.hadoop是Apache Hadoop项目的核心组件,它在分布式计算领域扮演着至关重要的角色。Hadoop是由Apache软件基金会开发的一个开源框架,主要用于处理和存储大量数据。它设计的初衷是为了支持数据密集型...

    基于Hadoop的离线网站日志分析.zip

    1. 数据清洗:日志数据可能存在缺失值、异常值或格式错误,需要预处理步骤来过滤或修正这些数据。 2. 用户行为分析:通过分析用户的请求URL,可以识别出最常访问的页面、用户访问路径和会话模式,从而优化网站导航...

    基于Hadoop的Web日志分析项目源码

    Web日志是记录Web服务器与客户端交互的详细信息,包括访问时间、请求类型、用户行为等,分析这些日志有助于理解用户行为模式、网站性能以及可能存在的问题。 【标签解析】 "hadopp 软件/插件"标签表明该项目与...

    hadoop-common-0.23.8.jar_hadoop_

    总的来说,Hadoop Common是Hadoop生态的基石,它的存在使得Hadoop能够处理PB级别的数据,同时提供灵活的数据访问和处理能力。而0.23.8版本的发布,无疑为用户带来了更强大、更稳定的Hadoop使用体验。无论是开发新...

    Hadoop源码分析(完整版)

    Hadoop源码复杂且高度模块化,它的许多包之间存在着复杂的依赖关系。其中HDFS作为一个分布式文件系统,通过其API能够屏蔽不同类型的文件系统,包括本地文件系统、分布式文件系统,甚至是在线存储服务如Amazon S3。...

    hadoop-3.1.0-winutils-master(1).zip

    Hadoop的大数据处理能力使其在各行各业都有广泛的应用,例如互联网公司进行日志分析、金融机构处理交易数据、科研机构进行基因序列分析等。而WinUtils的存在使得Windows用户也能充分利用Hadoop的强大功能,无需局限...

    eclipse配置hadoop

    Eclipse 配置 Hadoop 及 MapReduce 开发指南 一、Eclipse 中配置 Hadoop 插件 配置 Hadoop 插件是使用 Eclipse 进行 MapReduce 开发的第一步。首先,需要安装 Eclipse 3.3.2 和 Hadoop 0.20.2-eclipse-plugin.jar ...

    hadoop0.20.0

    12. **升级和兼容性**:由于 Hadoop 不断发展,0.20.0 版本可能不支持某些新功能或与较新版本的库和工具存在兼容性问题。因此,在升级到更高版本时,需要谨慎评估和测试。 总结来说,Hadoop 0.20.0 是一个早期版本...

    基于Hadoop豆瓣电影数据分析实验报告

    数据通常以文本或CSV格式存在,需先导入Hadoop的Hive数据仓库进行预处理。Hive提供了SQL-like的语言来查询和管理数据,便于非程序员进行数据分析。 实验步骤如下: 1. **环境准备**:启动Hadoop集群,包括HDFS、...

    Hadoop测试题

    Hadoop 测试题 Hadoop 测试题主要涵盖了 Hadoop 的基本概念、架构、组件、应用场景等方面的知识点,本节对测试题的每个问题进行详细的解释和分析。 HDFS 1. HDFS 中,NameNode 负责管理文件系统的命名空间,...

    Hadoop In Action (Hadoop实战)中文版

    尽管Hadoop提供了强大的数据处理能力,但也存在一些挑战,例如数据安全问题、性能瓶颈等。为了应对这些挑战,通常采用以下策略: - **数据加密**:通过对敏感数据进行加密,保护数据的安全性和隐私。 - **负载均衡*...

    elasticsearch与hadoop比较

    然而,Elasticsearch在复杂数据分析方面与Hadoop或Spark相比还是存在一定的局限性。主要问题在于Elasticsearch集群的数据一致性。在正常的集群运行状态下,所有节点对于集群中master节点的选择应该是一致的,但在...

    hadoop流量统计程序

    2. 数据预处理:使用Hadoop的Map阶段对原始日志数据进行清洗,去除无效或不完整的记录,转换为统一格式。 3. 数据分组与统计:在Reduce阶段,根据特定的键(如IP地址、时间窗口)对数据进行分组,并计算每个分组的总...

    Hadoop技术答疑汇总

    ### Hadoop技术答疑知识点汇总 #### 一、YARN Log Aggregation - **知识点概述**:YARN(Yet Another Resource Negotiator)中的日志聚合(Log Aggregation)功能是指将作业运行过程中产生的日志文件集中存储到HDFS...

    hadoop权威指南第三版完整版

    - **Secondary NameNode**:辅助NameNode执行如合并编辑日志等操作,但不是必须存在的节点。 - **数据冗余与容错机制**:HDFS默认将每个数据块复制三份存储在不同的DataNode上,以实现数据的冗余和高可用性。 - **...

Global site tag (gtag.js) - Google Analytics