`
qindongliang1922
  • 浏览: 2205209 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:118187
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126569
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60566
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71804
社区版块
存档分类
最新评论

Hadoop问题笔记之五问五答-日志配置

阅读更多
接着上次,散仙所写的文章,在Win7上的eclipse中使用Apache Hadoop2.2.0对接CDH5.3的Hadoop2.5调试时,很顺利,所有的问题全部KO,今天散仙把项目整理了一下,上传到svn上,这次运行的地方是正宗的Apache社区版本Hadoop2.2的集群上(公司有两种hadoop集群(CDH的和Apache的))在使用过程中遇到一下几个问题,特记于此:


问题清单:
修真门槛障碍描述
1            手写MapReduce中如何指定hadoop开启递归文件夹功能?
2             关于在Hadoop中使用配置文件,或者如何共享配置文件?
3             我在自己写的Mapper或者Reducer中使用Log4j记录的log究竟在哪里可以看到?
4出现Connection Refused异常时,该如何解决?
5如何启用hadoop的JobHistoryServer?






问题一:

默认的hadoop的inputpath的路径,是只能读取到一级的,也就是说你这个目录下只能放文件,不能在放目录了,如果你放了目录,那么hadoop就会抛出异常,说当前path不是一个文件,所以你可以开启递归读取的功能,在main方法中的驱动类中,加入代码如下:



FileInputFormat.setInputDirRecursive(job, true);//设置可以递归读取目录





问题二:

这个问题在hadoop也比较常见,关于共享文件的配置,请参考,散仙以前的
http://qindongliang.iteye.com/blog/2038108文章

在这里,散仙扩展另外一个问题,关于如何在hadoop使用共享变量,比如初始化时,我有一个Map记录了一些公用的信息,在MapReduce的执行过程中,每个map或reduce方法,都有可能访问这个HashMap来获取一些信息,那么这个Map应该在什么时候初始化?

答案: 是在Hadoop的setup方法时,初始化才有效,如果你在main方法的第一行代码,就初始化了这个HashMap,那么在mapreduce过程中去访问这个变量是不会生效的,因为main方法启动jvm和Hadoop的jvm不是同一个jvm,所以就相当于刻舟求剑了,这一点需要注意下,只有在setup里面初始化的资源,才是和map或者reduce方法,共享同一个jvm




问题三:

关于如何在hadoop中,查看我们使用log4j记录的日志信息,请参考,散仙以前的http://qindongliang.iteye.com/blog/2038096文章

问题四:
出现Connection Refused异常时,如何解决? 这个问题,hadoop官网已经给了很详细的解释了,感兴趣的朋友,请参考这个链接:https://wiki.apache.org/hadoop/ConnectionRefused
出现这个问题的原因,一般不是程序代码的问题,而是hadoop的集群所在的linux的hosts出现了问题,关注点:
(1)检测linux的/etc/host文件的IP映射是否有问题
(2)SSH的无秘钥的登陆,是否出现问题
(3)hadoop的/etc/hadoop的配置文件,是否所有的节点都一致


问题五:

可能有的朋友,还不知道JobHistoryServer这个东东是干啥的,没关系,大家在使用hadoop时在8088的界面上,是否经常有history链接的页面打不开? 你猜的没错,这个server就是提供了一个hadoop基于Web页面查看log的一个http链接,它在hadoop的8088的界面上的超链接如下图:




具体的配置和启动,参考如下代码:
sbin/mr-jobhistory-daemon.sh start historyserver

#yarn-site.xml
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>h1:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>h1:19888</value>
</property>
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>86400</value>
  </property>
  <property>
    <name>yarn.log-aggregation.retain-check-interval-seconds</name>
    <value>864000</value>
  </property>


$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver
stop-yarn.sh
start-yarn.sh

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

比如,散仙在setup方法里,记录了一些log,那么我就可以通过这个链接地址,在web界面上看到:








最后再补充一个知识点,如何跨集群拷贝HDFS文件:
方式一: distcp  可直接在一个HDFS集群上拷贝数据到另外一个HDFS集群上
方式二:hdfs dfs -fs hdfs://172.175.25.78 -copyFromLocal 本地要上传的目录  /user/目标目录   可以直接在别的机器本地磁盘上拷贝文件,直接到HDSF集群上,注意他们的SSH应该是通的!


总结:

成长的过程,就是解决问题积累的过程,越是怕解决问题,就越是会出现问题,进而,我们的收获就越少,所以,我们要多总结,多思考,多分享!





最后欢迎大家扫码关注微信公众号:我是攻城师,我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!


  • 大小: 113.5 KB
  • 大小: 125 KB
0
0
分享到:
评论

相关推荐

    hadoop3.x笔记.docx

    Hadoop 是一个基于分布式存储的大数据处理框架,本文档将详细介绍 Hadoop 3.x 的配置和底层原理,从零搭建集群以及解决遇到的问题,通过图形化的方式更好地理解 Hadoop 的作用。 一、HDFS 组成 HDFS(Hadoop ...

    Hadoop学习笔记.pdf

    例如,可以配置hadoop.log.dir来指定日志的存储位置,这有助于开发者在遇到问题时迅速定位和排查问题。 最后,Hadoop是一个不断演进的技术栈,随着版本的更新,新的特性和组件也会被添加进来。学习Hadoop不仅要关注...

    Hadoop HA搭建笔记和配置文件

    本笔记将深入探讨如何搭建Hadoop HA环境,并分享配置文件及其详细解读。 首先,我们要理解Hadoop HA的基本概念。HA主要涉及到两个关键组件:NameNode和ResourceManager。NameNode是HDFS的元数据管理节点,而...

    HADOOP学习笔记

    【HADOOP学习笔记】 Hadoop是Apache基金会开发...总结,Hadoop作为云计算的关键技术之一,提供了解决大数据问题的有效手段。通过学习和掌握Hadoop,我们可以构建高效、可扩展的云计算平台,以应对不断增长的数据挑战。

    3.Hadoop学习笔记.pdf

    Hadoop安装通常包括下载、配置和启动集群的NameNode和DataNode。NameNode是HDFS的主节点,负责管理文件系统的命名空间和客户端对文件的访问。DataNode是从节点,负责存储实际的数据块。Hadoop集群启动时,NameNode...

    hadoop 笔记

    为了克服NameNode和JobTracker的单点故障问题,Hadoop引入了Secondary NameNode和ResourceManager等组件,这些组件可以备份关键数据并在主节点发生故障时接管任务。 **7.3 经验总结** - 在搭建Hadoop集群时,需要...

    Hadoop学习笔记

    这个“Hadoop学习笔记”涵盖了Hadoop生态系统中的核心组件,包括HDFS(Hadoop分布式文件系统)、HBase(一个分布式、列式存储的数据库)、Hive(数据仓库工具)以及Spark(一个快速、通用且可扩展的数据处理引擎)。...

    Hadoop笔记(word版).zip_Hadoop配置_大数据

    本资料包“Hadoop笔记(word版).zip”聚焦于Hadoop的配置与大数据处理,旨在帮助初学者和有经验的开发者深入理解并掌握这一核心技术。 Hadoop是Apache软件基金会开发的一个开源分布式计算框架,基于Java实现,设计...

    hadoop-辅助工具-笔记.docx

    【Hadoop辅助工具笔记】 在大数据处理领域,Hadoop生态系统提供了丰富的辅助工具,以支持整个离线数据分析流程。这些工具不仅包括数据采集、处理,还包括结果数据导出和任务调度等关键环节。本文主要探讨其中的一个...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)" 涵盖了Hadoop技术体系中的关键知识点,主要针对Hadoop MapReduce的执行流程、本地模式、日志格式、序列化以及HTTP相关概念进行了深入讲解。...

    hadoop笔记

    本笔记将深入探讨Hadoop的相关知识点,包括其设计理念、核心组件、工作原理以及实际应用。 一、Hadoop设计理念 Hadoop的设计源于Google的MapReduce论文和GFS(Google文件系统)。它遵循“廉价硬件”和“容错性”的...

    Hadoop学习笔记AAAAAAAAAAA

    5. **资源调度**:YARN作为独立的资源调度器,解决了Hadoop 1.x中MapReduce和JobTracker的耦合问题。ResourceManager负责接收应用的资源请求,根据节点状态分配容器(container),并监控应用运行状态。NodeManager...

    hadoop学习笔记

    《Hadoop学习笔记》 Hadoop,作为大数据处理的核心框架,是开源社区的杰作,由Apache软件基金会维护。这份文档旨在深入解析Hadoop的基本概念、架构及其在大数据处理中的应用,帮助读者全面掌握这一重要技术。 一、...

    hadoop学习笔记(一、hadoop集群环境搭建).docx

    【Hadoop集群环境搭建】 Hadoop是一个开源的分布式计算框架,它允许在大规模...在实际生产环境中,还需要考虑更多的配置和优化,如配置Hadoop的日志聚合、安全认证(如Kerberos)、YARN以替换旧版的MapReduce框架等。

    Hadoop的xmind的入门笔记

    5. **Hadoop day05.xmind**:可能涵盖了Hadoop在实际项目中的应用案例,如日志分析、推荐系统、社交网络分析等,以及如何解决在实际场景中遇到的问题。 【大数据处理的挑战与Hadoop的优势】 在大数据时代,传统的...

    传智播客hadoop资料文档和笔记

    7. **实战案例**:可能包含使用Hadoop解决实际问题的案例,如日志分析、推荐系统或大数据挖掘等。 8. **性能优化**:如何调整Hadoop参数以提高处理速度和效率,如Block大小设置、MapReduce任务数量调整等。 9. **...

    windows下hadoop2.7.3环境问题的解决(含说明)

    10. **日志排查**:如果遇到问题,查看Hadoop的日志文件(通常在Hadoop安装目录的logs文件夹下)可以帮助定位问题。 11. **新建文本文档.txt**:这个文件可能是记录安装或配置过程中的笔记,具体内容取决于用户创建...

    尚硅谷大数据技术之Hadoop

    4. Hadoop实战:通过实际案例分析,演示如何使用Hadoop解决实际问题,例如日志分析、数据挖掘等。 在【3.代码.zip】中,可能包含了一系列示例代码,用于辅助学习者实践Hadoop编程。这些代码可能涵盖了以下方面: 1....

    hadoop安装及详细学习笔记

    ### Hadoop 安装及详细学习笔记 #### Hadoop 概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,它旨在提供高扩展性、可靠性和高效性,适用于处理PB级别的数据集。Hadoop 的核心组件包括 HDFS(Hadoop ...

    hadoop学习总结1-5

    在实际应用中,了解如何诊断和解决Hadoop集群中的问题至关重要,这可能涉及到监控日志、调整参数、优化资源分配等。 9. **Hadoop与大数据分析**: Hadoop为大数据分析提供了基础架构,通过与各种数据处理工具的...

Global site tag (gtag.js) - Google Analytics