hadoop2.x jobhistoryserver 配置
hadoop
hadoop1.x之前的版本中可以开启50030端口,查看历史作业的运行日志,包括mr日志和自定义日志,但是hadoop2.x 是用MRv2(yarn)作为作业运行服务,代替50030端口的是一个jobhistory服务.jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。
编辑mapred-site.xml文件:
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
<description>MapReduce JobHistory Server IPC host:port</description>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
<description>MapReduce JobHistory Server Web UI host:port</description>
</property>
启动history-server:
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver
停止history-server:
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver
服务启动之后,可以通过浏览器访问WEBUI: master:19888,会在hdfs上会生成两个目录:
[user@nn ~]$ hadoop fs -ls /tmp/hadoop-yarn/staging/history
15/02/11 09:56:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
drwxrwx--- - hadoop supergroup 0 2015-02-10 15:44 /tmp/hadoop-yarn/staging/history/done
drwxrwxrwt - hadoop supergroup 0 2015-02-04 16:04 /tmp/hadoop-yarn/staging/history/done_intermediate
默认省略jobhistory存放目录实在hdfs上的:/tmp/hadoop-yarn/staging/history 路径下生成两个目录done(已经完成的作业的历史信息目录)和done_intermediate(正在运行的作业的信息目录)两个目录
可以在mapred-site.xml文件中继续添加属性:
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/job/history/done</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/job/history/done_intermediate</value>
</property>
修改后重启jobhistory服务即可生效,此时如果之前已经运行过job任务,则可以在19888端口下可以看到历史的job列表.但是点击一个具体任务时,本人测试看不到以往运行job的详细日志信息,需要重新开启一个测试任务:例如运行一个workcount任务,之后可以在19888端口看到wordcount的job条目
本人 点击箭头出的任务,如下图:
当yarn-site.xml
danruguo chuxian Aggregation is not enabled. Try the nodemanager at ......的提示时,需要在yarn-site.xml文件中添加属性:
<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>
点击workcount进入二级页然后重启yarn:start/stop-yarn.sh,重启jobhistory服务即可
相关推荐
7. **配置MapReduce**:在`mapred-site.xml`中指定MapReduce运行在YARN上,并设置JobHistoryServer的地址。 8. **格式化NameNode**:首次安装时需执行`hdfs namenode -format`命令对NameNode进行格式化,创建HDFS的...
例如,在`hdfs-site.xml`中设置NameNode的地址,`mapred-site.xml`中配置JobHistoryServer等。 Hadoop 2.6.0引入了YARN(Yet Another Resource Negotiator),它作为资源管理器,负责集群资源的分配和调度,将原本...
- `mapred-site.xml`:配置MapReduce的相关参数,如JobHistoryServer和运行模式(本地或分布式)。 5. **配置环境变量**:在系统环境变量中添加Hadoop的路径,包括`HADOOP_HOME`,并更新`PATH`变量以包含Hadoop的...
- `mapred-site.xml`:指定MapReduce的运行模式(如YARN)和JobHistoryServer的配置。 **网络配置** 为了使Hadoop节点之间能正常通信,需要确保防火墙允许相关端口(如50010、50020、8088、8032、8030等)的开放,...
此外,理解Hadoop的Master-Slave架构和相关组件的工作原理也是至关重要的,包括NameNode、DataNode、ResourceManager、NodeManager、JobHistoryServer等。 最后,对于初学者来说,阅读官方文档、相关教程和博客(如...
Hadoop提供了诸如JobHistoryServer等工具,可以用来查看作业的详细信息和错误日志。 7. **错误处理**:在Web应用中,必须处理可能发生的各种异常,如网络中断、作业失败等,确保系统具有良好的容错性。 8. **性能...
配置包括HDFS的NameNode和DataNode,MapReduce的JobHistoryServer,以及YARN的ResourceManager和NodeManager等。同时,需要设置环境变量,如在`~/.bashrc`中添加HADOOP_HOME,并配置PATH。 8. **启动Hadoop**: ...
Resource Manager负责全局资源管理,而Application Master专注于特定应用的调度和监控,例如,MapReduce的JobHistoryServer。 JavaScript在此场景中的作用可能在于,"Job-Tracker-UI"可能是一个基于Web的界面,用...
- `JobHistoryServer`: 记录作业历史信息。 #### 十八、解决权限问题 - **问题**: 解决下面的错误 - **示例错误**: 权限问题,可能曾经用root启动过集群。(例如hadoop搭建的集群,是/tmp/hado - **解决方案**: - ...
**2.5 配置JobHistoryServer【Standalone】** JobHistoryServer用于跟踪已完成的任务历史记录,这对于故障诊断和性能优化非常重要。配置过程包括设置相关配置文件,如spark-env.sh等。 **2.6 配置SparkHA...