m635674608

浏览: 5069288 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

常用hadoop Spark监控Tab

博客分类：

spark

常用Spark监控Tab

最近用Spark做任务，中间来回配置集群环境，查看配置后的效果，以及监测程序运行过程中的运行进度等，需要频繁查看WebUI的几个Tab。各个tab功能不一，从不同方面显示了Spark的各方面性能参数和运行进度。

特意记录一下，方便以后用得到的时候能够快速回顾知识点。

HDFS配置概览

第一个tab是在配置好Hadoop之后就可以查看的。在这之前要先运行start-dfs.sh开启文件系统。具体地址为http://192.168.247.130:50070/dfshealth.html#tab-overview。配置完成后在浏览器中输入该地址，或直接输入http://192.168.247.130:50070也可以自动跳转至该界面，界面效果如下：
50070hdfs概览
在这里可以查看集群配置的具体参数，如硬盘大小，使用率、堆栈大小、内存大小等信息。如果自行配置了某个配置项，而又不确定是否已经生效，则可以在这里查看结果。

另一方面，结合Spark配置集群的时候，如果master节点如前几篇文章的配置，则master节点只负责集群任务调度，并不参与文件的存储和计算任务。因此在这里的Datanode标签里只能查看到Work1和Work2节点。如果需要将集群的所有资源都调度起来参与存储和计算，则可以更改配置后，查看此Tab确认配置是否生效。为达到调度所有集群的目的，可以和Spark的某一tab配置查看。

HDFS文件系统

Spark的很多计算都是先从外部读取文件后转换成RDD然后才开始RDD转换和Action操作，因此前期很高频的一个操作就是将文件上传至HDFS文件系统中存储。上传命令不多说，官方文档、各类博客都可以学习参考。这里介绍的第二个tab即为查看HDFS上的文件，具体地址为http://192.168.247.130:50070/explorer.html#/，具体效果如下：

HDFS文件系统

在这里我们可以看到HDFS中的文件和文件夹、文件大小、Block Size等信息，以及上文Spark History Server配置一文中设置的History文件夹。

HDFS默认的Block Size为64M和128M。在做Spark并行实验的时候，可以通过修改配置文件永久改变，或上传文件的时候手动设置临时改变Block Size的大小。

(1) 修改配置文件永久改变

修改配置文件hdfs-site.xml，在之前配置文件的基础上，加上下面的配置：

<property>  
  <name>dfs.block.size</name>  
  <value>33554432</value>  
</property>

该配置的缩进级别与dfs.replication处于同一级。value的值33554432为32M=32*1024*1024，只能是确定值如33554432，不能是计算式32*1024*1024。

重新修改value值即可恢复到之前的设置。

(2) 在上传命令中临时设置

上传命令方法简单，具体命令为：

hadoop dfs -D dfs.blocksize=5242880 -put /home/hadoop/think/Data100M.txt /think/

Spark配置概览

与第一个tab的Hadoop概览类似，文中的第三个tab是Spark配置集群成功后，查看Spark相关配置项的地方，如工作节点的数量、集群可用核心数、可用内存、以及各个节点的简略信息。方法也是先开启HDFS，然后运行start-all.sh开启Spark。具体地址为http://192.168.247.130:8080/，展示效果如下图：

Spark8080集群信息

配合第一个Tab可以查看集群中各个工作节点的基本信息，方便做出相应的更改。

应用程序运行期间的WebUI监控

查看具体的运行时间，Job、Task数量和运行阶段，以及详细的每个Task在节点的运行时间，输入输出文件大小等信息，并且可以通过图形界面直观查看节点的运行调度信息。还可以看到DAG信息，虽然不确定是否十分准确。在Environment标签查看更加详细的信息。

具体地址为http://192.168.247.130:4040/。查看到的效果为：

Spark运行期间WebUI监控

注：图片为网络资源，侵权的话请联系本人删除。谢谢

应用程序运行结束后的WebUI监控

在文章Spark History Server配置一文中已经介绍过Spark运行期间和运行结束后的WebUI监控界面。这里的第5个tab就是之前介绍的Spark History Server界面信息。具体内容与4040端口一致。

具体地址为http://192.168.247.130:18080/，展示效果如图：

Spark History Server界面信息

小结

以上5个tab即为Spark配置和运行前后的一些信息查看源。熟练使用可以事半功倍，准确有效地调度集群资源，便于优化。

http://blog.csdn.net/surp2011/article/details/53192853

分享到：

Spark中的监控----日志聚合的配置，以及RE ... | Spark 官方文档（4）——Configuration配 ...

2017-05-27 18:21
浏览 1497
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

常用hadoop Spark监控Tab

常用Spark监控Tab

HDFS配置概览

HDFS文件系统

Spark配置概览

应用程序运行期间的WebUI监控

应用程序运行结束后的WebUI监控

小结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

常用hadoop Spark监控Tab

常用Spark监控Tab

HDFS配置概览

HDFS文件系统

Spark配置概览

应用程序运行期间的WebUI监控

应用程序运行结束后的WebUI监控

小结

评论

发表评论

相关推荐

Spark_总结五

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark Streaming中KafkaReceiver内幕实现彻底解密

Spark2.1.0文档：Spark Streaming 编程指南（上）

Spark MLlib之协同过滤

spark-streaming-kafka包源码分析

Spark Streaming：性能调优

Apache Spark探秘：Spark Shuffle实现

Spark2.1.0入门：DStream转换操作

No output streams registered, so nothing to execute

了解SparkSQL运行计划及调优

sparksql性能调优

Spark性能优化：开发调优篇

Spark性能优化：数据倾斜调优

Spark性能优化：资源调优篇

Spark性能优化：shuffle调优

Spark java.lang.outofmemoryerror gc overhead limit exceeded 与 spark OOM:java hea

Spark 内存分配

基于Spark UI性能优化与调试——初级篇

最近访客更多访客>>