常用Spark监控Tab
最近用Spark做任务,中间来回配置集群环境,查看配置后的效果,以及监测程序运行过程中的运行进度等,需要频繁查看WebUI的几个Tab。各个tab功能不一,从不同方面显示了Spark的各方面性能参数和运行进度。
特意记录一下,方便以后用得到的时候能够快速回顾知识点。
HDFS配置概览
第一个tab是在配置好Hadoop之后就可以查看的。在这之前要先运行start-dfs.sh
开启文件系统。具体地址为http://192.168.247.130:50070/dfshealth.html#tab-overview
。配置完成后 在浏览器中输入该地址,或直接输入http://192.168.247.130:50070
也可以自动跳转至该界面,界面效果如下:
在这里可以查看集群配置的具体参数,如硬盘大小,使用率、堆栈大小、内存大小等信息。如果自行配置了某个配置项,而又不确定是否已经生效,则可以在这里查看结果。
另一方面,结合Spark配置集群的时候,如果master节点如前几篇文章的配置,则master节点只负责集群任务调度,并不参与文件的存储和计算任务。因此在这里的Datanode标签里只能查看到Work1和Work2节点。如果需要将集群的所有资源都调度起来参与存储和计算,则可以更改配置后,查看此Tab确认配置是否生效。为达到调度所有集群的目的,可以和Spark的某一tab配置查看。
HDFS文件系统
Spark的很多计算都是先从外部读取文件后转换成RDD然后才开始RDD转换和Action操作,因此前期很高频的一个操作就是将文件上传至HDFS文件系统中存储。上传命令不多说,官方文档、各类博客都可以学习参考。这里介绍的第二个tab即为查看HDFS上的文件,具体地址为http://192.168.247.130:50070/explorer.html#/
,具体效果如下:
在这里我们可以看到HDFS中的文件和文件夹、文件大小、Block Size等信息,以及上文Spark History Server配置一文中设置的History
文件夹。
HDFS默认的Block Size为64M和128M。在做Spark并行实验的时候,可以通过修改配置文件永久改变,或上传文件的时候手动设置临时改变Block Size的大小。
(1) 修改配置文件永久改变
修改配置文件hdfs-site.xml,在之前配置文件的基础上,加上下面的配置:
<property>
<name>dfs.block.size</name>
<value>33554432</value>
</property>
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
该配置的缩进级别与dfs.replication
处于同一级。value的值33554432为32M=32*1024*1024
,只能是确定值如33554432,不能是计算式32*1024*1024
。
重新修改value值即可恢复到之前的设置。
(2) 在上传命令中临时设置
上传命令方法简单,具体命令为:
hadoop dfs -D dfs.blocksize=5242880 -put /home/hadoop/think/Data100M.txt /think/
- 1
- 1
Spark配置概览
与第一个tab的Hadoop概览类似,文中的第三个tab是Spark配置集群成功后,查看Spark相关配置项的地方,如工作节点的数量、集群可用核心数、可用内存、以及各个节点的简略信息。方法也是先开启HDFS,然后运行start-all.sh
开启Spark。具体地址为http://192.168.247.130:8080/
,展示效果如下图:
配合第一个Tab可以查看集群中各个工作节点的基本信息,方便做出相应的更改。
应用程序运行期间的WebUI监控
查看具体的运行时间,Job、Task数量和运行阶段,以及详细的每个Task在节点的运行时间,输入输出文件大小等信息,并且可以通过图形界面直观查看节点的运行调度信息。还可以看到DAG信息,虽然不确定是否十分准确。在Environment标签查看更加详细的信息。
具体地址为http://192.168.247.130:4040/
。查看到的效果为:
注:图片为网络资源,侵权的话请联系本人删除。谢谢
应用程序运行结束后的WebUI监控
在文章Spark History Server配置一文中已经介绍过Spark运行期间和运行结束后的WebUI监控界面。这里的第5个tab就是之前介绍的Spark History Server界面信息。具体内容与4040
端口一致。
具体地址为http://192.168.247.130:18080/
,展示效果如图:
小结
以上5个tab即为Spark配置和运行前后的一些信息查看源。熟练使用可以事半功倍,准确有效地调度集群资源,便于优化。
http://blog.csdn.net/surp2011/article/details/53192853
相关推荐
《Hadoop Spark大数据巨量分析与机器学习整合开发实战》一书由林大贵编著,主要讲解了如何将大数据分析技术和机器学习技术结合起来进行实战开发。本书的重点是Hadoop和Spark这两个在大数据处理领域占据重要地位的...
Apache Hadoop spark 实战技术分享.pptx
Hadoop Spark大数据处理技巧 Hadoop Spark大数据处理技巧
大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK.......
《Hadoop Spark生态系统操作与实战指南》是一本深入解析大数据处理技术的专业书籍,主要围绕Hadoop和Spark两大核心组件展开,旨在帮助读者掌握在实际环境中运用这两个工具进行数据处理和分析的能力。本书不仅介绍了...
数据算法 Hadoop Spark大数据处理技巧的主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成DNA和RNA测序。 ■ 朴素贝叶斯定理和马尔可夫...
hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法hadoop_spark_数据算法
- 是Spark的机器学习库,提供了常用的机器学习算法和工具。 5. **GraphX**: - 用于图和图并行计算的API,使得开发者能够方便地进行图数据分析。 通过以上步骤,可以完成Hadoop和Spark的安装与配置,并建立起一...
这份“数据算法--HadoopSpark大数据处理技巧”文档显然探讨了如何利用这两个工具进行复杂的数据操作,具体涉及到Scala编程实现的两个重要算法:Secondary Sort(二级排序)和Common Friends(共同朋友计算)。...
基于Hadoop Spark的地方空气质量分析程序源码+数据库+详细注释(可更换城市等信息).zip 基于Hadoop Spark的地方空气质量分析程序源码+数据库+详细注释(可更换城市等信息).zip 基于Hadoop Spark的地方空气质量分析...
中文版,一共3卷,第1卷。了解spark技术内幕 了解spark技术内幕
在本实战中,我们将深入探讨如何利用JMX对HBase和Hadoop进行监控,以确保系统的稳定性和性能。 首先,我们需要理解HBase。HBase是一个基于Google的Bigtable设计的开源NoSQL数据库,它运行在Hadoop之上,提供高度可...
在标题"spark-3.2.1 不集成hadoop安装包"中,我们看到的是Spark的一个特定版本——3.2.1,而且特别强调了这个版本不包含Hadoop的集成。这意味着这个Spark发行版没有内置对Hadoop的支持,用户需要自己配置和管理与...
Hadoop Spark R SparkR 大数据集群 安装文档。全是原生组件,部署在Centos系统上
数据算法-Hadoop Spark大数据处理技巧 1.