-
修改spark-defaults.conf配置文件
-
spark.eventLog.enabled true
-
spark.eventLog.dir hdfs://192.168.9.110:9000/eventLogs
-
spark.eventLog.compress true
-
-
修改spark-env.sh配置文件
-
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs"
-
-
以上两个配置中spark.eventLog.dir和SPARK_HISTORY_OPTS都用到了hdfs来存储历史任务的日志信息.所以需要提前在hdfs中新建这两个目录 hdfs://192.168.9.110:9000/eventLogs和hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs
-
进入hadoop的bin目录 命令 : cd /data/server/hadoop-2.6.0/bin
-
新建hdfs://192.168.9.110:9000/eventLogs命令 : ./hadoop dfs -mkdir /eventLogs
-
新建hdfs://DEV-HADOOP-01:9000/sparkHistoryLogs命令 : ./hadoop dfs -mkdir /sparkHistoryLogs
-
-
重启spark集群
-
启动历史任务进程
-
sbin/start-history-server.sh
-
-
历史任务进程启动验证
-
执行jps命令,出现HistoryServer进程
-
-
查看历史任务Web UI
-
http://192.168.9.110:18080/
-
- 浏览: 77538 次
相关推荐
Spark Web-UI 是一个非常有用的工具,可以查看任务的情况,设置 spark.eventLog.enabled 为 true 可以查看历史日志,运行的任务中,显示了 stage 的数据当前运行的 stage 输入和输出的数据量大小、shuffle 文件大小...
"Spark2.4.3集群部署知识点" Spark2.4.3集群部署是将Spark集群安装到多台机器上,以达到分布式计算和大规模数据处理的目的。下面是Spark2.4.3集群部署的详细知识点...* 使用历史日志服务查看任务执行的结果和错误日志
* 启动历史服务器 * 启动 Slave 节点 在本文档中,我们使用 `start-all.sh` 和 `start-history-server.sh` 脚本来启动 Spark 集群。 五、HDFS 配置 在 Spark 分布式环境中,HDFS 是一种常用的分布式文件系统。在...
- **Spark Web UI**:提供了丰富的用户界面,用于查看集群状态、任务进度以及诊断性能问题。 - **Spark Event Log**:记录了 Spark 应用程序运行过程中的事件信息,可用于分析和调试。 - **Spark History Server**:...
Spark的历史起源于2009年,由加州大学伯克利分校AMPLab实验室启动。2010年,Spark项目正式开源,迅速发展成为一个广受欢迎的开发者社区。2013年,它成为阿帕奇软件基金会的项目。到了2014年,Spark跃升为Apache的...
- **启动Spark History Server**:为了查看Spark作业的历史记录,需要启动Spark History Server。 - **提交应用**:使用`spark-submit`命令提交Spark应用程序,指定YARN为资源管理器。 5. **注意事项**: - **...
2. Spark History Server:启用Spark History Server,可以查看Spark作业的历史记录和日志。 六、优化技巧 1. 参数调优:根据集群资源和任务需求调整executor的数量、内存和CPU等参数。 2. 数据源和持久化:合理...
7. 集成工具:Spark提供了一系列工具,如SparkSubmit用于提交应用,Spark History Server用于查看应用历史,以及Spark Web UI用于监控应用状态。 在下载并解压"spark-2.4.1-bin-hadoop2.6"压缩包后,用户通常会找到...
这个版本在Spark的历史上具有里程碑式的意义,因为它为后续的版本提供了基础架构和核心功能,使得Spark能够迅速发展成为分布式计算领域的重要工具。本文将深入探讨Spark 0.1版本的关键特性和技术细节。 1. **RDD...
Spark-1.3.0是Spark历史版本中的一个重要里程碑,它在性能优化、API稳定性和功能增强方面都有显著提升。在这个版本中,Spark引入了更多对Hadoop和其他大数据生态系统的支持,使得数据科学家和开发人员可以更方便地...
4. **启动Spark**:启动Spark的历史服务器、Master节点和Worker节点,确保集群运行正常。 5. **提交应用**:使用`spark-submit`命令将Spark应用程序提交到YARN集群,YARN会根据配置启动ApplicationMaster并分配...
- **与 Spark 生态系统的紧密集成**:这使得开发者可以方便地将流处理逻辑与批处理或机器学习任务相结合。 #### Spark Streaming 与 Storm 对比 尽管两者都能实现流数据处理,但它们之间还是存在显著差异: - **...
- **SparkContext**:创建SparkContext对象是启动Spark程序的第一步,该对象用于配置集群访问方式,并创建RDD。 - **Master Parameter**:Master参数指定了SparkContext连接的集群类型和大小,常见的有`local`、`...
- **启动**: Spark shell 可以通过命令行方式启动,例如: ```bash spark-shell --executor-memory 2g --driver-memory 1g --executor-cores 2 --num-executors 4 --master spark://192.168.180.156:7077 ``` - *...
- Spark架构包括Driver、Executor和Scheduler等组件,作业提交流程涉及Driver向资源管理器(如YARN的ResourceManager)申请资源,启动Executor,然后Executor执行任务。 - 在YARN的client模式下,Driver运行在...
- 安装Spark:可以从官方网站下载预编译的二进制包,根据指南配置环境变量,设置Master和Worker节点,并启动集群。 4. Spark Shell中的WordCount示例 - WordCount是大数据处理的经典例子,用于统计文本中单词出现...
JobHistoryServer用于跟踪已完成的任务历史记录,这对于故障诊断和性能优化非常重要。配置过程包括设置相关配置文件,如spark-env.sh等。 **2.6 配置SparkHA【Standalone】** 高可用性配置是通过在两个或更多的...
Driver Program是用户代码运行的地方,它创建SparkContext来启动应用,而Executor是在集群中运行任务的进程,它们负责缓存数据和执行任务。 5. **DAGScheduler和TaskScheduler** DAGScheduler将用户提交的作业...
- 在Master节点上启动Spark的History Server,以便查看任务历史。 - 在集群中任意节点提交一个Spark应用,如`spark-submit --master yarn --class org.apache.spark.examples.SparkPi --deploy-mode cluster spark...
Spark是一个分布式计算框架,它支持批处理、交互式查询(如Spark SQL)、实时流处理以及机器学习等多种计算任务。Spark的特点在于其内存计算,能够大幅提升数据处理速度,同时提供Java、Scala、Python和R等多种编程...