`
bit1129
  • 浏览: 1073094 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Spark一百】Spark问题总结

 
阅读更多

准备写100篇关于Spark的博客,先把这第100篇写了,主要是记录学习Spark中想到的、碰到的问题,作为一个学习Spark的checklist。

1.内存容纳不下数据集

2. 内存容不下缓存的数据集

3. Spark local运行模式

4.Spark如何控制程序对资源(memory和cores)的分配

5. spark.default.parallesm这个参数有什么作用?

6. ExecutorRunner的fetchAndRunExecutor方法启动了一个进程,请问这是什么进程

7. Spark提交程序时,指定了内存和cpu的核数,那么spark如何使用这些参数对Spark运行的作业进行资源控制?

8.在Yarn Cluser上运行spark程序,如果deploy-mode为cluster,即Driver运行于Worker节点,那么ApplicationMaster和Driver是否位于一台机器?Driver由谁控制?

9.  Driver和Executor如何通信?它们要通信,这就要求Driver和Executor位于同一个局域网内

10. MapReduce程序是否一定有shuffle?

11.Driver发起作业,然后将计算回送给Driver的流程是什么?即结果如何会送给Driver?

 

1.内存容纳不下数据集

What happens if my dataset does not fit in memory?

Often each partition of data is small and does fit in memory, and these partitions are processed a few at a time. For very large partitions that do not fit in memory, Spark's built-in operators perform external operations on datasets.

 

2. 内存容不下缓存的数据集

What happens when a cached dataset does not fit in memory?

Spark can either spill it to disk or recompute the partitions that don't fit in RAM each time they are requested. By default, it uses recomputation, but you can set a dataset's storage level to MEMORY_AND_DISK to avoid this.

 

3. Spark local运行模式

Note that you can also run Spark locally (possibly on multiple cores) without any special setup by just passing local[N] as the master URL, where N is the number of parallel threads you want.

 

4. Spark如何控制程序对资源(memory和cores)的分配

程序指定了memory和cores之后,Spark的代码中如何对资源进行控制?

 

5. spark.default.parallesm这个参数有什么作用?

 

6. ExecutorRunner的fetchAndRunExecutor方法启动了一个进程,请问这是什么进程

 

10.MapReduce程序是否一定有shuffle?

不一定!比如rdd = sc.texfile(...);rdd.count这两个语句中,没有shuffle过程,因为每个rdd的结果

 

分享到:
评论

相关推荐

    spark个人总结.doc

    Spark是大数据处理领域的一款高效、快速且通用的计算框架,其强大的并行处理能力使得它在数据处理中占据重要地位。以下是对Spark性能调优和个人总结的一些关键知识点: 1. **资源分配**: - 在Spark应用中,通过`...

    Spark学习总结-入门

    Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的集群计算平台。Spark立足于内存计算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Hadoop更上层的API,同样的算法在...

    Spark生产优化总结

    Spark 生产优化总结 Spark 生产优化是企业中 Spark 作业的调优的总结,涉及 Spark 任务的详细解释、调度、资源分配等多方面的内容。本文将从三个方向考虑 Spark 生产优化:磁盘存储、CPU cores 和内存。 磁盘存储...

    spark期末复习题总结

    "Spark期末复习题总结" Spark是Apache开源的大数据处理引擎,主要用于分布式计算和内存式计算。Spark可以实现多种形式的分布式计算,如内存式运算、机器学习、交互式查询、流式计算等。 1. Spark的核心组件包括...

    spark学习总结

    Spark 学习总结 Spark 作为一个基于内存的分布式计算引擎,已经成为了大数据处理的关键技术之一。本文旨在总结 Spark 的学习过程,涵盖 Spark 的概念、环境配置、核心抽象、RDD 的理解和使用等方面的知识点。 ...

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面.zip

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ,spark-streaming,...

    spark3.0优化总结

    4. 设置 spark.files.openCostInBytes(打开一个文件的开销)参数接近小文件的大小。 资源配置的优化 资源配置是 Spark 应用的关键,合理的资源配置可以提高应用的性能。下面是资源配置的优化策略: 1. 估算资源...

    springboot与spark整合开发, 练习spark api

    总结来说,Spring Boot与Spark的整合主要涉及以下几个步骤:引入Spark依赖、配置Spark实例、创建服务类实现Spark API操作、设计控制器提供REST接口。这样的结合使得开发人员可以方便地在微服务架构中利用Spark的强大...

    大数据技术实践——Spark词频统计

    总结来说,Spark的词频统计实践涵盖了从环境配置、Spark应用开发到实际执行的全过程。通过这一实践,不仅可以深入理解Scala编程,还能掌握Spark的核心机制和分布式计算的思想,为后续的大数据处理项目奠定坚实的基础...

    spark知识点个人总结

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性在大数据领域备受关注。本文将深入探讨Spark的核心概念、主要组件、编程模型以及与Java的交互方式,帮助读者全面理解Spark在Java...

    Spark面对OOM问题的解决方法及优化总结1

    Spark是大数据处理领域的一款高效计算框架,其内存管理机制对于性能和稳定性至关重要。在Spark运行过程中,内存溢出(OOM)问题可能导致任务失败,影响整个应用程序的效率。本篇文章主要探讨Spark面对OOM问题的解决...

    spark-timeSeries.rar_scala 时间序列_spark ARIMA_spark arima_spark 滑

    总结,Spark上的时间序列预测结合ARIMA和Holt-Winters方法,提供了强大的分布式预测能力。通过Scala语言,我们可以灵活地构建和优化模型,处理大规模时间序列数据,实现高效、准确的预测。在实际应用中,还需要根据...

    spark相关jar包

    总结来说,"spark相关jar包"涵盖了Spark框架的各个组件以及它们所需的依赖,理解这些jar包的作用和使用方法对于成功部署和运行Spark应用程序至关重要。开发者需要根据具体项目需求,选择并管理好相应的jar包,确保...

    Spark 编程指南简体中文版.pdf

    以下是该资源中的知识点总结: Spark 基础 * Spark Shell:交互式 shell,用于快速上手 Spark * Spark 初始化:如何初始化 Spark,包括 SparkContext 和 RDD 的介绍 * RDDs:Resilient Distributed Datasets,...

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    spark笔记整理文档

    《Spark技术深度解析》 ...总结,Spark作为一个强大的大数据处理框架,其丰富的组件和灵活的设计使其在各种场景下展现出强大的处理能力。掌握Spark,意味着能更好地应对大数据挑战,提升数据驱动决策的效率和质量。

    Spark学习总结-入门.rar_Spark!_spark_spark入门_大数据 spark

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性在大数据领域备受推崇。本文将基于“Spark学习总结-入门.rar”这份资料,对Spark的基础知识进行详细阐述,帮助读者深入理解Spark的...

    spark学习总结-入门

    spark学习总结-入门

Global site tag (gtag.js) - Google Analytics