【Spark三十九】Spark比Hadoop速度快的原因总结 - bit1129的博客 - ITeye博客

`

bit1129

浏览: 1073161 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jchubby：关于第一个reduceByKey对应的cache，shuffl ...
【Spark三十七】Spark Cache机制
bo_hai：看了你的文章，updateStateByKey 这个方式的使用 ...
【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
bo_hai：棒极啦，解决了我的问题。
【Spark七十二】Spark的日志配置
tivan：你好，这个代码生成主要在，那个地方使用。
【Spark105】Spark SQL动态代码生成一
zxsz4085：看楼主这么厉害的样子，请问楼主如何知道类库的版本呢？比如g++ ...
【Thrift一】Thrift编译安装

【Spark三十九】Spark比Hadoop速度快的原因总结

博客分类：

Spark

阅读更多

Spark的速度比Hadoop快将近100倍，原因都有哪些，本文进行归纳总结

Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，见http://www.cnblogs.com/hseagle/p/3673138.html
Broadcast机制
Cache
Checkpoint
Spark的计算模型

Hadoop每次计算先写磁盘，下次计算先从磁盘读，计算结果再写磁盘，如此往复。这对于迭代计算，是个噩梦

-----Spark为每个应用程序在worker上开启一个进程，而一个Job中的Task会在同一个线程池中运行，而Hadoop Map Reduce的计算模型是每个Task(Mapper或者Reducer）都是一个单独的进程，启动停止进程非常expensive，同时，进程间的数据共享也不能基于内存，只能是HDFS。
Spark任务调度模型

-----一级调度DAGScheduler
-----二级调度TaskScheduler

容错性
Shuffle方面的性能提升？

分享到：

【Spark四十】RDD算子逻辑执行图第一部分 | 【Spark三十八】Spark Checkpoint机制

2015-02-03 10:32
浏览 10068
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-3.3.3-bin-hadoop3.tgz: 总结来说，Spark 3.3.3与Hadoop 3.x的结合提供了强大的大数据处理平台，涵盖了数据处理、实时流处理、机器学习和存储管理等多个方面。这个版本的优化和新特性使得开发者能够更高效地处理大规模数据，同时享受到...

spark-3.2.1-bin-hadoop2.7.tgz: 总结一下，"spark-3.2.1-bin-hadoop2.7.tgz"是一个专为Linux设计的Spark版本，与Hadoop 2.7兼容，提供了高效的大数据处理能力，涵盖了核心计算、SQL查询、流处理、机器学习和图计算等多个方面。在实际应用中，开发者...

spark-3.1.3-bin-hadoop3.2.tgz: 在这个特定的压缩包"spark-3.1.3-bin-hadoop3.2.tgz"中，我们得到了Spark的3.1.3版本，它已经预编译为与Hadoop 3.2兼容。这个版本的Spark不仅提供了源码，还包含了预编译的二进制文件，使得在Linux环境下快速部署和...

spark-2.3.1-bin-hadoop2.7.zip: 总结来说，Spark 2.3.1与Hadoop 2.7的集成提供了高效的大数据处理能力，支持多种编程语言（如Scala、Java、Python），并且拥有强大的组件如Spark SQL和Spark Streaming，适用于实时分析、机器学习和图计算等多种场景...

spark-3.2.1 安装包集成 hadoop2.7: 集成Hadoop 2.7意味着Spark能够与Hadoop生态系统中的其他组件（如HDFS、YARN）无缝协作，处理存储在Hadoop集群上的大量数据。 Spark的核心设计是基于内存计算，通过在内存中缓存数据，减少磁盘I/O，从而显著提高了...

spark-2.4.4-bin-hadoop2.7.tgz: 它采用了内存计算模型，极大地提高了数据处理的速度，相比于传统的基于磁盘的计算框架如Hadoop MapReduce，Spark在迭代计算和交互式查询方面具有显著优势。Spark 2.4.4在此基础上，进一步提升了性能和稳定性。新...

spark-3.0.0-bin-hadoop2.7.tgz: Spark 3.0.0版本在性能方面进行了显著优化，包括更快的执行速度、更高效的内存管理和更优秀的资源调度。例如，新的Shuffle服务可以提高shuffle操作的性能，而Tungsten项目则通过代码生成优化了DataFrame/Dataset的...

spark-3.1.2-bin-hadoop3.2.zip: - **数据读写优化**：Spark 直接与 Hadoop 的 HDFS 交互，提高了数据读取和写入的速度。 - **资源管理**：通过 YARN，Spark 可以有效地调度和管理集群资源，避免资源浪费。 - **跨平台兼容性**：Spark 3.1.2 支持...

spark-3.2.0-bin-hadoop3.2.tgz: 1. **性能优化**：Spark 3.2.0进一步提升了处理速度，尤其是在DataFrame/Dataset操作上。引入了Tungsten项目的优化，包括代码生成和列式存储，以减少数据处理的开销。 2. **SQL增强**：Spark SQL的性能得到了显著...

spark-3.0.3-bin-hadoop2.7.tgz: Spark的核心特性在于其内存计算（In-Memory Computing）策略，这使得数据处理速度显著快于传统的MapReduce模型。它的主要组件包括： 1. **Spark Core**：Spark的基础框架，提供分布式任务调度、内存管理以及错误...

spark-2.3.4-bin-hadoop2.7.tgz: Spark的主要优势在于其内存计算机制，它将数据存储在内存中，从而显著提高了数据处理速度，相比传统的MapReduce模型，性能提升可达数十倍。此外，Spark提供了SQL查询支持（通过Spark SQL），机器学习库（MLlib），图...

spark-2.4.3-bin-hadoop2.7.zip: 2. SQL性能优化：包括优化查询计划、改进Join操作性能以及对Parquet格式的读写速度提升，使得数据分析更快更高效。 3. Structured Streaming改进：增强了处理延迟敏感和容错性的能力，同时引入了新的流处理模式，如...

spark-3.0.1-bin-hadoop2.7.tgz: 基于Hadoop 2.7，这个版本的Spark提供了与Hadoop生态系统良好的兼容性，允许用户在分布式计算环境中高效地处理大规模数据。Spark 3.0.1在2020年9月2日发布，它包含了多项性能优化和新功能，旨在提升数据分析和机器...

spark-2.1.1-bin-hadoop2.7.tgz.7z: 这个特定的压缩包"spark-2.1.1-bin-hadoop2.7.tgz.7z"是为Linux系统设计的，它包含了Spark 2.1.1版本，并且已经与Hadoop 2.7.2版本进行了预编译集成，这意味着它可以无缝地与Hadoop生态系统交互。 Hadoop 2.7.2是一...

spark-2.2.2-bin-hadoop2.7.tgz: 这个压缩包"spark-2.2.2-bin-hadoop2.7.tgz"包含了Spark 2.2.2版本的所有组件和依赖，适配了Hadoop 2.7版本的生态系统。 Spark的核心特性在于它的弹性分布式数据集（Resilient Distributed Datasets, RDDs），这是...

spark-2.4.7-bin-hadoop2.7.tgz: - Spark的内存计算模型允许数据在内存中快速处理，避免了传统Hadoop MapReduce的磁盘I/O开销，显著提升了计算速度。 - **Tungsten**：Spark的底层执行引擎，采用代码生成技术提高性能，减少了Java反射的开销。 - ...

spark-1.4.0-bin-hadoop1.tgz: 它的内存计算特性使其比传统的Hadoop MapReduce更快，因为它减少了磁盘I/O操作，提升了数据处理速度。总的来说，"spark-1.4.0-bin-hadoop1.tgz"提供了完整的Spark 1.4.0发行版，适合在运行Hadoop 1的环境中进行大...

spark-assembly-1.5.2-hadoop2.6.0jar包: Spark-assembly-1.5.2-hadoop2.6.0.jar是Apache Spark的一个关键组件，主要用于在Scala环境中开发Spark应用程序。这个特定的版本（1.5.2）与Hadoop 2.6.0兼容，这意味着它可以无缝地运行在支持Hadoop 2.6.0的集群上...

spark-2.0.0-bin-hadoop2.7.tgz.zip: Spark 2.0.0与Hadoop 2.7的集成意味着它可以充分利用Hadoop的存储和计算资源，同时通过Spark的优化执行引擎，提供比原生Hadoop MapReduce更快的计算速度。在Spark 2.0.0中，SQL和DataFrame得到了显著增强。Spark ...

spark-3.1.3-bin-without-hadoop.tgz: 在大数据处理中，Spark的主要优势在于其内存计算能力，相比于Hadoop MapReduce的磁盘I/O，Spark可以显著提升数据处理速度。Spark SQL提供了一种SQL接口来操作数据，使得开发人员能够利用熟悉的SQL语法进行数据分析，...

Global site tag (gtag.js) - Google Analytics