Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。
Spark生态系统众生相
Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能更强大、更方便。Spark并非只是一项技术,它结合了诸多部分,新的功能和性能改进不断添加进来,每个部分都在不断完善之中。
本文介绍了Spark生态系统的每个主要部分:每个部分的功能,为什么很重要,是如何发展的,在哪方面不尽如人意,以及可能会往哪个方向发展。
Spark Core
Spark的核心是恰如其名的Spark Core。除了协调和调度作业外,Spark Core还为Spark中的数据处理提供了基本的抽象机制,名为弹性分布式数据集(RDD)。
RDD对数据执行两个动作:转换和操作。前者转换数据,并将它们作为刚创新的RDD来提供;后者根据现有的RDD(比如对象数量)来计算结果。
Spark的速度很快,原因是转换和操作都保存在内存中。操作慢腾腾地评估,这意味着只有需要相关的数据时,才执行操作;然而,很难搞清楚什么在缓慢运行。
Spark的速度在不断提高。Java的内存管理往往给Spark带来问题,于是Project Tungsten计划避开JVM的内存和垃圾收集子系统,以此提高内存效率。
Spark API
Spark主要是用Scala编写的,所以Spark的主要API长期以来也支持Scala。不过另外三种使用广泛得多的语言同样得到支持:Java(Spark也依赖它)、Python和R.
总的来说,你最好选择自己最擅长的那种语言,因为你需要的功能特性很可能在该语言中直接得到支持。只有一个例外:相比之下,SparkR中对机器学习的支持不大给力,目前只有一小批算法可供使用。不过将来这种情况势必会发生变化。
Spark SQL
千万不要低估了能够对批量数据执行SQL查询的能力或便利。Spark SQL提供了对Spark提供的数据执行SQL查询(并且请求列式DataFrame)的一种通用机制,包括通过ODBC/JDBC连接件进行管道处理的查询。你甚至不需要正规的数据源。Spark 1.6中添加了这一功能:支持以一种得到支持的格式查询扁平文件,就像Apache Drill那样。
Spark SQL其实并不用于更新数据,因为那与Spark的整个意义相悖。可以将因而生成的数据写回成新的Spark数据源(比如新的Parquet表),但是UPDATE查询并不得到支持。别指望诸如此类的功能特性很快就会推出;着眼于Spark SQL的改进大多数用于提升其性能,因为它也成了Spark Streaming的基础。
Spark Streaming
Spark的设计让它得以支持许多处理方法,包括流处理――Spark Streaming因此得名。关于Spark Steaming的传统观点是,它还半生不熟,这意味着只有你不需要瞬间延迟,或者如果你还没有投入到另一种流数据处理解决方案(比如说Apache Storm),你才会使用它。
但是Storm在逐渐失去人气;长期使用Storm的推特此后已改用了自己的项目Heron。此外,Spark 2.0承诺会推出一种新的“结构化数据流”模式,以便对实时数据进行交互式Spark SQL查询,包括使用Spark的机器学习库。至于其性能是否高得足以击败竞争对手仍需拭目以待,不过它值得认真考虑。
MLlib(机器学习)
机器学习技术素有既神奇,又困难之称。Spark让你可以对Spark中的数据运行许多常见的机器学习算法,从而使这些类型的分析容易得多,也更容易被Spark用户所使用。
MLlib中的可用算法数量众多,该框架每推出一个修订版,就会随之增多。话虽如此,一些类型的算法还是没有――比如说,涉及深度学习的任何算法。第三方正在利用Spark的人气来填补这一空白;比如说,雅虎可以借助CaffeOnSpark执行深度学习,它通过Spark充分利用了Caffe深度学习系统。
GraphX(图形计算)
描绘数百万实体之间的关系通常需要图形,这种数据构件描述了那些实体之间的相互关系。Spark的GraphX API让你可以使用Spark的一套方法,对数据执行图形操作,于是构建和转换这类图形的繁重任务卸载到了Spark。GraphX还包括用于处理数据的几种常见算法,比如PageRank或标签传播(label propagation)。
从目前来看,GraphX的一个主要限制是,它最适合静态图形。处理添加了新顶点的图形会严重影响性能。此外,如果你已经在使用一种成熟的图形数据库解决方案,GraphX还不太可能取代它。
SparkR(Spark上的R)
R语言为进行统计数值分析和机器学习工作提供了一种环境。Spark在2015年6月添加了支持R的功能,以匹配其支持Python和Scala的功能。
除了为潜在的Spark开发人员多提供一种语言外,SparkR还让R程序员们可以做之前做不了的许多事情,比如访问超过单一机器的内存容量的数据集,或者同时轻松地使用多个进程或在多个机器上运行分析。
SparkR还让R程序员可以充分利用Spark中的MLlib机器学习模块,创建一般的线性模型。遗憾的是,并非所有的MLlib功能在SparkR中得到支持,不过Spark每推出一个后续的修订版,都在填补R支持方面的差距。
原文标题:7 tools to fire up Spark's big data engine
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
分享到:
相关推荐
在这个项目中,我们需要使用流处理引擎,如 Spark Streaming 或 Flink,以便实时处理数据流。 项目五:复杂事件处理 复杂事件处理项目旨在处理复杂的事件流,例如欺诈检测或网络攻击检测。在这个项目中,我们需要...
3. **Spark**:Spark是一个快速、通用且可扩展的大数据处理引擎,支持批处理、交互式查询、流处理和机器学习。它提供了一个强大的DataFrame和SQL API,使得数据处理变得简单。 - **Spark安装**: - 安装Java ...
- **Spark**:Apache Spark是一种快速通用的大规模数据处理引擎,可以替代Hadoop MapReduce进行数据处理任务。 - **Kafka**:作为一个分布式的发布订阅消息系统,Kafka被广泛应用于构建实时数据管道和流式处理应用...
### 大数据Spark技术分享:用操作智能征服Hadoop与Apache Spark #### 一、引言 在大数据处理领域,Apache Hadoop与Apache Spark作为两大主流框架,为数据处理提供了强大的支持。然而,在实际应用过程中,用户往往...
模块七聚焦大数据分析和挖掘,讲解数据分析的基本概念和挖掘技术,通过实训和案例分析,使学生掌握大数据分析的方法和应用,理解挖掘算法。 最后,模块八涉及大数据的可视化,介绍可视化技术的概览,学习使用大数据...
2. Spark:作为快速、通用的大数据处理引擎,Spark提供了更高效的批处理、流处理和机器学习能力,并与Hadoop生态系统无缝集成。 三、数据采集 数据采集是大数据的第一步,包括网络爬虫、日志收集、传感器数据获取等...
《大数据算法》是由王宏志编著的一本深入探讨大数据处理和分析的著作。这本书主要聚焦于在海量数据背景下如何运用各种高效的算法进行数据挖掘、分析和预测,为读者揭示了大数据时代下算法的重要性和应用。 一、...
Spark是处理大规模数据的快速计算引擎,2018年已成为大数据处理领域的重要工具。相较于Hadoop,Spark在内存计算、实时处理、机器学习等方面表现出更强的优势。白皮书分析了Spark的核心特性,如弹性分布式数据集(RDD...
- 工具链选择:Kafka作为消息队列、Spark Streaming作为处理引擎等。 - **故障恢复机制**: - 设计容错机制,确保数据处理过程中出现问题时能够快速恢复。 #### 七、课程总结与实践建议 - **知识点回顾**:对本...
2. Spark:新一代的大数据处理引擎,比MapReduce更高效,支持批处理、流处理和图计算。 3. Flink:实时数据处理框架,提供低延迟、高吞吐的流处理能力。 4. Hive:基于Hadoop的数据仓库工具,简化了对大规模数据集的...
本资源是大数据领域的面试宝典,涵盖了数仓项目知识,共包含十一大部分,涵盖了大数据领域的多个方面。 一、Linux与Shell脚本部分 Linux是大数据处理的基础操作系统,Shell脚本是自动化处理数据的重要工具。本部分...
这部分将介绍这些方法的原理及其在大数据环境下的实现,如使用Apache Spark进行实时数据挖掘。 五、大数据分析与可视化 大数据分析旨在通过数据分析工具(如Python的Pandas、NumPy,R语言等)对数据进行深度探索,...
Spark 通用大数据处理引擎,高效地支持批量处理、流式处理、图处理 数据分析工具: Hive和Spark SQL数据仓库;Spark Streaming流式计算;MLib机器学习;GraphX图处理 批量大数据处理 Hadoop 基本思想:本地化计算 ...
Spark SQL通过其内存计算和优化的查询执行引擎,能够高效处理大规模数据。但为了进一步提高性能,我们还可以进行分区优化、列式存储、缓存策略调整等,确保数据分析任务在有限的资源下高效运行。 八、安全与隐私...
《Spark详解:大数据与云计算的核心引擎》 Spark作为大数据处理领域的明星框架,因其高效、灵活和易用的特点,被广泛应用于大规模数据处理、实时计算、机器学习和图形处理等多个领域。本电子书合集深入剖析了Spark...
此外,还会涉及到HBase(分布式数据库)、Spark(快速计算引擎)等大数据处理工具,帮助你理解大数据平台的基本架构。 三、数据存储与管理 在大数据领域,数据的存储与管理是关键环节。书中会讲解NoSQL数据库,如...
红亚科技在大数据专业建设方面提供了全面且深入的解决方案,旨在培养具备大数据处理、分析和应用能力的高级人才,以适应信息化社会的需求。 一、大数据基础架构 大数据解决方案的核心是构建高效、稳定的数据处理...