spark sql一个强大之处就是能够嵌在编程语言内执行,比如在java或者scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想做一个简单的交互式查询,我们可以直接在linux终端直接执行spark sql查询hive来分析,也可以开发一个jar来完成特定的任务。
有些时候单纯的使用sql开发可能功能有限,比如我有下面的一个功能:
一张大的hive表里面有许多带有日期的数据,现在一个需求是能够把不同天的数据分离导入到不同天的es索引里面,方便按时间检索,提高检索性能。
有几种方式可以完成:
(1)写一个MapReduce程序,遍历这个表每一条数据,插入到es里面。
(2)使用Hive按日期分区,生成n个日期分区表,再借助es-hadoop框架,通过shell封装将n个表的数据批量导入到es里面不同的索引里面
(3)使用Scala+Spark SQL读取Hive表按日期分组,然后借助es-hadoop框架把每一组的数据导入es里面。
优缺点:
方式一:开发量最大,导入性能最差
方式二:开发量次之,导入性能一般
方式三:开发量小,性能最优
总结分析:
方式一:
直接使用MapReduce读取表数据,然后每一行add一次,插入性能非常低效,有人会说可以批使用list批量插入,但是不要忘记我们现在是每一天的数据插入到不同的索引里面,一个list是不能放不同日期的数据,所以如果想要批量还要维护一个不同日期的list,并放在Map里面,最后提交完清空集合,整体复杂度增加而且维护调试都比较麻烦。
方式二:
直接使用Hive,提前将数据构建成多个分区表,然后借助官方的es-hadoop框架,直接将每一个分区表的数据,导入到对应的索引里面,这种方式直接使用大批量的方式导入,性能比方式一好,但由于Hive生成多个分区表以及导入时还要读取每个分区表的数据涉及的落地IO次数比较多,所以性能一般
方式三:
在scala中使用spark sql操作hive数据,然后分组后取出每一组的数据集合,转化成DataFrame最后借助es-hadoop框架,将每组数据直接批量插入到es里面,注意此种方式对内存依赖比较大,因为最终需要将数据拉回spark的driver端进行插入操作。
关于方式一和方式二就不再细说了,有兴趣的朋友可以自己尝试下,下篇文章会把基于第三种方式实现的例子分享出来,可以直接在spark的local模式下模拟运行。
分享到:
相关推荐
Scala与Spark是大数据处理领域中的重要工具,它们的结合使用为高效的数据分析提供了可能。Scala是一种多范式编程语言,以其强大的函数式编程特性而受到欢迎,尤其在大数据处理领域,它作为Apache Spark的主要编程...
在Scala中使用Spark进行数据处理时,首先需要创建一个`SparkSession`实例。这一步至关重要,因为所有的Spark应用都是基于`SparkSession`进行构建的。下面我们将详细介绍如何在本地环境中配置并初始化`SparkSession`...
标题中的“spring boot + scala + spark http驱动spark计算”揭示了一个使用现代技术栈构建的数据处理系统。这个系统基于Spring Boot框架来提供HTTP服务,利用Scala作为编程语言,并借助Apache Spark进行大数据计算...
Spark SQL允许用户注册自定义函数(UDF),可以是Scala、Java或Python函数,使得在SQL查询中使用自定义逻辑变得简单。 **10. 性能调优** Spark SQL提供了一系列性能调优工具,包括调整并行度、缓存策略以及查询计划...
在这个"Spark SQL上海摩拜共享单车数据分析源码"项目中,开发者利用Spark SQL对上海摩拜共享单车的数据进行了深入分析。项目采用Java语言编写,并借助Maven构建工具来管理依赖项,确保了项目的可重复性和稳定性。 ...
在标题"spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址"中,我们关注的是Spark与Hive的特定版本(2.11)的集成,以及Spark SQL和Spark对Hadoop的支持。这里的2.11可能指的是Scala的版本,因为Spark是用...
由于文档中包含了对特定版本的描述,它也提到了一些仅在Scala中有效的功能,比如隐式转换的隔离和移除,以及在org.apache.spark.sql中type aliases的移除。这表明从Spark 1.6.2版本开始,开发团队在加强Java和Scala ...
此外,还可以使用`udf`(用户自定义函数)扩展Spark SQL的功能,以处理特定业务需求。 6. 性能优化: Spark SQL通过DAG执行计划和内存管理实现高效的大数据处理。可以使用分区、缓存和调整执行配置来优化性能。...
在这一章节中,你将深入学习Spark SQL的语法和用法,包括创建DataFrame、执行SQL查询、数据转换及聚合操作等。 Spark SQL的DataFrame API允许开发者以类似SQL的方式操作数据,而DataFrame则是一种分布式的、列式...
由于Spark SQL支持多种语言,因此每种语言都有其特定的DataFrame抽象定义,例如在Scala和Java中是Dataset[T],在Python中是DataFrame,在R中是DataFrame。在后续版本中,为了方便开发者,Spark将DataFrame和Dataset...
这个实验旨在帮助开发者掌握Spark和Scala在大数据分析中的实际应用,同时理解如何解决特定问题,如" Cause of death"的数据探索和分析。通过实践,你可以提升在大数据处理、数据清洗、分析和可视化的技能,为未来的...
从2014年4月发布的Spark 1.0版本开始,Spark SQL就成为了Spark核心分布包的一部分,并在2015年从Alpha阶段毕业。它不仅仅能够运行标准的SQL查询,还能够运行HiveQL查询,同时提供了对现有Hive部署的替代或补充。 ...
Spark SQL 是 Apache Spark 的一个模块,它允许开发者使用 SQL 语言或者DataFrame API处理数据,同时兼容Hive查询语言(HQL)。Spark SQL 提供了一种统一的方式来操作数据,无论是来自传统的数据库、Hadoop 文件系统...
在Spark API中,Scala版本通常与特定的Spark版本相匹配,这里是针对scala2.11版本的,这意味着这些文档适用于使用Scala 2.11.x编译的Spark项目。Scala 2.11引入了许多改进和优化,包括更好的类型推断、更强大的反射...
在开发Spark应用时,可以使用Scala、Java、Python或R语言,Spark提供了丰富的API来方便开发。 总的来说,Spark3.0的安装包提供了一个完整的解决方案,用于大数据的快速处理和分析,尤其适用于需要高性能计算和实时...
"intellij的scala工具bin文件"是指IntelliJ IDEA中用于支持Scala编程语言的特定二进制工具集合。 Scala是一种强大的静态类型编程语言,它融合了面向对象和函数式编程的特性,被广泛应用于大数据处理领域,特别是...
在这个特定的压缩包"spark-3.1.3-bin-hadoop3.2.tgz"中,我们得到了Spark的3.1.3版本,它已经预编译为与Hadoop 3.2兼容。这个版本的Spark不仅提供了源码,还包含了预编译的二进制文件,使得在Linux环境下快速部署和...
Scala-2.11.12.tgz是Scala编程语言的一个特定版本,主要针对Apache Spark进行开发。Spark是大数据处理领域的一款流行框架,它利用Scala作为主要的开发语言,提供了高效的分布式计算能力。 Scala 2.11.x系列是该语言...
Spark-assembly-1.5.2-hadoop2.6.0.jar是Apache Spark的一个关键组件,主要用于在Scala环境中开发Spark应用程序。这个特定的版本(1.5.2)与Hadoop 2.6.0兼容,这意味着它可以无缝地运行在支持Hadoop 2.6.0的集群上...
2.1实现自定义UDF,UDAF,Partitioner 使用数据框(ComplexSchema,DropDuplicates,DatasetConversion,GroupingAndAggregation) 使用数据集处理Parquet文件按特定列对数据进行分区并按分区进行存储使用Spark从...