首先创建SparkContext上下文:
接着引入隐身转换,用于把RDD转成SchemaRDD:
接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:
接下来要加载数据,这里的测试数据是user.txt文件:
我们创建好use.txt增加内容并上传到hdfs中:
web控制台查询:
hdfs命令查询:
加载数据:
验证数据是否加载成功:
注册成为user的table:
此刻user还是一个MappedRDD:
执行age 大于13 小于19的SQL查询:
此刻的teenagers已经隐身转换成SchemaRDD
通过collect操作触发job的提交和执行:
结果:
DSL是Domain Specific Language的缩写,使用DSL我们可以直接基于读取的RDD数据进行SQL操作,无需注册成Table。
我们重新启动下spark-shell:
同样使用"user.txt"的数据:
验证user:
我们这次直接使用SQL查询操作:
使用toDebugString查看下结果:
可以发现使用DSL的使用teenagers在内部已经被隐身转换了SchemaRDD的实例
可以发现与前面那张注册Table方式的结果是一样的
相关推荐
#### 四、Spark SQL编程实战 - **Spark SQL** 是Spark的一个模块,它提供了用于处理结构化数据的强大功能,包括查询语言和API。 - **动手实战**:通过具体的例子和实践项目来加深对Spark SQL的理解。 - 例如,创建...
《Spark高手之路-Spark SQL编程动手实战》是针对大数据处理领域的高级学习资料,旨在帮助读者深入理解Spark框架,特别是其SQL编程方面的应用。本指南涵盖了Spark框架的核心概念、源码解析以及在各种业务场景下的实战...
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
【Spark 初级编程实践】 Spark 是一个分布式计算框架,常用于大数据处理,它提供了高效的数据处理能力,包括批处理、交互式查询、实时流处理等。本实验旨在通过实践操作,让学生熟悉 Spark 的基本使用,包括安装...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言...
3.Spark编程模型(上)--概念及SparkShell实战 3.Spark编程模型(下)--IDEA搭建及实战 4.Spark运行架构 5.Hive(上)--Hive介绍及部署 5.Hive(下)--Hive实战 6.SparkSQL(上)--SparkSQL简介 6.SparkSQL...
《Spark SQL编程指南》是一本深入讲解Spark SQL的权威书籍,专为想要掌握大数据处理与分析的开发人员设计。Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame API,使得数据处理变得更加便捷高效...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
在本压缩包“Python3实战Spark大数据分析及调度-第8章 Spark SQL.zip”中,主要探讨了如何利用Python3编程语言与Apache Spark框架进行大数据分析,特别是通过Spark SQL进行结构化数据处理和查询。这一章节是大数据...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...