首先创建SparkContext上下文:
接着引入隐身转换,用于把RDD转成SchemaRDD:
接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:
接下来要加载数据,这里的测试数据是user.txt文件:
我们创建好use.txt增加内容并上传到hdfs中:
web控制台查询:
hdfs命令查询:
加载数据:
验证数据是否加载成功:
注册成为user的table:
此刻user还是一个MappedRDD:
执行age 大于13 小于19的SQL查询:
此刻的teenagers已经隐身转换成SchemaRDD
通过collect操作触发job的提交和执行:
结果:
DSL是Domain Specific Language的缩写,使用DSL我们可以直接基于读取的RDD数据进行SQL操作,无需注册成Table。
我们重新启动下spark-shell:
同样使用"user.txt"的数据:
验证user:
我们这次直接使用SQL查询操作:
使用toDebugString查看下结果:
可以发现使用DSL的使用teenagers在内部已经被隐身转换了SchemaRDD的实例
可以发现与前面那张注册Table方式的结果是一样的
相关推荐
#### 四、Spark SQL编程实战 - **Spark SQL** 是Spark的一个模块,它提供了用于处理结构化数据的强大功能,包括查询语言和API。 - **动手实战**:通过具体的例子和实践项目来加深对Spark SQL的理解。 - 例如,创建...
《Spark高手之路-Spark SQL编程动手实战》是针对大数据处理领域的高级学习资料,旨在帮助读者深入理解Spark框架,特别是其SQL编程方面的应用。本指南涵盖了Spark框架的核心概念、源码解析以及在各种业务场景下的实战...
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路...【Spark亚太研究院系列丛书】Spark实战高手之路-第6章Spark SQL编程动手实战(1)
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
【Spark 初级编程实践】 Spark 是一个分布式计算框架,常用于大数据处理,它提供了高效的数据处理能力,包括批处理、交互式查询、实时流处理等。本实验旨在通过实践操作,让学生熟悉 Spark 的基本使用,包括安装...
3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5.Hive(上)--Hive介绍及部署.pdf 5.Hive(下)--Hive实战.pdf 6.SparkSQL(上)--SparkSQL简介...
《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言...
根据文件内容,本章的知识点主要围绕Spark架构设计与编程模型的各个方面进行展开。首先,要成为Spark高手,必须经历以下几个阶段:熟练掌握Scala语言、精通Spark平台提供的API、深入了解Spark内核、掌握基于Spark的...
《Spark SQL编程指南》是一本深入讲解Spark SQL的权威书籍,专为想要掌握大数据处理与分析的开发人员设计。Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame API,使得数据处理变得更加便捷高效...
在本压缩包“Python3实战Spark大数据分析及调度-第8章 Spark SQL.zip”中,主要探讨了如何利用Python3编程语言与Apache Spark框架进行大数据分析,特别是通过Spark SQL进行结构化数据处理和查询。这一章节是大数据...
《大数据Spark企业级实战版-版本2015年1月》是一本深入探讨Apache Spark在企业级大数据处理中的应用的书籍。Spark是当今大数据领域中最重要的计算框架之一,尤其以其高速度、易用性和对复杂数据分析的支持而受到广泛...
- **编程模型及Spark Shell实战:**介绍了Spark的基本编程模型,如RDD(弹性分布式数据集)的概念,并通过具体的示例演示如何使用Spark Shell进行数据处理。 - **IDEA搭建及实战:**针对使用IntelliJ IDEA进行...
这份文件是一本关于如何使用Spark进行机器学习的实战教材,其中涉及到了Spark的多个核心组件和概念,包括Spark MLlib库、SparkSession、DataFrame、Dataset等,这些都是进行大规模数据处理和构建机器学习应用不可或...
《Python与Spark集成实战》 在当今大数据处理领域,Apache Spark以其高效、易用的特点备受青睐,而Python作为数据科学中最流行的编程语言之一,两者的结合使得数据分析与处理变得更加便捷。"spark-with-python-...
《Spark编程基础及项目实践》课程的课后习题涵盖了Spark图形处理的基础概念和技术,主要涉及图论基础知识、Spark图计算API以及实际操作题目。以下是这些知识点的详细说明: 1. **图论基础**: - **度的概念**:在...