`

spark-学习笔记--21 RDD 转换为 DataFrame--使用反射

 
阅读更多

 RDD 转换为  DataFrame--使用反射

 

 

 

	
	public static void main(String[] args) {
		
		SparkConf conf  = new SparkConf().setMaster("local").setAppName("PersonDataFrame");
		JavaSparkContext sc = new JavaSparkContext(conf);
		SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc);
		JavaRDD<String> textFile = sc.textFile("d://json.txt");
		JavaRDD<Person> mapPerson = textFile.map(new Function<String, Person>() {

			@Override
			public Person call(String arg0) throws Exception {
				
				Person p = JSONObject.parseObject(arg0, Person.class);
				
				return p;
			}
		});
		
		
		//使用反射
		//RDD 转换为 DataFrame
	       DataFrame schemaPeople = sqlContext.createDataFrame(mapPerson, Person.class);
		schemaPeople.show();
		
		//指定表名
		schemaPeople.registerTempTable("people");
		//使用sql操作
		DataFrame teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 25");
		teenagers.show();
		
	
		
	}

 

分享到:
评论

相关推荐

    Spark-学习.rar

    "Spark学习.md"很可能是一个Markdown格式的学习笔记或教程,Markdown是一种轻量级的文本格式语言,通常用于编写技术文档。这个文件可能涵盖了Spark的基础概念,比如RDD(弹性分布式数据集)、DataFrame、DataSet,...

    本地调试所需spark-x.x.x-bin-hadoop包

    Spark SQL通过DataFrame API提供了SQL查询功能,使得开发人员可以使用SQL或者DataFrame API进行数据处理。 3. Spark Streaming:用于实时流数据处理,它可以接收来自多种源(如Kafka、Flume等)的数据流,并以微...

    spark笔记整理文档

    本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...

    Spark学习笔记(三):Spark DataFrame

    这通常涉及先创建一个包含所需字段的类,然后将RDD转换为此类的实例,最后使用`createDataFrame`方法创建DataFrame。 DataFrame的一大优点是它支持SQL查询。一旦DataFrame被注册为临时视图,就可以使用`sql`方法...

    Spark学习笔记一

    Apache Spark 是一个强大的分布式计算框架,专为大数据处理设计,具备四大核心特性:Speed(快速性)、Ease of Use(易用性)、Generality(通用性)和Runs Everywhere(跨平台性)。Spark 的设计理念旨在提高数据...

    Spark—Python学习笔记.zip

    本学习笔记将深入探讨如何利用PySpark进行数据处理和分析,帮助你掌握这一核心技术。 首先,PySpark是Apache Spark与Python的结合,允许开发者用Python编写Spark应用程序。它提供了丰富的数据处理接口,包括RDD...

    spark笔记.zip

    以上知识点是"Spark笔记"中可能涵盖的内容,Hive.docx可能详细介绍了如何使用Hive进行数据建模、查询优化以及与Spark的交互。通过深入学习这些内容,你可以更好地理解和运用这两个强大的大数据工具。

    spark-notebook-demo:演示如何使用Spark笔记本

    你可以使用 `sc` 对象来创建 RDD(弹性分布式数据集)或者 DataFrame/Dataset,这些都是 Spark 处理数据的核心抽象。 ### 数据加载与操作 Spark Notebook 支持多种数据源,例如 CSV、JSON、Parquet 或 Hive 表。...

    Spark学习笔记之Spark SQL的具体使用

    Spark SQL学习笔记 Spark SQL是Apache Spark平台下的一个模块,提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。Spark SQL是Spark平台下的一个重要组件,主要用于处理结构化数据。 Spark SQL...

    scikit-learn-to-spark-ml:笔记本比较scikit-learn和Spark ML来构建机器学习管道

    2. **Spark MLlib**:介绍Spark的机器学习库,如何加载数据,创建DataFrame,使用DataFrame进行数据转换,以及如何应用MLlib中的算法(如决策树、梯度提升、朴素贝叶斯等)。还会涉及到分布式计算的概念,如RDD...

    spark-source-code-learn-note:火花学习笔记-spark source code

    《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...

    spark全套学习资料.zip

    03_尚硅谷大数据技术之SparkSql.docx深入介绍了Spark SQL的使用,包括创建DataFrame、数据源操作、SQL查询、DataFrame转换和优化。 三、Spark Streaming实时流处理 Spark Streaming是Spark处理实时数据流的组件,...

    《Spark 快速大数据分析》学习笔记.zip

    学习笔记包含的内容可能涵盖了Spark的基本概念、核心组件、数据处理流程以及实际应用案例等多个方面。以下是对这些知识点的详细说明: 1. **Spark概述**:Spark是基于内存计算的大数据处理框架,它提供了一种快速、...

    大数据学习笔记

    ### 大数据学习笔记知识点概览 #### 第一部分:Spark学习 ##### 第1章:Spark介绍 - **1.1 Spark简介与发展** - **背景**:随着大数据处理需求的增长,传统的Hadoop MapReduce框架虽然提供了强大的计算能力,但...

    大数据Spark_带有视屏_以及笔记_全面

    ### 大数据Spark学习资源 #### 九、提供的学习资料 - **视频教程**:视频教程包含了Spark的基本概念、安装配置、核心组件介绍等内容,适合初学者入门。 - **笔记文档**:笔记文档详细记录了学习过程中的重点难点,...

    The-Spark-Foundation-Task-1

    - **Spark编程模型**:理解RDD(弹性分布式数据集)和DataFrame的概念,以及它们之间的区别和转换方法。 - **Spark SQL**:如何创建DataFrame,注册临时表,以及使用SQL查询语句对数据进行操作。 - **DataFrame操作*...

    scala与spark基础

    在Spark中,Scala用于定义数据处理逻辑,通过RDD(弹性分布式数据集)或者DataFrame/Dataset API进行操作,这些API提供了丰富的转换和行动操作,如map、filter、reduce等,支持并行计算,极大地提高了处理速度。...

    spark资料笔记代码

    Spark API主要包括SparkContext、RDD、DataFrame和Dataset等类,它们定义了如何创建、转换和操作数据。 五、Spark作业执行流程 1. 用户编写Spark程序,提交到集群。 2. Driver解析程序,生成DAG(有向无环图)表示...

    spark-scala-tutorial:Apache Spark的免费教程

    Apache Spark 是一个强大的分布式计算框架,它以高效的数据处理、实时分析和机器学习能力而闻名...通过实践,你将掌握如何在 Scala 中有效地使用 Spark 进行大数据处理,为你的数据科学项目和企业级应用打下坚实基础。

Global site tag (gtag.js) - Google Analytics