`

spark-学习笔记--20 spark SQL入门

 
阅读更多

spark SQL入门

 

 

 

进化: hive --> shark --> spark sql

 

hive--底层依赖于 MR  --给熟悉sql的人用的

 

shark -- 依赖于hive sql解析器等  比hive快一个数量级

 

spark sql :

  1、多数据源支持 : Hive  RDD JSON JDBC

  2、多种性能优化技术:

       2.1 内存列存储

   2.2 字节码生成技术

   2.3 scala代码编写的优化

   

  3、组件扩展:

 

 

dataFrame: 以列的方式组织

 

 

入口 : SQLContext   、HiveContext

 

 

	public static void main(String[] args) {
		
		
	SparkConf conf = new SparkConf().setMaster("local").setAppName("DataFramCreate");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        
        DataFrame json = sqlContext.read().json("d://json.txt");
        json.printSchema(); //desc talbe
        json.show();// select * from 
        json.select("id").show();// select id from
        json.select(json.col("id"),json.col("age").plus(100)).show();//可以对列进行计算
        json.filter(json.col("age").gt(25)).show();//过滤
        json.filter(json.col("age").gt(25)).select(json.col("id"),json.col("age").plus(100)).show();// select  where 
        json.groupBy(json.col("age")).count().show();// group by 
        
        
	}

 

 

 

分享到:
评论

相关推荐

    Spark SQL学习笔记

    ### Spark SQL 学习笔记知识点总结 #### 一、Spark SQL 概述 - **定义**:Spark SQL 是 Apache Spark 的一个模块,用于处理结构化数据。它提供了 DataFrame 和 Dataset API,以及支持 SQL 查询的能力。这些特性...

    Spark-学习.rar

    "Spark学习.md"很可能是一个Markdown格式的学习笔记或教程,Markdown是一种轻量级的文本格式语言,通常用于编写技术文档。这个文件可能涵盖了Spark的基础概念,比如RDD(弹性分布式数据集)、DataFrame、DataSet,...

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

    spark笔记整理文档

    与Hadoop MapReduce相比,Spark通过内存计算显著提升了迭代算法的执行效率,同时支持多种数据处理模型,包括批处理、交互式查询(Spark SQL)、流处理(Spark Streaming)和机器学习(MLlib)。 2. Spark核心组件:...

    spark学习笔记

    本学习笔记集中介绍了Spark SQL在spark-shell中的操作方法,以及如何使用Spark进行数据清洗和转换成DataFrame的操作。 首先,Spark SQL是Spark用于处理结构化数据的一个组件,它提供了SQL接口,可以执行SQL查询。...

    Spark学习笔记

    Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用spark来代替原有hadoop上...

    IT十八掌_Spark阶段学习笔记(Spark+Mahout+机器学习)

    IT十八掌第三期大数据配套学习笔记! 1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame 7.深入Spark Streaming 8.Spark MLlib与机器学习 9.GraphX与SparkR 10...

    Spark学习笔记之Spark SQL的具体使用

    Spark SQL学习笔记 Spark SQL是Apache Spark平台下的一个模块,提供了一个编程抽象叫做DataFrame,并且作为分布式SQL查询引擎的作用。Spark SQL是Spark平台下的一个重要组件,主要用于处理结构化数据。 Spark SQL...

    Spark-:Spark学习笔记

    【Spark学习笔记】 Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效、易用和灵活的特点在大数据处理领域中备受青睐。Spark的核心设计理念是提供一个通用的大数据处理平台,支持批处理、交互式查询...

    java8集合源码分析-spark-sql:spark学习

    SQL相关官方文档笔记,见SparkSQLDoc.md Spark Streaming 相关, 见SparkStreaming.md 奇淫巧技 IDEA,按住ALT,并按住左键进行框选也能实现多行编辑 Linux的vi编辑。 使用A进入输入模式,再进行复制。如果使用a进入...

    spark学习笔记,完成于2022年04月13日

    - **多模式支持**:Spark 支持批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)和机器学习(MLlib)等多种数据处理模式。 - **高可用性**:通过配置高可用模式,Spark 可以确保集群的稳定性和任务...

    Spark学习笔记一

    Generality(通用性)意味着Spark不仅仅是一个计算框架,它还支持SQL查询、流处理、机器学习和图计算等多种任务。Spark SQL结合了DataFrame,提供了一种更接近SQL的方式来处理数据。MLlib是Spark的机器学习库,包含...

    spark全套学习资料.zip

    《Spark学习全套技术》 Spark,作为大数据处理领域的重要框架,因其高效、易用和弹性扩展的特性,深受开发者喜爱。本套学习资料全面涵盖了Spark的核心技术和应用实践,旨在帮助学习者深入理解Spark并掌握其在大数据...

    spark-source-code-learn-note:火花学习笔记-spark source code

    《Spark源码学习笔记》是针对大数据处理框架Spark进行深入研究的资料,主要涵盖了Spark的核心设计理念、架构原理以及源码解析。本笔记旨在帮助读者理解Spark如何高效地处理大规模数据,提升数据分析和处理的能力。 ...

    spark笔记.zip

    3. Spark SQL与DataFrame/Dataset:Spark SQL引入DataFrame和Dataset,提供更接近于传统SQL的接口,使得数据处理更加方便。DataFrame是基于Schema的RDD,而Dataset则结合了RDD的性能和强类型的优势。 4. Spark ...

    spark学习文档.rar

    总之,"spark学习文档.rar"中的笔记将帮助你深入理解Spark Streaming和Spark SQL,从而能够构建和运行高效的大数据实时处理和分析解决方案。通过系统地学习和实践,你将能够熟练地运用Spark解决各种复杂的数据问题。

    spark-notebook-demo:演示如何使用Spark笔记本

    Spark 提供了丰富的库用于数据处理,包括 MLlib(机器学习库)和 Spark SQL。例如,我们可以使用 MLlib 实现简单的分类任务: ```scala import org.apache.spark.ml.classification.LogisticRegression import org....

Global site tag (gtag.js) - Google Analytics