`

dataframe 和 dataset api

阅读更多

 

 dataframe  

 

 

 

scala> teenagersDF

res14: org.apache.spark.sql.DataFrame = [name: string, age: bigint]

 

 

scala> teenagersDF.

!=                        flatMap             repartition            

##                        foreach             rollup                 

+                         foreachPartition    sample                 

->                        formatted           schema                 

==                        getClass            select                 

agg                       groupBy             selectExpr             

alias                     groupByKey          show                   

apply                     hashCode            sort                   

as                        head                sortWithinPartitions   

asInstanceOf              inputFiles          sparkSession           

cache                     intersect           sqlContext             

coalesce                  isInstanceOf        stat                   

col                       isLocal             synchronized           

collect                   isStreaming         take                   

collectAsList             javaRDD             takeAsList             

columns                   join                toDF                   

count                     joinWith            toJSON                 

createOrReplaceTempView   limit               toJavaRDD              

createTempView            map                 toLocalIterator        

cube                      mapPartitions       toString               

describe                  na                  transform              

distinct                  ne                  union                  

drop                      notify              unionAll               

dropDuplicates            notifyAll           unpersist              

dtypes                    orderBy             wait                   

ensuring                  persist             where                  

eq                        printSchema         withColumn             

equals                    queryExecution      withColumnRenamed      

except                    randomSplit         write                  

explain                   randomSplitAsList   writeStream            

explode                   rdd                 →                      

filter                    reduce                                     

first                     registerTempTable 

 

 

 

dataset 

In the Scala APIDataFrame is simply a type alias of Dataset[Row]

 

val df = spark.read.json("examples/src/main/resources/people.json")

df 

res13: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

 

 

 

scala> df.

agg                       foreachPartition    sample                 

alias                     groupBy             schema                 

apply                     groupByKey          select                 

as                        head                selectExpr             

cache                     inputFiles          show                   

coalesce                  intersect           sort                   

col                       isLocal             sortWithinPartitions   

collect                   isStreaming         sparkSession           

collectAsList             javaRDD             sqlContext             

columns                   join                stat                   

count                     joinWith            take                   

createOrReplaceTempView   limit               takeAsList             

createTempView            map                 toDF                   

cube                      mapPartitions       toJSON                 

describe                  na                  toJavaRDD              

distinct                  orderBy             toLocalIterator        

drop                      persist             toString               

dropDuplicates            printSchema         transform              

dtypes                    queryExecution      union                  

except                    randomSplit         unionAll               

explain                   randomSplitAsList   unpersist              

explode                   rdd                 where                  

filter                    reduce              withColumn             

first                     registerTempTable   withColumnRenamed      

flatMap                   repartition         write                  

foreach                   rollup              writeStream          

 

两者  对象类型一样,但是 ,所拥有的方法并不是完全一样?

 

 

分享到:
评论

相关推荐

    spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql

    总的来说,本文涵盖了RDD API中的聚合操作aggregate,演示了如何在RDD、DataFrame和Dataset之间进行转换,以及使用Spark SQL进行数据查询和join操作。这些操作的知识点对理解和使用Spark进行大数据处理至关重要。

    RDD、DataFrame和DataSet三者之间的关系

    - DataFrame使用SQL-like语法进行查询,提供了DataFrame API和SQL接口,方便数据处理。 3. Spark Dataset: - Dataset是DataFrame的进一步扩展,它结合了RDD的类型安全和DataFrame的高效特性。Dataset使用...

    Apache Spark:Spark高级特性:DataFrame与Dataset.docx

    使用DataFrame和Dataset的主要原因包括性能优化、类型安全、简洁的API和SQL集成,这些特性使得数据处理更高效、稳定,并且代码更易于理解和维护。 创建DataFrame和Dataset的方式有多种。例如,可以通过从HDFS文件、...

    RDD 、DataFrame 、DataSet.pptx

    DataSet因其类型安全性,逐渐成为更推荐使用的数据抽象,同时在新的Spark版本中,DataSet可能会取代RDD和DataFrame,成为唯一的API接口。 三者的共性主要体现在以下几个方面: 1. 三者都是分布式弹性数据集,可以...

    【SparkSql篇01】SparkSql之DataFrame和DataSet1

    它引入了DataFrame和DataSet这两个编程抽象,为开发人员提供了更高效、灵活的方式来执行SQL查询和数据处理任务。DataFrame可以被视为带schema的RDD,提供了更丰富的优化和性能提升。而DataSet则是DataFrame的增强版...

    Spark2.0.2API

    此外,DataFrame和Dataset API的引入,为数据处理提供了更加面向对象的抽象,提高了开发效率和性能。DataFrame是基于RDD的优化数据结构,而Dataset则结合了DataFrame的强类型和RDD的高性能。 Spark SQL是Spark处理...

    Learning Spark SQL_source_code - Aurobindo Sarkar

    DataFrame API提供了一种统一的方式来处理结构化和半结构化数据,而Dataset API则是DataFrame的类型安全版本,支持Java和Scala的强类型编程。 本书主要涵盖以下知识点: 1. **Spark SQL基础知识**:讲解Spark SQL...

    《Spark SQL编程指南(v1.1.0)

    在Spark SQL中,数据可以被表示为DataFrame,这是一个分布式的、可以进行关系查询的数据集合,同时具备了SQL查询的便利性和DataFrame/Dataset API的灵活性。Spark SQL v1.1.0版本是该组件的一个关键里程碑,引入了...

    Apache Spark:Java在Spark中的应用.docx

    Spark SQL是处理结构化数据的模块,提供了DataFrame和Dataset API。Spark Streaming是处理实时数据流的模块,将流数据切分为小批量,然后使用Spark的批处理引擎进行处理。MLlib是Spark的机器学习库,提供了丰富的...

    spark SQL应用解析

    它允许用户使用SQL或者DataFrame和DataSet API来执行查询,极大地简化了大数据处理的工作。本篇将详细解析Spark SQL的相关概念、运行原理、实战应用及其特点。 ### 1. Spark SQL概述 1.1 **什么是Spark SQL** ...

    spark2.2.0源码------

    1. **DataFrame/Dataset API强化**:Spark 2.2.0进一步提升了DataFrame和Dataset API的性能和易用性。DataFrame API提供了SQL-like查询接口,而Dataset API则支持类型安全和强类型编程。在这一版本中,API更加成熟,...

    Spark相关知识PPT

    SparkSQL是Spark的一个模块,它将SQL与DataFrame和Dataset API集成,使得开发者可以用SQL查询结构化数据。DataFrame提供了跨语言的数据操作接口,而Dataset是类型安全的DataFrame。这部分PPT将介绍如何创建...

    spark2.2 入门教程

    9. **Python和R支持**:虽然标签指定了Java,但Spark 2.2同样对Python(PySpark)和R(SparkR)的支持进行了升级,提供了更丰富的API和更好的性能。 通过深入学习Spark 2.2的这些关键特性,开发者能够更好地利用其...

    Spark SQL编程指南pdf格式下载.rar

    Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame和Dataset API,使得开发人员可以方便地在结构化和半结构化数据上进行高性能计算。以下是对Spark SQL的关键知识点的详细解析: 1. **Spark SQL...

    ApacheSpark2.0PerformanceImprovementsInvestigatedWithFlameGraphs

    首先,Spark 2.0 引入了 DataFrame 和 Dataset API,这是一种基于统一的类型系统的数据抽象,它提供了静态类型的强安全性和 SQL 查询的便利性。DataFrame API 允许开发者以声明式的方式编写查询,而 Dataset API 则...

    spark-2.1.1.tgz

    - **DataFrame和Dataset API**:在Spark 2.1.1中,DataFrame和Dataset API得到了进一步优化,提升了性能并降低了内存占用。它们提供了更强大的类型安全性和编译时检查,使得开发更加高效。 - **SQL性能改进**:查询...

    spark-API 2.1.1 html版

    1. **DataFrame 和 Dataset API**:这是 Spark SQL 的一个重要特性,提供了强类型和编译时检查的能力,增强了代码的可读性和安全性。DataFrame 提供了类似 SQL 的接口,而 Dataset 则结合了 DataFrame 的便利性和 ...

    Apache Spark:SparkSQL入门与实践.docx

    SparkSQL模块为用户提供了一种全新的编程接口,这不仅包括传统的关系型数据库功能,还添加了DataFrame和Dataset API,它们能够提升数据处理效率,并兼容标准的SQL查询语言。 从历史发展来看,SparkSQL起源于Shark...

    spark3.0.1与配套的hadoop3.2.1.zip

    2. **DataFrame/Dataset API 优化**:DataFrame 和 Dataset API 进一步成熟,提供了更强的类型安全和编译时检查,同时保持了高性能和易用性。 3. **Kubernetes 集成**:Spark 3.0.1 更好地支持 Kubernetes 部署,...

Global site tag (gtag.js) - Google Analytics