`

dataframe 和 dataset api

阅读更多

 

 dataframe  

 

 

 

scala> teenagersDF

res14: org.apache.spark.sql.DataFrame = [name: string, age: bigint]

 

 

scala> teenagersDF.

!=                        flatMap             repartition            

##                        foreach             rollup                 

+                         foreachPartition    sample                 

->                        formatted           schema                 

==                        getClass            select                 

agg                       groupBy             selectExpr             

alias                     groupByKey          show                   

apply                     hashCode            sort                   

as                        head                sortWithinPartitions   

asInstanceOf              inputFiles          sparkSession           

cache                     intersect           sqlContext             

coalesce                  isInstanceOf        stat                   

col                       isLocal             synchronized           

collect                   isStreaming         take                   

collectAsList             javaRDD             takeAsList             

columns                   join                toDF                   

count                     joinWith            toJSON                 

createOrReplaceTempView   limit               toJavaRDD              

createTempView            map                 toLocalIterator        

cube                      mapPartitions       toString               

describe                  na                  transform              

distinct                  ne                  union                  

drop                      notify              unionAll               

dropDuplicates            notifyAll           unpersist              

dtypes                    orderBy             wait                   

ensuring                  persist             where                  

eq                        printSchema         withColumn             

equals                    queryExecution      withColumnRenamed      

except                    randomSplit         write                  

explain                   randomSplitAsList   writeStream            

explode                   rdd                 →                      

filter                    reduce                                     

first                     registerTempTable 

 

 

 

dataset 

In the Scala APIDataFrame is simply a type alias of Dataset[Row]

 

val df = spark.read.json("examples/src/main/resources/people.json")

df 

res13: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

 

 

 

scala> df.

agg                       foreachPartition    sample                 

alias                     groupBy             schema                 

apply                     groupByKey          select                 

as                        head                selectExpr             

cache                     inputFiles          show                   

coalesce                  intersect           sort                   

col                       isLocal             sortWithinPartitions   

collect                   isStreaming         sparkSession           

collectAsList             javaRDD             sqlContext             

columns                   join                stat                   

count                     joinWith            take                   

createOrReplaceTempView   limit               takeAsList             

createTempView            map                 toDF                   

cube                      mapPartitions       toJSON                 

describe                  na                  toJavaRDD              

distinct                  orderBy             toLocalIterator        

drop                      persist             toString               

dropDuplicates            printSchema         transform              

dtypes                    queryExecution      union                  

except                    randomSplit         unionAll               

explain                   randomSplitAsList   unpersist              

explode                   rdd                 where                  

filter                    reduce              withColumn             

first                     registerTempTable   withColumnRenamed      

flatMap                   repartition         write                  

foreach                   rollup              writeStream          

 

两者  对象类型一样,但是 ,所拥有的方法并不是完全一样?

 

 

分享到:
评论

相关推荐

    spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql

    总的来说,本文涵盖了RDD API中的聚合操作aggregate,演示了如何在RDD、DataFrame和Dataset之间进行转换,以及使用Spark SQL进行数据查询和join操作。这些操作的知识点对理解和使用Spark进行大数据处理至关重要。

    RDD、DataFrame和DataSet三者之间的关系

    - DataFrame使用SQL-like语法进行查询,提供了DataFrame API和SQL接口,方便数据处理。 3. Spark Dataset: - Dataset是DataFrame的进一步扩展,它结合了RDD的类型安全和DataFrame的高效特性。Dataset使用...

    【SparkSql篇01】SparkSql之DataFrame和DataSet1

    它引入了DataFrame和DataSet这两个编程抽象,为开发人员提供了更高效、灵活的方式来执行SQL查询和数据处理任务。DataFrame可以被视为带schema的RDD,提供了更丰富的优化和性能提升。而DataSet则是DataFrame的增强版...

    Spark2.0.2API

    此外,DataFrame和Dataset API的引入,为数据处理提供了更加面向对象的抽象,提高了开发效率和性能。DataFrame是基于RDD的优化数据结构,而Dataset则结合了DataFrame的强类型和RDD的高性能。 Spark SQL是Spark处理...

    Learning Spark SQL_source_code - Aurobindo Sarkar

    DataFrame API提供了一种统一的方式来处理结构化和半结构化数据,而Dataset API则是DataFrame的类型安全版本,支持Java和Scala的强类型编程。 本书主要涵盖以下知识点: 1. **Spark SQL基础知识**:讲解Spark SQL...

    《Spark SQL编程指南(v1.1.0)

    在Spark SQL中,数据可以被表示为DataFrame,这是一个分布式的、可以进行关系查询的数据集合,同时具备了SQL查询的便利性和DataFrame/Dataset API的灵活性。Spark SQL v1.1.0版本是该组件的一个关键里程碑,引入了...

    spark SQL应用解析

    它允许用户使用SQL或者DataFrame和DataSet API来执行查询,极大地简化了大数据处理的工作。本篇将详细解析Spark SQL的相关概念、运行原理、实战应用及其特点。 ### 1. Spark SQL概述 1.1 **什么是Spark SQL** ...

    spark2.2.0源码------

    1. **DataFrame/Dataset API强化**:Spark 2.2.0进一步提升了DataFrame和Dataset API的性能和易用性。DataFrame API提供了SQL-like查询接口,而Dataset API则支持类型安全和强类型编程。在这一版本中,API更加成熟,...

    Spark相关知识PPT

    SparkSQL是Spark的一个模块,它将SQL与DataFrame和Dataset API集成,使得开发者可以用SQL查询结构化数据。DataFrame提供了跨语言的数据操作接口,而Dataset是类型安全的DataFrame。这部分PPT将介绍如何创建...

    spark2.2 入门教程

    9. **Python和R支持**:虽然标签指定了Java,但Spark 2.2同样对Python(PySpark)和R(SparkR)的支持进行了升级,提供了更丰富的API和更好的性能。 通过深入学习Spark 2.2的这些关键特性,开发者能够更好地利用其...

    Spark SQL编程指南pdf格式下载.rar

    Spark SQL是Apache Spark的核心组件之一,它整合了SQL查询与DataFrame和Dataset API,使得开发人员可以方便地在结构化和半结构化数据上进行高性能计算。以下是对Spark SQL的关键知识点的详细解析: 1. **Spark SQL...

    ApacheSpark2.0PerformanceImprovementsInvestigatedWithFlameGraphs

    首先,Spark 2.0 引入了 DataFrame 和 Dataset API,这是一种基于统一的类型系统的数据抽象,它提供了静态类型的强安全性和 SQL 查询的便利性。DataFrame API 允许开发者以声明式的方式编写查询,而 Dataset API 则...

    spark-2.1.1.tgz

    - **DataFrame和Dataset API**:在Spark 2.1.1中,DataFrame和Dataset API得到了进一步优化,提升了性能并降低了内存占用。它们提供了更强大的类型安全性和编译时检查,使得开发更加高效。 - **SQL性能改进**:查询...

    spark-API 2.1.1 html版

    1. **DataFrame 和 Dataset API**:这是 Spark SQL 的一个重要特性,提供了强类型和编译时检查的能力,增强了代码的可读性和安全性。DataFrame 提供了类似 SQL 的接口,而 Dataset 则结合了 DataFrame 的便利性和 ...

    spark3.0.1与配套的hadoop3.2.1.zip

    2. **DataFrame/Dataset API 优化**:DataFrame 和 Dataset API 进一步成熟,提供了更强的类型安全和编译时检查,同时保持了高性能和易用性。 3. **Kubernetes 集成**:Spark 3.0.1 更好地支持 Kubernetes 部署,...

    spark-2.4.4-bin-hadoop2.6.tgz

    在Spark 2.4.4中,DataFrame和Dataset API提供了类型安全和更高效的SQL接口,适用于Java、Scala和Python。这些API简化了数据操作,并提供了优化的执行计划。 6. **Spark Shell**: Spark自带了一个交互式Shell,...

    Spark-2.1.1-Java测试最小依赖包(经过严格测试)

    这个版本引入了DataFrame和Dataset API的进一步完善,使得Java开发者可以更加方便地进行数据处理。DataFrame提供了SQL式的接口,而Dataset则结合了RDD(弹性分布式数据集)的高性能和DataFrame的编译时类型安全。 ...

    基于spark+echarts实现的互联网行业数据大屏分析源码+项目说明.zip

    - **DataFrame和Dataset**:Spark 2.0引入了DataFrame和Dataset API,使得Spark更易用且性能更优。DataFrame是基于列的数据结构,适用于SQL查询;Dataset结合了DataFrame的便利性和Scala/Java对象的强类型特性。 -...

    Spark中文实战图鉴(下)-让企业大数据平台性能更优.zip

    3. **DataFrame和Dataset API**:Spark SQL引入了DataFrame和Dataset API,提供了面向对象的编程模型,使得数据处理更加高效和便捷。理解DataFrame和Dataset的底层原理,以及如何进行SQL查询转换,能够提升开发效率...

Global site tag (gtag.js) - Google Analytics