`
功夫小当家
  • 浏览: 187005 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark -外部数据源

阅读更多

1.在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。

 

(1)spark自带的外部数据源

 

(2)其他开发者贡献的 https://spark-packages.org/

 

以avro为例,点击homepage,跳转到github网址:https://github.com/databricks/spark-avro,github页面详细介绍了用法


 

本地shell测试


 

 

 

2.spark 外部数据源 Api 练习

package df

import org.apache.spark.sql.SparkSession

object ExternalSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("demo").master("local").getOrCreate()

    //1.读取json
    val jsonDF = spark.read.format("json").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/employees.json")
    jsonDF.printSchema()

    //2.读取parquet
    val parquetDF = spark.read.format("parquet").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/users.parquet")
    parquetDF.printSchema()

    //3.读取scv
    val csvDF = spark.read.format("csv").load("file:////data/spark-2.3.0-bin-hadoop2.7/examples/src/main/resources/people.csv")
    csvDF.printSchema()
  }
}

 

 

 

  • 大小: 17.2 KB
  • 大小: 133.1 KB
  • 大小: 123.7 KB
  • 大小: 53.8 KB
分享到:
评论

相关推荐

    spark-3.2.0-bin-hadoop3-without-hive

    Spark SQL 还增强了对 JDBC 和外部数据源的支持,使得数据导入导出更为便捷。 Hadoop 3 是 Apache Hadoop 的一个重要里程碑,它在扩展性、容错性和资源管理上有所提升。Hadoop 3 支持多活 NameNode,增强了集群的...

    Spark-SQL外部数据源.md

    Spark-SQL外部数据源.md

    spark-assembly-1.5.2-hadoop2.6.0jar包

    例如,在sbt的build.sbt文件中,你可以将此jar作为外部库依赖添加。 此外,由于此jar是预先编译并集成了所有依赖的"fat jar",因此它消除了可能的版本冲突问题,使得在多版本Hadoop环境中的部署变得更加简单。但...

    spark-2.4.4-bin-hadoop2.6.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,其主要特点是高效、通用以及易于使用。Spark 2.4.4是该框架的一个稳定版本,它基于Hadoop 2.6进行构建,提供了对大规模数据集的强大处理能力。这个压缩包文件...

    spark-2.4.6-bin-2.6.0-cdh5.7.0.tgz

    它支持多种数据源,包括HDFS、Cassandra、HBase等,能够处理各种结构化、半结构化和非结构化数据。 Spark的弹性分布式数据集(RDD)是其核心抽象,它提供了一种容错的、只读的多分区数据集合。RDD操作可以是转换...

    spark-in-action

    - **外部数据源接入**:除了内置的数据源之外,Spark SQL还支持接入外部数据库和其他外部数据存储系统,如MySQL、Hive等。这种方式极大地扩展了Spark的应用场景。 - **性能调优**:Spark SQL提供了多种性能优化策略...

    spark-2.3.1-bin-hadoop2.6.tgz

    2. **Spark SQL**:Spark SQL是Spark处理结构化数据的模块,它允许用户通过SQL或者DataFrame/Dataset API进行查询,同时支持多种数据源,如Hive、Parquet、JSON和JDBC。 3. **Spark Streaming**:Spark Streaming...

    spark-2.0.0.tgz

    同时,它支持与Kafka、Flume等外部数据源的集成更加紧密,便于实时数据处理。 6. GraphX:Spark的图计算框架GraphX在2.0.0版本中也有所增强,提供了更多图算法和优化,如PageRank和ShortestPaths的性能提升,以及对...

    Spark-strem 中文文档

    - **外部数据集**: 从HDFS、Cassandra或其他数据源加载数据。 #### RDD操作 - **转换(Transformation)**: 对RDD进行操作,但不立即执行,例如`map()`、`filter()`等。 - **动作(Action)**: 触发计算并将结果返回给...

    spark-集群与大数据处理

    此外,Spark还包含了一个用于构建交互式查询的组件Spark SQL,它使得用户能够查询数据,无论数据是存储在Hive表、结构化数据文件(如JSON),还是标准数据库或数据源。通过DataFrame这一抽象概念,Spark SQL提供了对...

    PyPI 官网下载 | apache-airflow-providers-apache-spark-1.0.2.tar.gz

    PyPI(Python Package Index)是Python软件的官方仓库,提供了大量的开源库和模块,包括我们今天要讨论的`apache-airflow-providers-apache-spark-1.0.2.tar.gz`。 该压缩包是Apache Airflow的一个提供商包,专门...

    mastering-spark-sql.pdf

    此外,DataFrameReader和DataFrameWriter分别用于从外部数据源加载数据和保存数据。 最后,文档还探讨了如何处理DataFrame中的缺失数据,这通常通过DataFrameNaFunctions来实现。它提供了一整套方法用于处理空值,...

    藏经阁-Apache Spark -Apache HBase Con.pdf

    其次,SHC实现了标准的外部数据源接口,不仅支持了过滤和维护功能,还确保了与其他数据源的良好兼容性。此外,SHC通过使用Spark的数据编码和解码器,实现了对多种数据格式的支持,使得数据处理更加灵活多样。最后,...

    Spark-Streaming+HDFS实战

    数据源: - GBIF接口(https://api.gbif.org/v1/dataset)提供了生物多样性相关的数据集。 ## 3. 数据处理流程: - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集,可以使用httpclient...

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 ...│ 15-[了解]-外部数据源-操作JDBC-读.mp4

    spark-programming-guide(Spark 编程指南)-高清文字版

    - **外部数据集**:介绍如何将外部数据集加载到Spark中,包括从各种数据源读取数据的方法。 - **RDD操作**:详细说明RDD上的操作类型,分为转换(Transformation)和行动(Action)。转换是指创建新的RDD的操作,而...

    mastring-spark-sql

    Spark SQL提供了一个DataSource API,用于管理存储在外部数据源中的数据集。DataFrameReader用于从外部数据源读取数据集,而DataFrameWriter用于将数据集写入外部数据源。这些API使得与多种数据源进行交互成为可能,...

    javashuffle源码-spark-data-sources:使用V2API开发Spark外部数据源

    外部数据源 该项目说明了 Spark 2.3.0 中引入的新 V2 Apache Spark 外部数据源 API。 它包括: 一个简单的内存数据库系统 (ExampleDB),它支持说明 API 特性所需的所有数据访问范式 一系列不同复杂度的数据源,全部...

    databricks-spark-knowledge-base.pdf

    妥善处理错误输入数据:在处理外部数据源时,应进行数据清洗和验证,确保输入数据的质量,以避免因数据质量问题导致的作业失败。 2. 通用故障排除: a. 因阶段失败导致的作业中止:这可能是因为序列化问题,即...

    Spark 外部数据源调用代码

    Spark 外部数据源调用代码,CSV文件 和HIVE读取方式。

Global site tag (gtag.js) - Google Analytics