Spark 中读取csv文件（或其他分隔符分割的文件）

cherishLC

浏览: 699380 次
性别:
来自: 北京

最近访客更多访客>>

jaybril

duanyilinelf

q343724746

半夏浮生

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

spark

注：所有需要的包都可以通过http://search.maven.org 中搜索包名（比如spark-csv）进行下载；
spark2中已经包含了这些包，直接用即可，而且支持同时读取多文件夹下的文件
参见：https://stackoverflow.com/questions/37639956/how-to-import-multiple-csv-files-in-a-single-load

示例代码：

    val conf = new SparkConf().setAppName("word count").setMaster("local[1]")
    val sc = new SparkContext(conf)
    println("spark version: " + sc.version)
    sc.setLogLevel("WARN") //http://stackoverflow.com/questions/27781187/how-to-stop-messages-displaying-on-spark-console
    val spark = new SQLContext(sc)
    import spark.implicits._
    val df = spark.read.format("com.databricks.spark.csv")
      .option("header", "true")
      .option("inferSchema", "false") //是否自动推到内容的类型
//        .option("delimiter"," ")  //分隔符，默认为 , 
      .load(csv_file_name)
    df.show()

以上的代码只能够读取一个文件夹下的文件，如果要同时读取多个文件夹下的文件，在spark1.6中可以这么干：

    def readMultiCSV(paths: Seq[String], delimiter: String=",",hasHeader:Boolean=false): DataFrame = {
//      在spark2.0之后可以用如下的方法，而且支持多个文件夹，参见https://stackoverflow.com/questions/37639956/how-to-import-multiple-csv-files-in-a-single-load
//      spark.read.format("csv").option("header", "true").load("../Downloads/*.csv")
//      spark.read.option("header", "true").csv(paths)
      var df = spark.read.format("com.databricks.spark.csv")
        .schema(customSchema)
        .option("header", hasHeader.toString)
        .option("inferSchema", "false") //是否自动推到内容的类型
        .option("delimiter", delimiter) //分隔符，默认为 ,
        .load(paths(0))
      for(i<-1 until paths.length){
        val df_tmp=spark.read.format("com.databricks.spark.csv")
          .schema(customSchema)
          .option("header", hasHeader.toString)
          .option("inferSchema", "false") //是否自动推到内容的类型
          .option("delimiter", delimiter) //分隔符，默认为 ,
          .load(paths(i))
        df=df.unionAll(df_tmp)
      }
      df
    }

方法1、直接下载所需的jar包

需要用到的包spark-csv
   源码：https://github.com/databricks/spark-csv
   以上github页面中还有使用方法（各种选项）等信息
   编译好的jar（注意选择相应的scala版本的包）：

此外，spark-csv还依赖两个包：
http://search.maven.org/remotecontent?filepath=com/univocity/univocity-parsers/1.5.1/univocity-parsers-1.5.1.jar
http://search.maven.org/remotecontent?filepath=org/apache/commons/commons-csv/1.1/commons-csv-1.1.jar

方法2、通过maven自动管理依赖

在工程的pom.xml中添加如下依赖即可：

        <dependency>
            <groupId>com.databricks</groupId>
            <artifactId>spark-csv_${scala.version}</artifactId>
            <version>1.5.0</version>
            <scope>compile</scope>
        </dependency>

参考资料：
https://stackoverflow.com/questions/30757439/how-to-add-any-new-library-like-spark-csv-in-apache-spark-prebuilt-version
https://github.com/databricks/spark-csv/issues/326

分享到：

利用pyenv管理默认python版本 | C++杂记-- 重定向std::cout等

2017-07-18 16:38
浏览 26041
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark 中读取csv文件（或其他分隔符分割的文件）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark 中读取csv文件（或其他分隔符分割的文件）

评论

发表评论

相关推荐

hadoop yarn 内存配置

spark 零碎知识汇总

hadoop、yarn常用命令

Spark DataFrame处理数据倾斜问题

IntelliJ IDEA Spark相关资料汇总

spark资料汇总

spark安装笔记（ubuntu16）

最近访客更多访客>>