`
ronaldoLY
  • 浏览: 43638 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

使用spark.createDataFrame报错

 
阅读更多

spark_df = spark.createDataFrame(df)

pandas df转换为spark df时报错

Can not merge type <class 'pyspark.sql.types.LongType'> and <class 'pyspark.sql.types.StringType'>

 

原因:df中有空值,去掉空值,强转类型 即可

df['item_id'].astype(int)

df['item_geohash'].astype(str)

df['item_category'].astype(str)

df =df.replace(np.NaN, '')

分享到:
评论

相关推荐

    JAVA spark创建DataFrame的方法

    Dataset&lt;Row&gt; df = spark.createDataFrame(rdd, StructType.fromDDL("title string, qty long")); ``` 创建DataFrame后,我们可以进行更复杂的SQL查询和分析,或者将结果保存到文件。在上述示例中,使用`write()....

    High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark.

    High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark. High.Performance.Spark.Best.Practices.for.Scaling.and.Optimizing.Apache.Spark.

    mondrian-4.3.0.1.2-SPARK.jar

    mondrian-4.3.0.1.2-SPARK.jar

    Learning Spark.pdf

    Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning Spark.pdf Learning ...

    my presentation on RDD & Spark.pptx

    这是一个Apache Spark的演讲ppt,全都是英文的,制作时间是2020年的。包含Spart的最近状态,RDD和其生态。my presentation on RDD & Spark.pptx

    大数据技术之spark.docx

    大数据技术之spark.docx

    【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource

     df = spark.read.format(com.mongodb.spark.sql.DefaultSource).load()  File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/readwriter.py, line 165, in load  

    spark-md5.js

    可用于大文件的哈希 (function (factory) { if (typeof exports === 'object') { // Node/CommonJS module.exports = factory(); } else if (typeof define === 'function' && define.amd) { ...

    GeoMesa Spark.docx

    import org.locationtech.geomesa.spark.jts._ import spark.implicits._ val schema = StructType(Array( StructField("name", StringType, nullable = false), StructField("pointText", StringType, ...

    Packt.Machine Learning with Spark.2015

    ### 关于《使用Spark进行机器学习》的知识点总结 #### 一、书籍基本信息与版权信息 本书名为《使用Spark进行机器学习》,由Packt Publishing在2015年出版,作者为Nick Pentreath。该书版权严格受保护,任何未经...

    spark配置默认值及其解释说明

    1. `spark.master`:这个参数定义了Spark应用程序连接的集群管理器。默认值通常是“local”,这意味着在单个JVM上运行Spark。在分布式环境中,可能设置为“yarn”(用于Hadoop YARN)、“mesos”或“spark://...

    spark.md5.js

    spark.md5.js用于计算文件的md5值,使用方式SparkMD5.ArrayBuffer.hash(ev.target.result);

    Spark的shuffle调优

    spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲,代表了每个reduce task每次能够拉取的map side数据最大大小,如果内存充足,可以考虑加大,从而减少网络传输次数,提升性能 spark.shuffle....

    Spark SQL常见4种数据源详解

    通用load/write方法 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。... Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,...scala&gt; val df = spark.read.load(hdfs://hadoop001:9000/nam

    Spark3.0.0配置文件.zip

    - `spark.master`: 这个配置指定了Spark应用程序运行的集群管理器。例如,可以设置为`local`以在本地运行,或者`yarn`、`mesos`或`k8s`以在相应的资源管理器上运行。 - `spark.app.name`: 应用程序的名称,显示在...

Global site tag (gtag.js) - Google Analytics