`

pyspark mongodb问题

阅读更多
问题1:
root 用户运行pyspark 没问题
hadoop 用户运行就报如下错

df1 = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("collection","devices").load()
17/02/15 19:34:26 WARN MongoInferSchema: Field 'devcaps' contains conflicting types converting to StringType
17/02/15 19:34:27 ERROR PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms
java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.
at org.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.Util.generateCsSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.wrapInSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.setReadOnly(Unknown Source)
at com.jolbox.bonecp.ConnectionHandle.setReadOnly(ConnectionHandle.java:1324)


求解
。。。

以hadoop用户 运行spark-submit 就不报错,原因可能是pyspark 的bug


分享到:
评论

相关推荐

    pyspark操作MongoDB的方法步骤

    1. 不推荐使用最新版本的PySpark,因为可能会存在兼容性问题。建议安装特定版本,例如`pip3 install pyspark==2.3.2`。 2. MongoDB连接字符串的格式不同于常规,应为:`mongodb://<host>:<port>/<database>....

    【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource

    部分报错如下: Traceback (most recent call last):  File /home/cisco/spark-mongo-... File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/readwriter.py, line 165, in load  

    Python+Spark+Hadoop大数据基于用户画像电影推荐系统设计

    程序开发软件: Pycharm + Python3.7 + Django网站 + pyspark大数据分析 + Hadoop平台 数据库: Mysql5.6,Redis 本系统是以Django作为基础框架,采用MTV模式,数据库使用MySQL和Redis,以从豆瓣平台爬取的电影...

    pyspark

    pyspark 该存储库专用于pyspark的代码段。 该代码已针对为Hadoop 2.7.3构建的Spark 2.4.6进行了测试。 注意:为了通过pyspark连接到Mongodb,您需要其他jar文件,具体取决于您使用的spark版本。 有用链接:

    mongo-connector-2.11-2.3.0

    例如,你可以用pyspark读取MongoDB中的数据集,进行清洗、转换、聚合等操作,然后将结果写回MongoDB,或者存入其他数据存储。 总之,"mongo-connector-2.11-2.3.0"提供了一个完整的解决方案,让数据工程师能够高效...

    Film_Permits_NYC:PBDA项目资料库

    分析纽约市授予的电影许可证 •十多年来使用网络抓取工具收集的经过分析的电影许可证数据,并使用Python绘制了图表趋势 •调查拍摄地点和社会经济因素之间的关系,例如人口密度,收入... MongoDB的 Matplotlib Tableau

    CDH_1_Help!_python_

    4. **Spark与PySpark**:在CDH中,Apache Spark是常用的分布式计算框架,PySpark是其Python接口,使得Python开发者可以利用Spark的强大功能进行数据处理和分析。 5. **Data Science工具**:Python有丰富的数据科学...

    Learning Spark

    书中还涉及了压缩的使用、支持各种数据库的读写操作,例如Elasticsearch、MongoDB、Cassandra、HBase,以及通过Java Database Connectivity (JDBC) 连接关系型数据库。这些内容为读者提供了把Spark用于生产环境中...

    Podcast-Explorer

    要求: Java(> = 1.8) Elasticsearch(> = 7.9.1) MongoDB(> = 3.6) Maven(> = 3.3.9) Python(3+) PySpark(3.0.0+) 在localhost上部署: 启动Elasticsearch服务。 python3 -m pip install elastic...

    Python大数据应用基础素材及代码.rar

    9. **MongoDB**:作为一个NoSQL数据库,MongoDB适合存储非结构化和半结构化的数据。Python的PyMongo库提供了与MongoDB交互的API。 10. **ETL(提取、转换、加载)**:在大数据处理中,数据通常需要经过ETL过程才能...

    量化投资以Python为工具下载.7z

    Python的大数据处理能力体现在其Hadoop、Spark等分布式计算框架的集成,以及对NoSQL数据库如MongoDB的支持。例如,Pyspark库使得Python程序员可以在Spark集群上执行大规模的数据处理任务,快速完成复杂的计算。 ...

    电子商务网站用户行为分析及服务推荐,本科毕设.zip

    Python的PySpark库可以与Spark交互,而pymongo库则用于MongoDB操作。 4. 用户画像构建:通过对用户行为的深度挖掘,可以创建用户画像,反映用户的兴趣、习惯和偏好。Python的机器学习库如scikit-learn可用于特征...

    大数据都要学些什么.pdf

    在处理大数据时,Python程序员可以学习Hadoop,通过PySpark等库实现Python与Hadoop的无缝集成,实现数据流处理。此外,还可以研究NoSQL数据库,如MongoDB,它们在处理非结构化数据时表现出色。 无论你是Java还是...

    python大数据处理与分析数据集与源代码.zip

    9. **大数据存储**: 如MongoDB、Cassandra等NoSQL数据库,以及HBase这样的列式存储系统,Python都有相应的驱动程序,可以用于与这些系统交互。 10. **数据清洗与预处理**: 在大数据分析中,数据清洗往往占据大部分...

    Spark for Python Developers 无水印pdf 0分

    Deliver insightful visualizations in a web app using Spark (PySpark) Inject live data using Spark Streaming with real-time events Book Description Looking for a cluster computing system that provides ...

    大数据分析师题库1000道-题目答案版.pdf

    - 数据存储:理解不同存储技术,比如NoSQL数据库(HBase, MongoDB, Cassandra等),以及传统的SQL数据库。 - 数据处理:掌握数据预处理、清洗、转换的技术和方法,熟悉ETL过程。 - 数据分析:学习统计学基础、...

    基于Python的数据批处理技术探讨及实现.zip

    Python有Hadoop的PyHadoop库和MongoDB的PyMongo库等,可帮助我们与这些系统交互。 最后,为了实现自动化和可重复性,批处理任务通常会封装为脚本或工作流,使用Airflow、Luigi等调度工具管理。这些工具允许定义任务...

Global site tag (gtag.js) - Google Analytics