问题1:
root 用户运行pyspark 没问题
hadoop 用户运行就报如下错
df1 = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("collection","devices").load()
17/02/15 19:34:26 WARN MongoInferSchema: Field 'devcaps' contains conflicting types converting to StringType
17/02/15 19:34:27 ERROR PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms
java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.
at org.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.Util.generateCsSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.wrapInSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.setReadOnly(Unknown Source)
at com.jolbox.bonecp.ConnectionHandle.setReadOnly(ConnectionHandle.java:1324)
求解
。。。
以hadoop用户 运行spark-submit 就不报错,原因可能是pyspark 的bug
分享到:
相关推荐
1. 不推荐使用最新版本的PySpark,因为可能会存在兼容性问题。建议安装特定版本,例如`pip3 install pyspark==2.3.2`。 2. MongoDB连接字符串的格式不同于常规,应为:`mongodb://<host>:<port>/<database>....
部分报错如下: Traceback (most recent call last): File /home/cisco/spark-mongo-... File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/readwriter.py, line 165, in load
程序开发软件: Pycharm + Python3.7 + Django网站 + pyspark大数据分析 + Hadoop平台 数据库: Mysql5.6,Redis 本系统是以Django作为基础框架,采用MTV模式,数据库使用MySQL和Redis,以从豆瓣平台爬取的电影...
pyspark 该存储库专用于pyspark的代码段。 该代码已针对为Hadoop 2.7.3构建的Spark 2.4.6进行了测试。 注意:为了通过pyspark连接到Mongodb,您需要其他jar文件,具体取决于您使用的spark版本。 有用链接:
例如,你可以用pyspark读取MongoDB中的数据集,进行清洗、转换、聚合等操作,然后将结果写回MongoDB,或者存入其他数据存储。 总之,"mongo-connector-2.11-2.3.0"提供了一个完整的解决方案,让数据工程师能够高效...
分析纽约市授予的电影许可证 •十多年来使用网络抓取工具收集的经过分析的电影许可证数据,并使用Python绘制了图表趋势 •调查拍摄地点和社会经济因素之间的关系,例如人口密度,收入... MongoDB的 Matplotlib Tableau
4. **Spark与PySpark**:在CDH中,Apache Spark是常用的分布式计算框架,PySpark是其Python接口,使得Python开发者可以利用Spark的强大功能进行数据处理和分析。 5. **Data Science工具**:Python有丰富的数据科学...
书中还涉及了压缩的使用、支持各种数据库的读写操作,例如Elasticsearch、MongoDB、Cassandra、HBase,以及通过Java Database Connectivity (JDBC) 连接关系型数据库。这些内容为读者提供了把Spark用于生产环境中...
要求: Java(> = 1.8) Elasticsearch(> = 7.9.1) MongoDB(> = 3.6) Maven(> = 3.3.9) Python(3+) PySpark(3.0.0+) 在localhost上部署: 启动Elasticsearch服务。 python3 -m pip install elastic...
9. **MongoDB**:作为一个NoSQL数据库,MongoDB适合存储非结构化和半结构化的数据。Python的PyMongo库提供了与MongoDB交互的API。 10. **ETL(提取、转换、加载)**:在大数据处理中,数据通常需要经过ETL过程才能...
Python的大数据处理能力体现在其Hadoop、Spark等分布式计算框架的集成,以及对NoSQL数据库如MongoDB的支持。例如,Pyspark库使得Python程序员可以在Spark集群上执行大规模的数据处理任务,快速完成复杂的计算。 ...
Python的PySpark库可以与Spark交互,而pymongo库则用于MongoDB操作。 4. 用户画像构建:通过对用户行为的深度挖掘,可以创建用户画像,反映用户的兴趣、习惯和偏好。Python的机器学习库如scikit-learn可用于特征...
在处理大数据时,Python程序员可以学习Hadoop,通过PySpark等库实现Python与Hadoop的无缝集成,实现数据流处理。此外,还可以研究NoSQL数据库,如MongoDB,它们在处理非结构化数据时表现出色。 无论你是Java还是...
9. **大数据存储**: 如MongoDB、Cassandra等NoSQL数据库,以及HBase这样的列式存储系统,Python都有相应的驱动程序,可以用于与这些系统交互。 10. **数据清洗与预处理**: 在大数据分析中,数据清洗往往占据大部分...
Deliver insightful visualizations in a web app using Spark (PySpark) Inject live data using Spark Streaming with real-time events Book Description Looking for a cluster computing system that provides ...
- 数据存储:理解不同存储技术,比如NoSQL数据库(HBase, MongoDB, Cassandra等),以及传统的SQL数据库。 - 数据处理:掌握数据预处理、清洗、转换的技术和方法,熟悉ETL过程。 - 数据分析:学习统计学基础、...
Python有Hadoop的PyHadoop库和MongoDB的PyMongo库等,可帮助我们与这些系统交互。 最后,为了实现自动化和可重复性,批处理任务通常会封装为脚本或工作流,使用Airflow、Luigi等调度工具管理。这些工具允许定义任务...