pyspark mongodb问题 - linux运维交流学习 - ITeye博客

`

jacklin2015

浏览: 131048 次
性别:
来自: 深圳

最近访客更多访客>>

zhangyu03121011

thinking

xtajmh00

bb171717

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jacklin2015： ...
scrapy 抓的段子里的 \n 去不掉
jacklin2015： ''.join(sel.css("div.item- ...
scrapy 抓的段子里的 \n 去不掉
jacklin2015： ...
linux fdisk mount
jacklin2015： ...
python mongodb 正则查询

pyspark mongodb问题

博客分类：

spark

阅读更多

问题1：
root 用户运行pyspark 没问题
hadoop 用户运行就报如下错

df1 = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("collection","devices").load()
17/02/15 19:34:26 WARN MongoInferSchema: Field 'devcaps' contains conflicting types converting to StringType
17/02/15 19:34:27 ERROR PoolWatchThread: Error in trying to obtain a connection. Retrying in 7000ms
java.sql.SQLException: A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection.
at org.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.Util.generateCsSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.wrapInSQLException(Unknown Source)
at org.apache.derby.impl.jdbc.TransactionResourceImpl.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.handleException(Unknown Source)
at org.apache.derby.impl.jdbc.EmbedConnection.setReadOnly(Unknown Source)
at com.jolbox.bonecp.ConnectionHandle.setReadOnly(ConnectionHandle.java:1324)

求解
。。。

以hadoop用户运行spark-submit 就不报错，原因可能是pyspark 的bug

分享到：

spark-note | zeppelin,hadoop,spark 运行失败解决

2017-02-15 19:36
浏览 1407
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pyspark操作MongoDB的方法步骤: 1. 不推荐使用最新版本的PySpark，因为可能会存在兼容性问题。建议安装特定版本，例如`pip3 install pyspark==2.3.2`。 2. MongoDB连接字符串的格式不同于常规，应为：`mongodb://<host>:<port>/<database>....

【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource: 部分报错如下： Traceback (most recent call last): File /home/cisco/spark-mongo-... File /home/cisco/spark-2.2.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/sql/readwriter.py, line 165, in load

搭建Spark+MongoDB的运行环境的操作手册.docx: 本操作手册主要指导用户在Mac环境下搭建Spark+MongoDB的运行环境，涉及的主要知识点包括Java、Spark、Hadoop、PySpark和MongoDB的安装与配置，以及如何运行基于Spark+MongoDB的大数据分析代码。 1. **Java安装与...

Python+Spark+Hadoop大数据基于用户画像电影推荐系统设计: 程序开发软件： Pycharm + Python3.7 + Django网站 + pyspark大数据分析 + Hadoop平台数据库： Mysql5.6，Redis 本系统是以Django作为基础框架，采用MTV模式，数据库使用MySQL和Redis，以从豆瓣平台爬取的电影...

pyspark: pyspark 该存储库专用于pyspark的代码段。该代码已针对为Hadoop 2.7.3构建的Spark 2.4.6进行了测试。注意：为了通过pyspark连接到Mongodb，您需要其他jar文件，具体取决于您使用的spark版本。有用链接：

mongo-connector-2.11-2.3.0: 例如，你可以用pyspark读取MongoDB中的数据集，进行清洗、转换、聚合等操作，然后将结果写回MongoDB，或者存入其他数据存储。总之，"mongo-connector-2.11-2.3.0"提供了一个完整的解决方案，让数据工程师能够高效...

Film_Permits_NYC:PBDA项目资料库: 分析纽约市授予的电影许可证 •十多年来使用网络抓取工具收集的经过分析的电影许可证数据，并使用Python绘制了图表趋势 •调查拍摄地点和社会经济因素之间的关系，例如人口密度，收入... MongoDB的 Matplotlib Tableau

CDH_1_Help!_python_: 4. **Spark与PySpark**：在CDH中，Apache Spark是常用的分布式计算框架，PySpark是其Python接口，使得Python开发者可以利用Spark的强大功能进行数据处理和分析。 5. **Data Science工具**：Python有丰富的数据科学...

Learning Spark: 书中还涉及了压缩的使用、支持各种数据库的读写操作，例如Elasticsearch、MongoDB、Cassandra、HBase，以及通过Java Database Connectivity (JDBC) 连接关系型数据库。这些内容为读者提供了把Spark用于生产环境中...

Podcast-Explorer: 要求： Java（> = 1.8） Elasticsearch（> = 7.9.1） MongoDB（> = 3.6） Maven（> = 3.3.9） Python（3+） PySpark（3.0.0+）在localhost上部署：启动Elasticsearch服务。 python3 -m pip install elastic...

Python大数据应用基础素材及代码.rar: 9. **MongoDB**：作为一个NoSQL数据库，MongoDB适合存储非结构化和半结构化的数据。Python的PyMongo库提供了与MongoDB交互的API。 10. **ETL（提取、转换、加载）**：在大数据处理中，数据通常需要经过ETL过程才能...

量化投资以Python为工具下载.7z: Python的大数据处理能力体现在其Hadoop、Spark等分布式计算框架的集成，以及对NoSQL数据库如MongoDB的支持。例如，Pyspark库使得Python程序员可以在Spark集群上执行大规模的数据处理任务，快速完成复杂的计算。 ...

电子商务网站用户行为分析及服务推荐，本科毕设.zip: Python的PySpark库可以与Spark交互，而pymongo库则用于MongoDB操作。 4. 用户画像构建：通过对用户行为的深度挖掘，可以创建用户画像，反映用户的兴趣、习惯和偏好。Python的机器学习库如scikit-learn可用于特征...

大数据都要学些什么.pdf: 在处理大数据时，Python程序员可以学习Hadoop，通过PySpark等库实现Python与Hadoop的无缝集成，实现数据流处理。此外，还可以研究NoSQL数据库，如MongoDB，它们在处理非结构化数据时表现出色。无论你是Java还是...

python大数据处理与分析数据集与源代码.zip: 9. **大数据存储**: 如MongoDB、Cassandra等NoSQL数据库，以及HBase这样的列式存储系统，Python都有相应的驱动程序，可以用于与这些系统交互。 10. **数据清洗与预处理**: 在大数据分析中，数据清洗往往占据大部分...

Spark for Python Developers 无水印pdf 0分: Deliver insightful visualizations in a web app using Spark (PySpark) Inject live data using Spark Streaming with real-time events Book Description Looking for a cluster computing system that provides ...

大数据分析师题库1000道-题目答案版.pdf: - 数据存储：理解不同存储技术，比如NoSQL数据库（HBase, MongoDB, Cassandra等），以及传统的SQL数据库。 - 数据处理：掌握数据预处理、清洗、转换的技术和方法，熟悉ETL过程。 - 数据分析：学习统计学基础、...

基于Python的数据批处理技术探讨及实现.zip: Python有Hadoop的PyHadoop库和MongoDB的PyMongo库等，可帮助我们与这些系统交互。最后，为了实现自动化和可重复性，批处理任务通常会封装为脚本或工作流，使用Airflow、Luigi等调度工具管理。这些工具允许定义任务...

Global site tag (gtag.js) - Google Analytics