`
sunbin
  • 浏览: 354893 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

pyspark demo

 
阅读更多

demo

spark 在不使用mllib的情况下,可以使用python的数据分析。

使用方法如下

 

代码可以运行

eclipse添加 window--preferences---pydev----interpreters---python interpreter

 1、环境变量

SPARK_HOME=C:\spark-2.3.1-bin-hadoop2.6

SPARK_LOCAL_IP=本机ip/localhost

2、jar包

libraries中添加

C:\spark-2.3.1-bin-hadoop2.6\python

C:\spark-2.3.1-bin-hadoop2.6\python\lib\*

 

3、代码

 

# coding=UTF-8
import findspark
findspark.init()
from pyspark import SparkContext
def show(x):
    print(x)
sc = SparkContext("local", "First App")
lines = sc.textFile("../../../words").cache()
words=lines.flatMap(lambda line:line.split(" "),True)
pairWords = words.map(lambda word : (word,1),True)
result = pairWords.reduceByKey(lambda v1,v2:v1+v2, 3)
result.foreach(lambda x:show(x))
result.saveAsTextFile("../../../wc-result2")

 代码执行(eclipse 可直接运行,集群提交如下)

$SPARK_HOME/bin/spark-submit firstapp.py
分享到:
评论

相关推荐

    5、pyspark集群与导入用户自定义模块执行demo.pdf

    在分布式计算领域,Apache Spark 是一个非常流行的开源大数据处理框架,而 PySpark 是 Spark 的 Python 接口,它使得开发者可以使用 Python 语言进行大规模数据处理。本篇文档主要介绍了如何在 pyspark 集群环境中...

    PySpark工作原理coding.docx

    在本例中,`appName` 设置为 "pyspark demo"。 2. **DataFrame**: DataFrame 是 PySpark 提供的一种数据结构,它类似于 SQL 中的关系表,提供了丰富的操作接口。通过 `spark.read.csv()` 方法,可以从 CSV 文件加载...

    pyspark 随机森林的实现

    在pyspark中,我们可以利用`pyspark.ml.classification.RandomForestClassifier`库来实现随机森林分类器。 首先,我们需要引入必要的库,包括`SparkConf`,`SparkSession`,`Vectors`,`StringIndexer`,`...

    sgx-pyspark-sql-demo

    git clone https://github.com/scontain/sgx-pyspark-demo && cd sgx-pyspark-demo docker run -it --rm -v ` pwd ` :/fspf --privileged -p 8080:8080 -p 6868:6868 -p 28778:28778 registry.scontain....

    pyspark-setup-demo:具有Jupyter Docker堆栈的PySpark和Jupyter Notebook演示

    有关该项目的完整信息,请阅读相关博客文章建筑建立从GitHub克隆此项目: git clone \ --branch v2 --single-branch --depth 1 --no-tags \ https://github.com/garystafford/pyspark-setup-demo.git 为PostgreSQL...

    kmeans-pyspark:Spark中分布式K-means聚类的Python实现

    本地开发和运营依存关系确保您已将Python 2.7和pip一起安装。 然后运行: pip install -r requirements.txt正在运行的工作使用中央作业运行程序模块src/index.py运行所有作业。 您完全不需要编辑此文件。...

    在python中使用pyspark读写Hive数据操作

    pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语句从hive里面查询需要的数据,代码如下: from pyspark...

    spark连接HIveDemo

    from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName("Spark-Hive Demo") \ .config("spark.sql.warehouse.dir", "hdfs://namenode:port/warehouse") \ .enableHiveSupport() \ ....

    使用python轻松进行数据分析.rar

    for_file/Demo.py 包含:读取本地csv文件、选取指定列、更改列名、数据打印、保存csv文件 for_file/Demo2.py 包含:利用pyspark读取本地或HDFS上的csv文件、选取指定列、更改列名、创建临时视图、各类SQL统计、...

    spark_recommendation:pyspark烧瓶

    基于spark的协同过滤算法ALS的实现demo 考虑到后期数据可视化的因素,采python的pyspark模块来实现,后期可视化使用web框架flask,前遍历输出推荐的电影名。 extract.py : 提取数据集中的user字段进行保存,用来判断...

    databricks-demo:为成功设置数据-使用Delata构建LakeHouse

    from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder \ .appName("DeltaLakeExample") \ .getOrCreate() # 读取CSV数据 df = spark.read.csv("path/to/your/csv", infer...

    sparkSQL连接cassandra和mysql的demo

    确保这些库已经被添加到你的Spark项目依赖中,例如在Scala或PySpark项目中。 1. **连接Cassandra** - 使用`spark-cassandra-connector`,创建一个SparkSession并配置Cassandra的数据源。在Scala中,代码可能如下:...

    使用协同过滤和lfm(sparkmllibALS)的电影推荐演示_Python_下载.zip

    这个"使用协同过滤和lfm(sparkmllibALS)的电影推荐演示_Python_下载.zip"包含了一个名为“pyspark-recommendation-demo-master”的代码示例,用于展示这些概念。 协同过滤是一种基于用户行为的推荐算法,它假设...

    aliyun-emapreduce-demo

    本项目包含以下示例: ...PySpark WordCount: 单词统计 依赖资源 测试数据(data目录下): The_Sorrows_of_Young_Werther.txt:可作为WordCount(MapReduce/Spark)的输入数据 patterns.txt:WordCount(MapReduce)作

    aws-airflow-demo:帖子的项目文件

    使用Apache Airflow在Amazon EMR上运行PySpark应用程序 概述 文章的项目文件, 。 请参阅帖子以获取有关使用项目文件的完整说明。 建筑学 以下是该帖子演示的最终高级架构。 该图以红色显示了DAG Run请求的大概路线...

    讯飞python操控大模型lc-sp-sparkAPI-1709535448185.zip

    2. **PySpark**:Spark的Python API,让开发者可以使用Python编写Spark应用程序。 3. **Spark API**:一组接口,用于操作Spark的数据集、DataFrame和RDD(弹性分布式数据集)。 4. **分布式计算**:数据分布在多台...

    vscode-virtual-document-python-demo:用于python的IntelliSense并在markdown文件中悬停的虚拟文档演示

    虚拟文档Python演示 段落演示 # Note Title ## Paragraph Title ```python PYSPARK 1610625457 import time import datetime time.sleep(5) print(datetime.datetime.now()) ```

    SparkLearning_NoteBook:Spark 学习notebook

    基于Spark的学习实践笔记,内附jupyter notebook实践,可以根据里面的一步步操作学习Spark RDD的基本API操作、Spark MLlib 相关操作和Spark实践Demo等。 本项目配有完整依赖环境的实战Docker镜像,具体Docker Hub路径...

    如何搭建Spark环境

    这将启动Pyspark(Python版本的Shell)或Scala Spark Shell,具体取决于你的设置。如果你希望在本地运行一个简单的Spark程序,可以创建一个名为`SparkDemo.scala`的文件,写入如下内容: ```scala object SparkDemo...

    基于python3使用spark的统计分析,涵盖spark的几大模块+源代码+文档说明

    基于PySpark的统计分析,主要分为以下模块: ```angular2html 1.spark_core:spark的基本操作,统计、wordcount、TopN等,数据主要来自英文新闻网站和自己随机构造的数据 2.spark_mllib:针对spark mllib里面机器学习...

Global site tag (gtag.js) - Google Analytics