`

scala语言的spark实现wordcount

 
阅读更多

生成rdd

val lines = sc.parallelize(Array("Hello Spark","Hello hadoop","Hello hadoop"))

 或者从文件读

val lines = sc.textFile("//......")

 切分

val words= lines.flatMap(x=>x.split(" "))

 切分后是这样

写道
res0: Array[String] = Array(Hello, Spark, Hello, hadoop, Hello, hadoop)

 

然后开始变成键值对形式,并且计算

val result=words.map(x=>(x,1)).reduceByKey((x,y)=>x+y)

 计算出结果就是

写道
res1: Array[(String, Int)] = Array((Hello,3), (Spark,1), (hadoop,2))

 还有更省事的方法 

val words= lines.flatMap(x=>x.split(" ")).countByValue()

 结果

写道
words: scala.collection.Map[String,Long] = Map(Hello -> 3, Spark -> 1, hadoop -> 2)

 

分享到:
评论

相关推荐

    spark下实现wordcount

    ### Spark 下实现 WordCount #### 一、简介 在大数据处理领域,Apache Spark 是一个非常流行的框架,它能够高效地处理大规模数据集。WordCount 是一个经典的示例程序,用于统计文本文件中每个单词出现的次数。本篇...

    Spark:用Scala和Java实现WordCount

    用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spark自带的例子($SPARK_HOME/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java)OS:RedHatEnterpriseLinuxServerrelease6.4...

    hadoop scala spark 例子项目,运行了单机wordcount

    【标题】中的“hadoop scala spark 例子项目,运行了单机wordcount”指的是一个使用Hadoop、Scala和Spark框架实现的简单WordCount程序。在大数据处理领域,WordCount是入门级的经典示例,用于统计文本文件中单词出现...

    spark框架中wordcount的scala实现

    scala语言和python一样都是交互式的语言,操作简单。这是wordcount的scala实现,简单明了,比java实现简单很多,希望对大家有所帮助

    WordCount_Spark!_spark_wordcount_java_

    在Spark上实现WordCount是入门的经典示例,它演示了如何处理大规模文本数据并进行简单的统计分析。在这个程序中,我们将深入理解Spark的核心概念,如RDD(弹性分布式数据集)以及并行计算的基本操作。 **1. Spark...

    大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc

    * 使用 Spark 编程实现 wordcount Scala 程序,首先需要导入 spark 的 jar 包,然后编写 wordcount 程序。 * 使用 SparkContext 对象来创建 RDD,并使用 textFile 方法读取文件。 * 使用 flatMap 方法将每一行文本...

    Spark 最简单WordCount

    在Spark中,我们可以通过Scala、Java、Python或R语言进行编程。本教程将重点介绍如何使用Scala编写一个简单的WordCount程序,以及如何在本地和集群模式下运行它。 **一、Spark环境搭建** 1. 安装Java:Spark依赖于...

    上手提示:使用新版IDEA+Maven+Scala编写Spark程序

    一旦完成以上步骤,开发者就可以开始使用Scala语言编写Spark程序了。Scala作为一种强类型的语言,其语法简洁且功能强大,非常适合进行函数式编程。 - **使用Scala API**:在编写Spark程序时,可以直接调用Scala API...

    java+hadopp+scala+spark配置win10版

    3. **Scala**:Scala是一种结合了面向对象和函数式编程的现代编程语言,是Spark的主要编程接口。首先,你需要从Scala官网下载并安装Scala SDK。接着,将Scala的bin目录添加到PATH环境变量中。安装完成后,你可以在...

    Spark-wordcount:spark wordcount示例| 在Eclipse + Maven + Scala Project + Spark中构建

    Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...

    使用Scala设计WordCount程序

    使用Scala设计WordCount程序 软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz

    Springboot 结合Apache Spark 2.4.4与Scala 2.12 集成示例

    Spring Boot以其便捷的微服务开发能力,而Apache Spark是大数据处理领域中的一员猛将,Scala则作为Spark的主要编程语言,提供了强大的面向对象和函数式编程特性。通过整合这三者,我们可以构建高效、易维护的数据...

    大数据技术实践——Spark词频统计

    本实践旨在基于已经搭建的Hadoop平台,利用Spark组件进行文本词频统计,以此深入理解Scala语言,并掌握Spark编程思想。 **一、Spark核心特性** Spark的核心在于其内存计算模型,它能够在内存中存储中间结果,避免...

    基于Python Java Scala语言的MapReduce及Spark分词及词频统计效率对比

    通过使用三种不同语言编写来编写分词及词频统计程序,比较在大数数据背景下,MapReduce和Spark对三种语言的适应性及其各自的效率对比;项目均采用IDEA+Maven进行构建,相关依赖均在对应pom.xml中给出; 软件架构 ...

    基于HDFS的spark分布式Scala程序测试

    在完成集群部署后,可以通过Spark Shell编写Scala程序来实现WordCount功能。首先启动Spark Shell: ```bash [root@vm1 bin]# spark-shell ``` 进入Shell后,可以使用Scala编写WordCount程序。以下是一个简单的...

    关于scala项目spark.zip

    input文件夹存放的是项目数据源;wordcount统计每个单词的总数;count和count1分别使用dataframe和rdd统计人口性别和身高;demo1最受欢迎的老师的问题;demo2多文件去重合并;demo3计算年度最高温度

    第四章Spark&Scala的集成开发环境.docx

    以下是一个简单的Scala源码示例,用于实现WordCount: ```scala import org.apache.log4j.Logger import org.apache.log4j.Level import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, ...

    使用IDEA开发Scala程序.docx

    通过实践,我们将了解Scala语言和Spark框架的结合,以及IDEA在大数据开发中的应用。 实验的要求主要包括两个部分:首先,我们需要在IDEA中创建并运行一个本地Spark的WordCount程序,这是一个常见的大数据处理示例,...

Global site tag (gtag.js) - Google Analytics