wordcount
package com.baoy.worldcount import org.apache.spark.{SparkConf, SparkContext} /** * Created by cmcc-B100036 on 2016/4/1. */ object WordCount { def main(args: Array[String]) { if(args.length == 0) { println("usage: wordcount <file>") System.exit(1) } val conf = new SparkConf ().setAppName("wordcount") val sc = new SparkContext(conf) sc.textFile(args(0)) .flatMap(_.split(" ")) .map(x => (x, 1)) .reduceByKey(_ + _) .foreach(println) sc.stop() } }
pom
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.4.1</version> <scope>provided</scope> </dependency>
准备原始数据
在 /home/cloudera/baoyou/data/log
创建文件 wordcount.log
在 hdfs 上创建 /data 路径
hdfs dfs -mkdir /data
上传 wordcount.log 到data路径
hdfs dfs -put wordcount.log /data/
运行 本地 spark-submit
spark-submit --class com.baoy.worldcount.WordCount --master local /home/cloudera/baoyou/project/SparkDemo.jar /data/wordcount.log
运行结果:
捐助开发者
在兴趣的驱动下,写一个免费
的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。
谢谢您的赞助,我会做的更好!
相关推荐
本实践使用的数据集是一个小规模的文本数据,包含多行文本,如"How nice I love Spark I love Hadoop How good Hadoop is good Spark is fast"。通过Spark进行词频统计,可以找出数据集中出现最频繁的词语。 总结来...
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...
当创建 SparkContext 并启动一个 Spark 应用程序时,会经历以下关键步骤: - 创建 DAGScheduler 和 TaskScheduler 两个核心组件。 - DAGScheduler 负责根据应用程序的依赖关系构建执行计划,划分成多个 Stage,并为...
- **自动下载依赖的源代码**:IDEA的一个强大之处在于它能够自动下载依赖库的源代码,这对于调试和理解第三方库的工作原理非常有用。这一功能可以通过IDEA右下角的Maven配置界面来启用。 - **创建Scala Class**:在...
**3.1 执行第一个spark程序(standalone)** 在Standalone模式下执行Spark程序通常涉及编译和打包程序、启动Spark集群、提交程序等步骤。 **3.2 执行第一个spark程序(yarn)** 在YARN模式下执行Spark程序的过程...
Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效的分布式计算能力和易用性而闻名。Spark2官方示例源代码提供了丰富的实例,帮助开发者更好地理解和使用Spark进行数据处理任务。这些示例涵盖了多种常见...
第四章主要讲解的是Spark与Scala的集成开发环境的设置与运行,这涉及到大数据开发的关键步骤。首先,要确保你的Linux系统具有适当的Java环境,因为Spark和Scala都需要Java支持。安装和配置OpenJDK 8是必要的,这通常...
第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序
# 测试,获取总数 count 及第一条数据 print(rdd.count()) print(rdd.first()) ``` 2. **运行 WordCount 示例**: - 在 PyCharm 中打开该脚本,确保已配置好 Spark 和 Hadoop 环境。 - 运行脚本,观察输出结果...
`frdd.first`返回RDD中的第一个元素;`frdd.filter`根据给定的函数过滤RDD中的元素,并返回新的RDD。在行动操作中,例如`frdd.count`和`frdd.first`,调用后会立即计算并返回结果。而使用`frdd.filter(_.contains(...
1. **Spark环境搭建**:首先,你需要安装Hadoop(Spark的底层分布式存储系统)和Spark,并配置好环境变量,确保可以启动Spark Shell或提交Spark应用程序。 2. **创建Spark项目**:使用Maven创建一个新的项目,编辑...
第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念...
如果尚未安装,需按照第1课的指导进行安装或使用自动化部署脚本。 2. **创建项目** 实验中使用Eclipse IDE和Maven构建系统。在Hadoop主节点(例如hadoop1)的桌面上打开Eclipse,选择`File` -> `New` -> `Other`,...
**三、编写与运行第一个MapReduce程序** 1. **创建WordCount程序** - 编写Mapper类,将输入的文本分割成键值对。 - 编写Reducer类,统计每个单词出现的次数。 - 组装MapReduce程序,确保正确设置输入输出路径。 ...
**第一章 Spark简介与运行原理** 在这一章,学生将学习Spark是什么,了解Spark作为分布式计算框架的核心特点。Spark的智能化程度,包括其动态资源调度和内存计算模型,是本章的重点。通过学习,学生应能理解Spark...
| `first()` | 返回 RDD 中的第一个元素 | | `take(n)` | 返回 RDD 中前 n 个元素组成的数组 | | `foreach(func)` | 对 RDD 中的每一个元素应用 func 函数 | ##### 3.3 Spark WordCount 代码编写 ```scala val ...
1. 在Hadoop 3.1.4和Hive 3.1.2的环境中部署新构建的Spark jar,并运行一个简单的Spark作业,如WordCount,以验证基础功能的正确性。 2. 执行更复杂的任务,如SQL查询或机器学习,以检查高级特性的兼容性。 3. 如果...