`
knight_black_bob
  • 浏览: 862037 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark wordcount 第一个spark 程序

阅读更多

 

 

 

wordcount

package com.baoy.worldcount

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by cmcc-B100036 on 2016/4/1.
  */
object WordCount {
  def main(args: Array[String]) {
    if(args.length == 0) {
      println("usage: wordcount <file>")
      System.exit(1)
    }
    val conf = new SparkConf ().setAppName("wordcount")
    val sc = new SparkContext(conf)
    sc.textFile(args(0))
      .flatMap(_.split(" "))
      .map(x => (x, 1))
      .reduceByKey(_ + _)
      .foreach(println)
    sc.stop()
  }
}

 

 

pom

 <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.10</artifactId>
      <version>1.4.1</version>
      <scope>provided</scope>
    </dependency>

 

 

准备原始数据



 

在 /home/cloudera/baoyou/data/log

创建文件 wordcount.log   

 

 在 hdfs 上创建 /data 路径

hdfs dfs -mkdir /data

 

 

上传 wordcount.log 到data路径

hdfs dfs -put wordcount.log /data/

 

 

 

 

运行 本地 spark-submit

 spark-submit  --class com.baoy.worldcount.WordCount --master local  /home/cloudera/baoyou/project/SparkDemo.jar /data/wordcount.log

 

 

运行结果:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

捐助开发者

在兴趣的驱动下,写一个免费的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。



 
 
 谢谢您的赞助,我会做的更好!

 

 

 

 

  • 大小: 7.2 KB
  • 大小: 7.2 KB
  • 大小: 58.7 KB
0
6
分享到:
评论

相关推荐

    大数据技术实践——Spark词频统计

    本实践使用的数据集是一个小规模的文本数据,包含多行文本,如"How nice I love Spark I love Hadoop How good Hadoop is good Spark is fast"。通过Spark进行词频统计,可以找出数据集中出现最频繁的词语。 总结来...

    Spark-wordcount:spark wordcount示例| 在Eclipse + Maven + Scala Project + Spark中构建

    Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...

    spark 分布式集群搭建

    当创建 SparkContext 并启动一个 Spark 应用程序时,会经历以下关键步骤: - 创建 DAGScheduler 和 TaskScheduler 两个核心组件。 - DAGScheduler 负责根据应用程序的依赖关系构建执行计划,划分成多个 Stage,并为...

    上手提示:使用新版IDEA+Maven+Scala编写Spark程序

    - **自动下载依赖的源代码**:IDEA的一个强大之处在于它能够自动下载依赖库的源代码,这对于调试和理解第三方库的工作原理非常有用。这一功能可以通过IDEA右下角的Maven配置界面来启用。 - **创建Scala Class**:在...

    大数据技术之Spark.docx

    **3.1 执行第一个spark程序(standalone)** 在Standalone模式下执行Spark程序通常涉及编译和打包程序、启动Spark集群、提交程序等步骤。 **3.2 执行第一个spark程序(yarn)** 在YARN模式下执行Spark程序的过程...

    spark2官方示例源代码

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效的分布式计算能力和易用性而闻名。Spark2官方示例源代码提供了丰富的实例,帮助开发者更好地理解和使用Spark进行数据处理任务。这些示例涵盖了多种常见...

    第四章Spark&Scala的集成开发环境.docx

    第四章主要讲解的是Spark与Scala的集成开发环境的设置与运行,这涉及到大数据开发的关键步骤。首先,要确保你的Linux系统具有适当的Java环境,因为Spark和Scala都需要Java支持。安装和配置OpenJDK 8是必要的,这通常...

    基于eclipse的spark入门基础案例(hadoop、spark)

    第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序

    pycharm windows spark 环境的安装

    # 测试,获取总数 count 及第一条数据 print(rdd.count()) print(rdd.first()) ``` 2. **运行 WordCount 示例**: - 在 PyCharm 中打开该脚本,确保已配置好 Spark 和 Hadoop 环境。 - 运行脚本,观察输出结果...

    spark1.1快速上手

    `frdd.first`返回RDD中的第一个元素;`frdd.filter`根据给定的函数过滤RDD中的元素,并返回新的RDD。在行动操作中,例如`frdd.count`和`frdd.first`,调用后会立即计算并返回结果。而使用`frdd.filter(_.contains(...

    使用spark 对文本分词统计

    1. **Spark环境搭建**:首先,你需要安装Hadoop(Spark的底层分布式存储系统)和Spark,并配置好环境变量,确保可以启动Spark Shell或提交Spark应用程序。 2. **创建Spark项目**:使用Maven创建一个新的项目,编辑...

    Spark分布式内存计算框架视频教程

    第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念...

    【Spark资源】Spark单词统计实验.pdf

    如果尚未安装,需按照第1课的指导进行安装或使用自动化部署脚本。 2. **创建项目** 实验中使用Eclipse IDE和Maven构建系统。在Hadoop主节点(例如hadoop1)的桌面上打开Eclipse,选择`File` -&gt; `New` -&gt; `Other`,...

    hadoop&spark使用教程.docx

    **三、编写与运行第一个MapReduce程序** 1. **创建WordCount程序** - 编写Mapper类,将输入的文本分割成键值对。 - 编写Reducer类,统计每个单词出现的次数。 - 组装MapReduce程序,确保正确设置输入输出路径。 ...

    Spark大数据技术与应用教学大纲.docx

    **第一章 Spark简介与运行原理** 在这一章,学生将学习Spark是什么,了解Spark作为分布式计算框架的核心特点。Spark的智能化程度,包括其动态资源调度和内存计算模型,是本章的重点。通过学习,学生应能理解Spark...

    Spark RDD 资料

    | `first()` | 返回 RDD 中的第一个元素 | | `take(n)` | 返回 RDD 中前 n 个元素组成的数组 | | `foreach(func)` | 对 RDD 中的每一个元素应用 func 函数 | ##### 3.3 Spark WordCount 代码编写 ```scala val ...

    spark2.4.7兼容haddoop 3.1.4 和hive 3.1.2修改spark源码和jar

    1. 在Hadoop 3.1.4和Hive 3.1.2的环境中部署新构建的Spark jar,并运行一个简单的Spark作业,如WordCount,以验证基础功能的正确性。 2. 执行更复杂的任务,如SQL查询或机器学习,以检查高级特性的兼容性。 3. 如果...

Global site tag (gtag.js) - Google Analytics