spark wordcount 第一个spark 程序 - Ctrl+C&Ctrl+V - ITeye博客

`

knight_black_bob

浏览: 869499 次
性别:
来自: 北京

最近访客更多访客>>

bian1024

lli

cqh520llr

hxgdragon

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

knight_black_bob： chenhua1228 写道楼主，怎开启服务哦？Constan ...
仿QQ android 实战（学习 android 先来个QQ）
knight_black_bob： chenhua1228 写道楼主，怎开启服务哦？Constan ...
仿QQ android 实战（学习 android 先来个QQ）
chenhua1228：楼主，怎开启服务哦？Constants这个类里的 Stri ...
仿QQ android 实战（学习 android 先来个QQ）
masuweng：
身份证验证
knight_black_bob： kevinflynn 写道看了这篇文章，受益匪浅，点赞！！！ ...
elk(日志监控系统搭建),elastic search,kibana,logstash,filebeat搭建

spark wordcount 第一个spark 程序

博客分类：

scala
spark

spark wordcount 第一个程序

阅读更多

wordcount

package com.baoy.worldcount

import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by cmcc-B100036 on 2016/4/1.
  */
object WordCount {
  def main(args: Array[String]) {
    if(args.length == 0) {
      println("usage: wordcount <file>")
      System.exit(1)
    }
    val conf = new SparkConf ().setAppName("wordcount")
    val sc = new SparkContext(conf)
    sc.textFile(args(0))
      .flatMap(_.split(" "))
      .map(x => (x, 1))
      .reduceByKey(_ + _)
      .foreach(println)
    sc.stop()
  }
}

pom

 <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.10</artifactId>
      <version>1.4.1</version>
      <scope>provided</scope>
    </dependency>

准备原始数据

在 /home/cloudera/baoyou/data/log

创建文件 wordcount.log

在 hdfs 上创建 /data 路径

hdfs dfs -mkdir /data

上传 wordcount.log 到data路径

hdfs dfs -put wordcount.log /data/

运行本地 spark-submit

 spark-submit  --class com.baoy.worldcount.WordCount --master local  /home/cloudera/baoyou/project/SparkDemo.jar /data/wordcount.log

运行结果：

捐助开发者

在兴趣的驱动下,写一个免费的东西，有欣喜，也还有汗水，希望你喜欢我的作品，同时也能支持一下。当然，有钱捧个钱场（右上角的爱心标志，支持支付宝和PayPal捐助），没钱捧个人场，谢谢各位。

谢谢您的赞助，我会做的更好！

查看图片附件

0
顶

6
踩

分享到：

spark sql maven idea打包 | scala maven idea 第一个scala 程序

2016-04-01 16:04
浏览 1884
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据技术实践——Spark词频统计: 本实践使用的数据集是一个小规模的文本数据，包含多行文本，如"How nice I love Spark I love Hadoop How good Hadoop is good Spark is fast"。通过Spark进行词频统计，可以找出数据集中出现最频繁的词语。总结来...

Spark-wordcount:spark wordcount示例| 在Eclipse + Maven + Scala Project + Spark中构建: Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。第一步在EclipseIDE中安装Scala插件在Eclipse中安装Scala插件第二步创建Scala ...

spark 分布式集群搭建: 当创建 SparkContext 并启动一个 Spark 应用程序时，会经历以下关键步骤： - 创建 DAGScheduler 和 TaskScheduler 两个核心组件。 - DAGScheduler 负责根据应用程序的依赖关系构建执行计划，划分成多个 Stage，并为...

上手提示：使用新版IDEA+Maven+Scala编写Spark程序: - **自动下载依赖的源代码**：IDEA的一个强大之处在于它能够自动下载依赖库的源代码，这对于调试和理解第三方库的工作原理非常有用。这一功能可以通过IDEA右下角的Maven配置界面来启用。 - **创建Scala Class**：在...

Install_Spark_on_Windows10.pdf: 8. 创建第一个WordCount项目创建Spark项目通常使用Maven进行依赖管理。在Eclipse中创建一个Maven项目，配置好Group ID和Artifact ID后，编辑pom.xml文件，添加Spark依赖项，并编写WordCount等示例程序来测试Spark...

大数据技术之Spark.docx: **3.1 执行第一个spark程序（standalone）** 在Standalone模式下执行Spark程序通常涉及编译和打包程序、启动Spark集群、提交程序等步骤。 **3.2 执行第一个spark程序（yarn）** 在YARN模式下执行Spark程序的过程...

spark2官方示例源代码: Spark是Apache软件基金会下的一个开源大数据处理框架，以其高效的分布式计算能力和易用性而闻名。Spark2官方示例源代码提供了丰富的实例，帮助开发者更好地理解和使用Spark进行数据处理任务。这些示例涵盖了多种常见...

第四章Spark&Scala的集成开发环境.docx: 第四章主要讲解的是Spark与Scala的集成开发环境的设置与运行，这涉及到大数据开发的关键步骤。首先，要确保你的Linux系统具有适当的Java环境，因为Spark和Scala都需要Java支持。安装和配置OpenJDK 8是必要的，这通常...

Spark大数据技术与应用教学大纲.docx: **第一章 Spark简介与运行原理** 在这一章，学生将学习Spark是什么，了解Spark作为分布式计算框架的核心特点。Spark的智能化程度，包括其动态资源调度和内存计算模型，是本章的重点。通过学习，学生应能理解Spark...

基于eclipse的spark入门基础案例（hadoop、spark）: 第一章 Hortonworks安装第二章在Eclipse中运行Hadoop平台的WordCount程序第三章在Eclipse中运行Spark平台的WordCount程序

spark_编程: ### Spark编程环境搭建详解 #### 一、Spark简介与...以上内容涵盖了从环境搭建到编写并运行第一个Spark程序的整个过程。对于初学者来说，理解这些基础步骤是至关重要的，它们为后续深入学习Spark提供了坚实的基础。

pycharm windows spark 环境的安装: # 测试，获取总数 count 及第一条数据 print(rdd.count()) print(rdd.first()) ``` 2. **运行 WordCount 示例**： - 在 PyCharm 中打开该脚本，确保已配置好 Spark 和 Hadoop 环境。 - 运行脚本，观察输出结果...

spark1.1快速上手: `frdd.first`返回RDD中的第一个元素；`frdd.filter`根据给定的函数过滤RDD中的元素，并返回新的RDD。在行动操作中，例如`frdd.count`和`frdd.first`，调用后会立即计算并返回结果。而使用`frdd.filter(_.contains(...

使用spark 对文本分词统计: 1. **Spark环境搭建**：首先，你需要安装Hadoop（Spark的底层分布式存储系统）和Spark，并配置好环境变量，确保可以启动Spark Shell或提交Spark应用程序。 2. **创建Spark项目**：使用Maven创建一个新的项目，编辑...

Spark分布式内存计算框架视频教程: 第一章、Spark 基础环境 1.课程安排说明 2.Spark 框架概述 3.快速入门 4.Standalone集群及HA 5.Spark 应用开发入门 6.Spark 应用提交 7.Spark on YARN 8.应用部署模式DeployMode 第二章、SparkCore 模块 1.RDD 概念...

【Spark资源】Spark单词统计实验.pdf: 如果尚未安装，需按照第1课的指导进行安装或使用自动化部署脚本。 2. **创建项目** 实验中使用Eclipse IDE和Maven构建系统。在Hadoop主节点（例如hadoop1）的桌面上打开Eclipse，选择`File` -> `New` -> `Other`，...

实训十二 SparkStreaming（一）.docx: 第一种方法是通过监控网络端口，读取实时数据流，这是Spark Streaming最直接的数据流获取方式。第二种方法是通过RDD队列来创建DStream，这种方式允许用户通过控制RDD的产生和推入队列来模拟实时数据流。其中，通过...

hadoop&spark使用教程.docx: **三、编写与运行第一个MapReduce程序** 1. **创建WordCount程序** - 编写Mapper类，将输入的文本分割成键值对。 - 编写Reducer类，统计每个单词出现的次数。 - 组装MapReduce程序，确保正确设置输入输出路径。 ...

Spark RDD 资料: | `first()` | 返回 RDD 中的第一个元素 | | `take(n)` | 返回 RDD 中前 n 个元素组成的数组 | | `foreach(func)` | 对 RDD 中的每一个元素应用 func 函数 | ##### 3.3 Spark WordCount 代码编写 ```scala val ...

Global site tag (gtag.js) - Google Analytics