`

spark eclipse写wordcount

阅读更多

安装spark,见上文

http://blackproof.iteye.com/blog/2182393

 

配置window开发环境

window安装scala

下载scala http://www.scala-lang.org/files/archive/scala-2.10.4.msi

安装即可

 

window配置eclipse

下载eclipse  

http://downloads.typesafe.com/scalaide-pack/4.0.0-vfinal-luna-211-20150119/scala-SDK-4.0.0-vfinal-2.11-win32.win32.x86_64.zip

解压即可

 

写wordcount scala代码

创建scala 项目

新建scala object,命名WordCount

代码如下

package com.dirk.test

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext.rddToPairRDDFunctions
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkConf


object WordCount {  
    def main(args: Array[String]){  
      if(args.length != 3){  
        println("usage: com.qiurc.test.WordCount <master> <input> <output>")  
        return  
      }  
      val jars = ListBuffer[String]()
      jars.+=("/home/hadoop-cdh/app/test/sparktest/aa.jar") //aa.jar发布位置
      val conf = new SparkConf()
      
      conf.setMaster(args(0))//设置spark master url
      
      .setAppName("word count")
      
      .setJars(jars)//解决找不到jar包的问题
      
      .set("spark.executor.memory","200m")
      
      val sc = new SparkContext(conf)
      

      val textFile  = sc.textFile(args(1))  
      val result = textFile.flatMap(_.split(" "))  
              .map(word => (word, 1)).reduceByKey(_ + _)  
      result.saveAsTextFile(args(2))  
        
    }  
}  

 打包scala项目,和java项目打jar相同,名为aa.jar,

  jar包发布位置为

/home/hadoop-cdh/app/test/sparktest/aa.jar

 

  发布到spark服务器上

  写运行脚本

#!/usr/bin/env bash  

$SPARK_HOME/bin/spark-submit --name SparkWordCount --class com.dirk.test.WordCount --master spark://host143:7077 --executor-memory 512M --total-executor-cor
es 1 aa.jar spark://host143:7077 hdfs://XXX/user/dirk.zhang/data/word.txt hdfs://XXX/user/dirk.zhang/output

遇到的问题

1.参数解释 参数1为spark master url,参数2为hdfs输入,参数3位hdfs输出,xxx为HA的defaultFS

2.找不到class文件的原因是缺少setJars(jars)

 

参考

http://bit1129.iteye.com/blog/2172164 

http://www.tuicool.com/articles/qq2mQj

分享到:
评论

相关推荐

    spark local下 WordCount运行示例

    在"Spark local下 WordCount运行示例"中,我们将探讨如何在本地模式(local mode)下使用Spark执行一个简单的WordCount程序。WordCount是大数据处理领域的一个经典例子,用于统计文本中各个单词出现的次数。 首先,...

    基于eclipse的spark入门基础案例(hadoop、spark)

    第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序

    Spark-wordcount:spark wordcount示例| 在Eclipse + Maven + Scala Project + Spark中构建

    Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...

    Spark简单测试案例

    综上所述,本文介绍了在特定的 Hadoop 和 Spark 集群环境下进行 WordCount 示例的实现过程。从环境搭建、IDE 配置到代码编写,每个步骤都进行了详细的说明。通过学习这个案例,可以帮助读者更好地理解 Spark 的基本...

    MapReduce WordCount Java API代码实现,包括pom.xml的配置

    为了在Eclipse或IDEA中运行此项目,你需要确保已经安装了Hadoop,并配置了环境变量,包括`HADOOP_HOME`和`JAVA_HOME`。然后,你可以使用Maven插件来构建和运行项目,或者将项目导入IDE,配置相应的运行配置,指定...

    spark安装

    本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一个简单的WordCount示例来验证环境是否搭建成功。 #### 相关软件与环境配置 在开始之前,我们需要准备以下软件: - **操作系统**:推荐使用Ubuntu(也...

    第四章Spark&Scala的集成开发环境.docx

    在Eclipse中创建Spark项目时,确保选择正确的Scala版本(例如2.10.6),并将Spark相关的jar包添加到项目的类路径中。需要注意的是,导入所有jar包后可能会出现编译错误,这时需要删除重复的jar包。 接着,你可以...

    【Spark资源】Spark单词统计实验.pdf

    然后,使用Scala编写WordCount程序,核心代码通常包括以下部分: - 加载数据:使用`SparkContext.textFile()`方法读取输入文件。 - 分词:将每行文本通过`flatMap()`函数拆分成单词。 - 计数:使用`map()`函数将...

    Spark大数据处理:技术、应用与性能优化(全)(更多IT教程 微信dtygxmb).docx

    开发Spark应用程序,可以使用IntelliJ IDEA、Eclipse或SBT等工具,配合Spark Shell进行快速开发和测试。远程调试功能有助于优化代码和解决问题。此外,书中还提供了多种实际应用场景的编程示例,如WordCount、Top K...

    java+hadopp+scala+spark配置win10版

    5. **集成开发环境(IDE)**:为了更方便地开发和测试,你可能会使用IntelliJ IDEA或Eclipse这样的Java IDE,它们都有支持Scala和Spark的插件。安装这些插件后,你可以在IDE内创建、编辑和运行Spark项目。 6. **...

    hadoop大数据培训零基础学习hadoop-北京尚学堂.pdf

    - 除了核心组件,还需要了解Hadoop生态系统中的其他工具,如Hive(数据分析)、Pig(数据处理)、HBase(NoSQL数据库)、Spark(快速计算框架)等。 7. **实践项目**: - 通过实际项目或案例来巩固理论知识,比如...

    Hadoop-Analyzing

    10. **Hadoop生态系统**:除了核心的HDFS和MapReduce,Hadoop生态系统还包括其他组件,如HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据流语言)、Spark(快速数据处理框架)等。了解这些工具的用法可以...

    hadoop_32bit

    在描述中,用户提到自己在Linux环境下搭建了一个分布式Hadoop集群,并在32位Windows 7操作系统中使用Eclipse进行开发工作。通常情况下,Hadoop及其相关工具主要为64位系统设计,因此在32位系统上运行可能需要特别...

Global site tag (gtag.js) - Google Analytics