安装spark,见上文
http://blackproof.iteye.com/blog/2182393
配置window开发环境
window安装scala
下载scala http://www.scala-lang.org/files/archive/scala-2.10.4.msi
安装即可
window配置eclipse
下载eclipse
解压即可
写wordcount scala代码
创建scala 项目
新建scala object,命名WordCount
代码如下
package com.dirk.test
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext.rddToPairRDDFunctions
import scala.collection.mutable.ListBuffer
import org.apache.spark.SparkConf
object WordCount {
def main(args: Array[String]){
if(args.length != 3){
println("usage: com.qiurc.test.WordCount <master> <input> <output>")
return
}
val jars = ListBuffer[String]()
jars.+=("/home/hadoop-cdh/app/test/sparktest/aa.jar") //aa.jar发布位置
val conf = new SparkConf()
conf.setMaster(args(0))//设置spark master url
.setAppName("word count")
.setJars(jars)//解决找不到jar包的问题
.set("spark.executor.memory","200m")
val sc = new SparkContext(conf)
val textFile = sc.textFile(args(1))
val result = textFile.flatMap(_.split(" "))
.map(word => (word, 1)).reduceByKey(_ + _)
result.saveAsTextFile(args(2))
}
}
打包scala项目,和java项目打jar相同,名为aa.jar,
jar包发布位置为
/home/hadoop-cdh/app/test/sparktest/aa.jar
发布到spark服务器上
写运行脚本
#!/usr/bin/env bash $SPARK_HOME/bin/spark-submit --name SparkWordCount --class com.dirk.test.WordCount --master spark://host143:7077 --executor-memory 512M --total-executor-cor es 1 aa.jar spark://host143:7077 hdfs://XXX/user/dirk.zhang/data/word.txt hdfs://XXX/user/dirk.zhang/output
遇到的问题
1.参数解释 参数1为spark master url,参数2为hdfs输入,参数3位hdfs输出,xxx为HA的defaultFS
2.找不到class文件的原因是缺少setJars(jars)
参考
http://bit1129.iteye.com/blog/2172164
http://www.tuicool.com/articles/qq2mQj
相关推荐
在"Spark local下 WordCount运行示例"中,我们将探讨如何在本地模式(local mode)下使用Spark执行一个简单的WordCount程序。WordCount是大数据处理领域的一个经典例子,用于统计文本中各个单词出现的次数。 首先,...
第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...
综上所述,本文介绍了在特定的 Hadoop 和 Spark 集群环境下进行 WordCount 示例的实现过程。从环境搭建、IDE 配置到代码编写,每个步骤都进行了详细的说明。通过学习这个案例,可以帮助读者更好地理解 Spark 的基本...
为了在Eclipse或IDEA中运行此项目,你需要确保已经安装了Hadoop,并配置了环境变量,包括`HADOOP_HOME`和`JAVA_HOME`。然后,你可以使用Maven插件来构建和运行项目,或者将项目导入IDE,配置相应的运行配置,指定...
本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一个简单的WordCount示例来验证环境是否搭建成功。 #### 相关软件与环境配置 在开始之前,我们需要准备以下软件: - **操作系统**:推荐使用Ubuntu(也...
在Eclipse中创建Spark项目时,确保选择正确的Scala版本(例如2.10.6),并将Spark相关的jar包添加到项目的类路径中。需要注意的是,导入所有jar包后可能会出现编译错误,这时需要删除重复的jar包。 接着,你可以...
然后,使用Scala编写WordCount程序,核心代码通常包括以下部分: - 加载数据:使用`SparkContext.textFile()`方法读取输入文件。 - 分词:将每行文本通过`flatMap()`函数拆分成单词。 - 计数:使用`map()`函数将...
开发Spark应用程序,可以使用IntelliJ IDEA、Eclipse或SBT等工具,配合Spark Shell进行快速开发和测试。远程调试功能有助于优化代码和解决问题。此外,书中还提供了多种实际应用场景的编程示例,如WordCount、Top K...
5. **集成开发环境(IDE)**:为了更方便地开发和测试,你可能会使用IntelliJ IDEA或Eclipse这样的Java IDE,它们都有支持Scala和Spark的插件。安装这些插件后,你可以在IDE内创建、编辑和运行Spark项目。 6. **...
- 除了核心组件,还需要了解Hadoop生态系统中的其他工具,如Hive(数据分析)、Pig(数据处理)、HBase(NoSQL数据库)、Spark(快速计算框架)等。 7. **实践项目**: - 通过实际项目或案例来巩固理论知识,比如...
10. **Hadoop生态系统**:除了核心的HDFS和MapReduce,Hadoop生态系统还包括其他组件,如HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据流语言)、Spark(快速数据处理框架)等。了解这些工具的用法可以...
在描述中,用户提到自己在Linux环境下搭建了一个分布式Hadoop集群,并在32位Windows 7操作系统中使用Eclipse进行开发工作。通常情况下,Hadoop及其相关工具主要为64位系统设计,因此在32位系统上运行可能需要特别...