安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount
Java代码
import scala.Tuple2;
import spark.api.java.JavaPairRDD;
import spark.api.java.JavaRDD;
import spark.api.java.JavaSparkContext;
import spark.api.java.function.FlatMapFunction;
import spark.api.java.function.Function2;
import spark.api.java.function.PairFunction;
import java.util.Arrays;
import java.util.List;
public class JavaWordCount {
public static void main(String[] args) throws Exception {
if (args.length 2) {
System.err.println("Usage: JavaWordCount ");
System.exit(1);
}
JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount",
System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR"));
JavaRDD lines = ctx.textFile(args[1], 1);
JavaRDD words = lines.flatMap(new FlatMapFunction() {
public Iterable call(String s) {
return Arrays.asList(s.split(" "));
}
});
JavaPairRDD ones = words.map(new PairFunction() {
public Tuple2 call(String s) {
return new Tuple2(s, 1);
}
});
JavaPairRDD counts = ones.reduceByKey(new Function2() {
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
List> output = counts.collect();
for (Tuple2 tuple : output) {
System.out.println(tuple._1 + ": " + tuple._2);
}
System.exit(0);
}
}
运行: ./run spark/examples/JavaWordCount local input.txt
local:不解析,自己查
Html代码
Hello World Bye World goole
运行的结果和haddoop中运行的JavaWordCount 一样
Html代码
goole: 1
World: 2
Hello: 1
Bye: 1
所有博客已经转移至leanote:
http://blog.leanote.com/shiwei/
或者:
http://luoshiwei.me/
分享到:
相关推荐
spark的javaAPI开发文档,只不过是英文版的。没有做翻译工作。希望对下载人员有帮助。
《Spark 2.1.0 Java API 深度解析》 Spark,作为一个分布式计算框架,因其高效、灵活和易用的特性,在大数据处理领域深受青睐。Spark 2.1.0版本对Java API进行了全面优化,使得Java开发者能够更加便捷地利用Spark...
在Java API方面,Spark提供了丰富的类库和接口,使得开发人员能够利用Java语言方便地进行分布式计算。本资源是关于Spark 2.0.1 Java API的详细指南,通常以CHM(Microsoft HTML Help)格式呈现,这种格式便于用户...
本篇文章将深入探讨如何使用Java开发Spark程序,并基于提供的"sparkJava"压缩包文件中的示例代码进行解析。 首先,我们需要理解Spark的核心概念。Spark主要由四个组件构成:Spark Core、Spark SQL、Spark Streaming...
**Spark 1.0.0 API (Java) 深度解析** Spark 是一个快速、通用且可扩展的大数据处理框架,它最初由加州大学伯克利分校AMPLab开发,并随后成为Apache软件基金会的顶级项目。Spark 1.0.0版本是其发展中的一个重要里程...
本压缩包"javaApi_sparkhiveAPI_hbaseAPI.zip"包含了2019年8月至10月期间针对这些技术的Java版API实现,以及与Spark相关的Hive和HBase API。以下是关于这些技术的详细知识: 1. **Java API for Hive**: - **Hive*...
SparkJava是一个轻量级的Java框架,用于快速开发RESTful Web服务。它的设计目标是简单易用,使得开发者可以快速地构建web应用。在"SparkJava Rest Api-FormData和文件上传"这个主题中,我们将深入探讨如何使用Spark...
通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计,用的的技术剖析、开发实现、运维等等。
在现代大数据处理领域,Spark和Spring ...这样的结合使得开发人员可以方便地在微服务架构中利用Spark的强大处理能力,提高数据处理效率。通过实践和学习这个`SparkBaseApiDemo`,你可以更深入地掌握这两者的结合应用。
在Java Web中,创建RESTful API通常使用Jersey、Spring Boot或Spark等库。这个demo可能展示了如何创建一个RESTful接口,通过HTTP GET和POST请求获取或更新数据。 在实际开发中,接口通常需要处理JSON或XML格式的...
Spark API 是一套丰富的编程接口,支持多种编程语言,包括 Scala、Java、Python 和 R,使得开发人员可以方便地构建分布式计算应用程序。这个"Spark API CHM格式下载"提供的是Spark API的离线帮助文档,通常以CHM...
"openfire + spark 开发" 在本文中,我们将讨论基于 Openfire 和 Spark 的 XMPP IM 软件开发。我们将从 XMPP 协议的介绍开始,接着讨论如何使用 Spark 和 Openfire 来实现一个完整的 IM 软件开发。 什么是 XMPP? ...
其次,Java作为企业级应用的首选语言,其稳定性和跨平台性为Spark项目提供了可靠的开发基础。在本项目中,Java用于编写Spark应用程序,处理淘宝交易数据,如用户行为、商品交易、订单状态等信息。通过Java的API,...
- **安装部署**:在实际操作中,需要在每台机器上安装Java环境,并下载Spark的二进制包进行部署。此外,还需要配置集群参数,比如设置Master节点的地址和端口等。 - **启动集群**:完成安装配置后,可以通过命令行...
Spark API是Spark的核心组成部分,它提供了丰富的编程接口,支持Java、Scala、Python和R等多种语言。以下将详细介绍Spark 1.6.1版本中的一些关键知识点: 1. **RDD(Resilient Distributed Datasets)**:RDD是...
Spark API是Spark的核心组成部分,允许开发者通过编程语言(如Java、Scala、Python或R)与Spark交互,执行各种数据处理任务。 2. **Maven插件**:Maven是一个项目管理和综合工具,用于Java项目构建、依赖管理和项目...
在本文中,我们将深入探讨如何使用Java语言来操作Apache Spark,这是一个强大的分布式计算框架,广泛应用于大数据处理领域。首先,我们需要理解Java与Spark的结合如何为数据处理提供便利。 一、Java连接Spark 1. *...
配置Spark开发环境包括安装Java、Scala、IntelliJ IDEA以及设置Spark和Hadoop的相关环境变量。同时,了解Scala编程语言是必不可少的,因为它是最常见的Spark编程语言。Scala是一种静态类型的函数式编程语言,它的...