`
Horse_Chasing
  • 浏览: 7878 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

spark java api 开发

阅读更多


安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount



Java代码 

  • import scala.Tuple2; 
  • import spark.api.java.JavaPairRDD; 
  • import spark.api.java.JavaRDD; 
  • import spark.api.java.JavaSparkContext; 
  • import spark.api.java.function.FlatMapFunction; 
  • import spark.api.java.function.Function2; 
  • import spark.api.java.function.PairFunction; 
  •  
  • import java.util.Arrays; 
  • import java.util.List; 
  •  
  • public class JavaWordCount { 
  •   public static void main(String[] args) throws Exception { 
  •     if (args.length 2) { 
  •       System.err.println("Usage: JavaWordCount "); 
  •       System.exit(1); 
  •     } 
  •  
  •     JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount", 
  •         System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR")); 
  •     JavaRDD lines = ctx.textFile(args[1], 1); 
  •  
  •     JavaRDD words = lines.flatMap(new FlatMapFunction() { 
  •       public Iterable call(String s) { 
  •         return Arrays.asList(s.split(" ")); 
  •       } 
  •     }); 
  •      
  •     JavaPairRDD ones = words.map(new PairFunction() { 
  •       public Tuple2 call(String s) { 
  •         return new Tuple2(s, 1); 
  •       } 
  •     }); 
  •      
  •     JavaPairRDD counts = ones.reduceByKey(new Function2() { 
  •       public Integer call(Integer i1, Integer i2) { 
  •         return i1 + i2; 
  •       } 
  •     }); 
  •  
  •     List> output = counts.collect(); 
  •     for (Tuple2 tuple : output) { 
  •       System.out.println(tuple._1 + ": " + tuple._2); 
  •     } 
  •     System.exit(0); 
  •   } 


  •   运行: ./run spark/examples/JavaWordCount  local input.txt
    local:不解析,自己查



    Html代码 

  • Hello World Bye World goole 


  • 运行的结果和haddoop中运行的JavaWordCount  一样



    Html代码 

  • goole: 1 
  • World: 2 
  • Hello: 1 
  • Bye: 1 



  • 所有博客已经转移至leanote:http://blog.leanote.com/shiwei/



    或者:http://luoshiwei.me/


    分享到:
    评论

    相关推荐

      spark 2.0 javaAPI

      spark的javaAPI开发文档,只不过是英文版的。没有做翻译工作。希望对下载人员有帮助。

      spark2.1.0.chm(spark java API)

      《Spark 2.1.0 Java API 深度解析》 Spark,作为一个分布式计算框架,因其高效、灵活和易用的特性,在大数据处理领域深受青睐。Spark 2.1.0版本对Java API进行了全面优化,使得Java开发者能够更加便捷地利用Spark...

      spark 2.0.1 JavaAPI

      在Java API方面,Spark提供了丰富的类库和接口,使得开发人员能够利用Java语言方便地进行分布式计算。本资源是关于Spark 2.0.1 Java API的详细指南,通常以CHM(Microsoft HTML Help)格式呈现,这种格式便于用户...

      java开发spark程序

      本篇文章将深入探讨如何使用Java开发Spark程序,并基于提供的"sparkJava"压缩包文件中的示例代码进行解析。 首先,我们需要理解Spark的核心概念。Spark主要由四个组件构成:Spark Core、Spark SQL、Spark Streaming...

      Spark 1.0.0 API (java)

      **Spark 1.0.0 API (Java) 深度解析** Spark 是一个快速、通用且可扩展的大数据处理框架,它最初由加州大学伯克利分校AMPLab开发,并随后成为Apache软件基金会的顶级项目。Spark 1.0.0版本是其发展中的一个重要里程...

      javaApi_sparkhiveAPI_hbaseAPI.zip

      本压缩包"javaApi_sparkhiveAPI_hbaseAPI.zip"包含了2019年8月至10月期间针对这些技术的Java版API实现,以及与Spark相关的Hive和HBase API。以下是关于这些技术的详细知识: 1. **Java API for Hive**: - **Hive*...

      sparkjava-rest-api:SparkJava Rest Api-FormData和文件上传

      SparkJava是一个轻量级的Java框架,用于快速开发RESTful Web服务。它的设计目标是简单易用,使得开发者可以快速地构建web应用。在"SparkJava Rest Api-FormData和文件上传"这个主题中,我们将深入探讨如何使用Spark...

      Spark高手之路-API编程动手实战

      通过一个完整的具有代表性的Spark项目来贯穿Spark的方方面面,包括项目的架构设计,用的的技术剖析、开发实现、运维等等。

      springboot与spark整合开发, 练习spark api

      在现代大数据处理领域,Spark和Spring ...这样的结合使得开发人员可以方便地在微服务架构中利用Spark的强大处理能力,提高数据处理效率。通过实践和学习这个`SparkBaseApiDemo`,你可以更深入地掌握这两者的结合应用。

      java web接口开发demo

      在Java Web中,创建RESTful API通常使用Jersey、Spring Boot或Spark等库。这个demo可能展示了如何创建一个RESTful接口,通过HTTP GET和POST请求获取或更新数据。 在实际开发中,接口通常需要处理JSON或XML格式的...

      Spark api chm格式下载.rar

      Spark API 是一套丰富的编程接口,支持多种编程语言,包括 Scala、Java、Python 和 R,使得开发人员可以方便地构建分布式计算应用程序。这个"Spark API CHM格式下载"提供的是Spark API的离线帮助文档,通常以CHM...

      openfire + spark 开发

      "openfire + spark 开发" 在本文中,我们将讨论基于 Openfire 和 Spark 的 XMPP IM 软件开发。我们将从 XMPP 协议的介绍开始,接着讨论如何使用 Spark 和 Openfire 来实现一个完整的 IM 软件开发。 什么是 XMPP? ...

      spark java echarts淘宝交易大数据.rar

      其次,Java作为企业级应用的首选语言,其稳定性和跨平台性为Spark项目提供了可靠的开发基础。在本项目中,Java用于编写Spark应用程序,处理淘宝交易数据,如用户行为、商品交易、订单状态等信息。通过Java的API,...

      Spark实战高手之路-第5章Spark API编程动手实战(1)

      - **安装部署**:在实际操作中,需要在每台机器上安装Java环境,并下载Spark的二进制包进行部署。此外,还需要配置集群参数,比如设置Master节点的地址和端口等。 - **启动集群**:完成安装配置后,可以通过命令行...

      spark_api_1.6.1

      Spark API是Spark的核心组成部分,它提供了丰富的编程接口,支持Java、Scala、Python和R等多种语言。以下将详细介绍Spark 1.6.1版本中的一些关键知识点: 1. **RDD(Resilient Distributed Datasets)**:RDD是...

      spark-api-0.1.7.zip

      Spark API是Spark的核心组成部分,允许开发者通过编程语言(如Java、Scala、Python或R)与Spark交互,执行各种数据处理任务。 2. **Maven插件**:Maven是一个项目管理和综合工具,用于Java项目构建、依赖管理和项目...

      Spark实战开发

      配置Spark开发环境包括安装Java、Scala、IntelliJ IDEA以及设置Spark和Hadoop的相关环境变量。同时,了解Scala编程语言是必不可少的,因为它是最常见的Spark编程语言。Scala是一种静态类型的函数式编程语言,它的...

    Global site tag (gtag.js) - Google Analytics