`
wbj0110
  • 浏览: 1631864 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Lambda表达式让Spark编程更容易

阅读更多

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。

文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
  new Function<String, Boolean>() {
    public Boolean call(String s) {
      return s.contains("error");
    }
});
long numErrors = lines.count();

在Java 8中,代码更为简洁:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
                          .filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

//将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
  new FlatMapFunction<String, String>() {
    public Iterable<String> call(String line) {
      return Arrays.asList(line.split(" "));
    }
});

// 将单词转换成(word, 1)对
JavaPairRDD<String, Integer> ones = words.mapToPair(
  new PairFunction<String, String, Integer>() {
    public Tuple2<String, Integer> call(String w) {
      return new Tuple2<String, Integer>(w, 1);
    }
});

// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
  new Function2<Integer, Integer, Integer>() {
    public Integer call(Integer i1, Integer i2) {
      return i1 + i2;
    }
});

counts.saveAsTextFile("hdfs://counts.txt");

而在Java 8中,该程序只需要几行代码:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
    lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
    words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
         .reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

 

引用:http://www.infoq.com/cn/news/2014/04/lambda-make-spark-easy?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk

 

 

大家可以加我个人微信号:scccdgf

 

 

或者关注soledede的微信公众号:soledede
 
分享到:
评论

相关推荐

    Java编程语言程序的认识误区.zip

    自Java 8引入Lambda表达式和Stream API后,Java已经具备了函数式编程的特点。这些新特性使得Java能够进行更高效、更简洁的并行处理和数据操作。 8. **Java的并发编程很难** 虽然Java并发编程确实有一定的学习曲线...

    scala-2.11.12.tgz

    虽然Hadoop的原生编程模型是基于Java,但Scala提供了更简洁、高效的语法,使得开发人员可以更容易地编写MapReduce作业。 2. **Spark**:Spark是建立在Hadoop之上的数据处理引擎,它最初就是用Scala编写的,并且深度...

    Python并发编程以及系统常用模块

    线程则是运行在同一个进程内的执行流,它们共享同一片数据空间,能够更容易地共享信息,但也带来了线程安全的问题。 由于Python的全局解释器锁(Global Interpreter Lock,GIL)的存在,导致在CPython解释器中,...

    基于计算机软件开发的JAVA编程语言探讨.zip

    Java 8引入了Lambda表达式和流API,增强了函数式编程的支持;Java 11引入了模块系统,提升了系统资源的管理和优化;Java 17(长期支持版本,LTS)继续优化性能,提供更好的开发体验。 总结,Java编程语言凭借其强大...

    JDK8免安装

    - **lambda表达式**:这是JDK8最重要的特性之一,它引入了一种新的语法结构,使函数式编程在Java中变得更加简洁。Lambda表达式可以作为方法参数,也可以作为返回值,使得代码更加紧凑和易读。 - **默认方法**:在...

    数字创新

    此外,Kotlin支持函数式编程概念,如高阶函数、lambda表达式和匿名函数,这为编写更简洁、可读性强的代码提供了可能。 在Android开发中,Kotlin的使用极大地改善了开发体验。它提供了许多内建功能,如数据类、扩展...

    到2020年

    - Java 8在2014年推出,引入了Lambda表达式、函数式编程、Stream API和日期时间API等重大改进,显著提升了代码的简洁性和可读性。 - Java 9至Java 14,引入了模块系统(Project Jigsaw)、增强的开关语句、文本块...

    Programming3

    Java 7和8分别引入了try-with-resources语句和lambda表达式,提高了资源管理的便利性和函数式编程的能力。Java 9及以后版本的模块化系统(Jigsaw项目)则优化了大型应用的构建和部署。 5. **实际应用** Java广泛...

Global site tag (gtag.js) - Google Analytics