`
wbj0110
  • 浏览: 1614450 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Lambda表达式让Spark编程更容易

阅读更多

近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。

文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
  new Function<String, Boolean>() {
    public Boolean call(String s) {
      return s.contains("error");
    }
});
long numErrors = lines.count();

在Java 8中,代码更为简洁:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
                          .filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

//将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
  new FlatMapFunction<String, String>() {
    public Iterable<String> call(String line) {
      return Arrays.asList(line.split(" "));
    }
});

// 将单词转换成(word, 1)对
JavaPairRDD<String, Integer> ones = words.mapToPair(
  new PairFunction<String, String, Integer>() {
    public Tuple2<String, Integer> call(String w) {
      return new Tuple2<String, Integer>(w, 1);
    }
});

// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
  new Function2<Integer, Integer, Integer>() {
    public Integer call(Integer i1, Integer i2) {
      return i1 + i2;
    }
});

counts.saveAsTextFile("hdfs://counts.txt");

而在Java 8中,该程序只需要几行代码:

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
    lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
    words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
         .reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

 

引用:http://www.infoq.com/cn/news/2014/04/lambda-make-spark-easy?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk

 

 

大家可以加我个人微信号:scccdgf

 

 

或者关注soledede的微信公众号:soledede
 
分享到:
评论

相关推荐

    《精通Lambda表达式:Java多核编程》.pdf

    《精通Lambda表达式:Java多核编程》

    精通lambda表达式 Java多核编程

    关于Java中lambda的表达式,Java多核编程,清华大学(出版)

    精通lambda表达式: java多核编程

    Lambda表达式是Java 8引入的关键特性之一,它极大地简化了函数式编程,使得Java开发者能够更有效地处理并发问题,从而更好地利用现代计算机的多核处理器资源。 Lambda表达式的核心概念在于它的简洁性和可传递性。它...

    C#lambda表达式的使用

    Lambda 表达式是 C# 编程语言中的一个重要概念,也是函数式编程的基础。Lambda 表达式可以被用作创建委托对象或表达式树类型。所有的 Lambda 表达式都使用操作符“=&gt;“,表示“goes to (转变为)”。 Lambda 表达式...

    2_Lambda表达式.zip

    Lambda表达式是Java编程语言中的一个关键特性,自Java 8开始引入,它极大地简化了函数式编程,尤其是在处理集合数据时。Lambda表达式的主要目的是为了创建匿名函数,即没有名字的函数,它可以被当作一个值传递给方法...

    Java8的lambda表达式

    Lambda表达式让代码更紧凑,减少了冗余,提高了代码的可读性。 2. **可复用性** 虽然Lambda表达式本身不具有名字,但可以通过函数式接口将其存储为变量,实现可复用。 3. **并发** 并行流和Lambda表达式结合,...

    Java 8 lambda表达式

    Java 8 的引入,尤其是Lambda表达式,对Java语言产生了深远的影响,它为Java开发者带来了更简洁、更灵活的编程方式。Lambda表达式是函数式编程的核心元素,它允许我们将函数作为方法参数传递,或者将代码块当作数据...

    精通lambda表达式:Java多核编程

    Lambda表达式是Java 8引入的一项重要特性,它极大地简化了函数式编程,使Java开发者能够更好地利用多核处理器的优势,提升程序的并行性能。以下是关于这一主题的详细知识讲解: 1. **Lambda表达式基础**:Lambda...

    C#将Lambda表达式转成Sql语句

    在.NET框架中,C#是一种强大的编程语言,它支持Lambda表达式,这使得代码更加简洁、易读。Lambda表达式通常用于LINQ(Language Integrated Query)查询,它允许程序员使用类似SQL的语法在内存中的数据集上进行操作。...

    精通lambda表达式 Java多核编程(带目录)

    精通lambda表达式 Java多核编程,作者:[美]Maurice Naftalin,翻译:张龙。

    jdk1.8 Lambda表达式

    Java 8 引入的 Lambda 表达式是 Java 编程语言的重大变革之一,它允许以更简洁的方式表示单方法接口的实现,极大地增强了 Java 语言的表达能力,尤其是结合了函数式接口、Stream API 和其他新特性后。接下来,我们将...

    Lambda 表达式(C# 编程指南).doc

    Lambda表达式和匿名方法有相似之处,但Lambda更简洁,更容易阅读和编写。匿名方法中的一些限制同样适用于Lambda表达式。 总之,Lambda表达式是C#中实现简洁、灵活代码的重要工具,特别是在处理数据查询和异步编程...

    java8lambda表达式Demo

    Lambda表达式是函数式编程的关键元素,它允许我们以更简洁、更易读的方式编写代码,特别是在处理集合和并发任务时。在这个“java8lambda表达式Demo”中,我们将探讨Lambda表达式在Android Studio工程中的实际应用。 ...

    java8 lambda表达式学习总结

    Java 8 的 Lambda 表达式是其最显著的新特性之一,它引入了一种更为简洁、函数式的编程风格。Lambda 表达式使得处理匿名函数变得更加简单,尤其在需要定义短小、无状态的代码块时,它们可以极大提高代码的可读性和...

    C++ 中的 Lambda 表达式

    ### C++ 中的 Lambda 表达式 #### 引言 C++11引入了许多重要的新特性,其中最显著的一项是Lambda表达式。这一特性极大地简化了代码编写过程,使得开发者能够更方便地创建匿名函数对象。Lambda表达式在很多场景下都...

    C++ 11 lambda 表达式

    C++ 11引入了lambda表达式,这是一个强大的特性,极大地增强了C++的函数式编程能力。Lambda表达式允许在程序中直接定义匿名函数,并且可以直接在需要的地方使用,无需预先声明。这对于处理回调函数、简化算法实现...

    JavaLambda表达式和匿名类.pdf

    Java 8 引入了Lambda表达式,这是对传统编程方式的一大革新,它极大地简化了函数式编程,尤其是在处理集合和并发操作时。Lambda表达式是Java 8中的一种语法糖,它允许开发者以更简洁的方式定义无状态、无副作用的...

    Lambda表达式的例子

    Lambda表达式是Java 8引入的一种新的编程特性,它极大地简化了函数式编程,并使得代码更加简洁、易读。...通过熟练掌握Lambda表达式,开发者能够更好地利用Java 8及后续版本提供的新功能,提高编程效率。

    lambda表达式和递归算法

    * lambda 表达式的类型推断:在 C# 中,lambda 表达式可以自动推断出其类型,这使得开发者可以更方便地使用 lambda 表达式。 * lambda 表达式的闭包:lambda 表达式可以捕获外部变量,并将其作为闭包的一部分。 * ...

Global site tag (gtag.js) - Google Analytics