Lambda表达式让Spark编程更容易

wbj0110

浏览: 1645674 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java
Spark
Lambda

Java Spark Lambda

近日，Databricks官方网站发表了一篇博文，用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出，Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁，但由于缺少函数表达式，Java API有些冗长。因此，随着Java 8增加了lambda表达式，他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持，而且与Java的旧版本保持兼容。该版本将在5月初发布。

文中举了两个例子，用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现，但在Java 7中需要向filter传递一个Function对象，这有些笨拙：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter(
  new Function<String, Boolean>() {
    public Boolean call(String s) {
      return s.contains("error");
    }
});
long numErrors = lines.count();

在Java 8中，代码更为简洁：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt")
                          .filter(s -> s.contains("error"));
long numErrors = lines.count();

当代码更长时，对比更明显。文中给出了第二个例子，读取一个文件，得出其中的单词数。在Java 7中，实现代码如下：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");

//将每一行映射成多个单词
JavaRDD<String> words = lines.flatMap(
  new FlatMapFunction<String, String>() {
    public Iterable<String> call(String line) {
      return Arrays.asList(line.split(" "));
    }
});

// 将单词转换成(word, 1)对
JavaPairRDD<String, Integer> ones = words.mapToPair(
  new PairFunction<String, String, Integer>() {
    public Tuple2<String, Integer> call(String w) {
      return new Tuple2<String, Integer>(w, 1);
    }
});

// 分组并按键值添加对以产生计数
JavaPairRDD<String, Integer> counts = ones.reduceByKey(
  new Function2<Integer, Integer, Integer>() {
    public Integer call(Integer i1, Integer i2) {
      return i1 + i2;
    }
});

counts.saveAsTextFile("hdfs://counts.txt");

而在Java 8中，该程序只需要几行代码：

JavaRDD<String> lines = sc.textFile("hdfs://log.txt");
JavaRDD<String> words =
    lines.flatMap(line -> Arrays.asList(line.split(" ")));
JavaPairRDD<String, Integer> counts =
    words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))
         .reduceByKey((x, y) -> x + y);
counts.saveAsTextFile("hdfs://counts.txt");

引用：http://www.infoq.com/cn/news/2014/04/lambda-make-spark-easy?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk

大家可以加我个人微信号：scccdgf

或者关注soledede的微信公众号：soledede

分享到：

Netty系列之Netty线程模型 | java调用百度定位api服务获取地理位置示例

2014-08-01 15:41
浏览 938
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论