近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8 lambda表达式支持,而且与Java的旧版本保持兼容。该版本将在5月初发布。
文中举了两个例子,用于说明Java 8如何使代码更简洁。第一个例子是使用Spark的filter和count算子在一个日志文件中查找包含“error”的行。这很容易实现,但在Java 7中需要向filter传递一个Function对象,这有些笨拙:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt").filter( new Function<String, Boolean>() { public Boolean call(String s) { return s.contains("error"); } }); long numErrors = lines.count();
在Java 8中,代码更为简洁:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt") .filter(s -> s.contains("error")); long numErrors = lines.count();
当代码更长时,对比更明显。文中给出了第二个例子,读取一个文件,得出其中的单词数。在Java 7中,实现代码如下:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt"); //将每一行映射成多个单词 JavaRDD<String> words = lines.flatMap( new FlatMapFunction<String, String>() { public Iterable<String> call(String line) { return Arrays.asList(line.split(" ")); } }); // 将单词转换成(word, 1)对 JavaPairRDD<String, Integer> ones = words.mapToPair( new PairFunction<String, String, Integer>() { public Tuple2<String, Integer> call(String w) { return new Tuple2<String, Integer>(w, 1); } }); // 分组并按键值添加对以产生计数 JavaPairRDD<String, Integer> counts = ones.reduceByKey( new Function2<Integer, Integer, Integer>() { public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); counts.saveAsTextFile("hdfs://counts.txt");
而在Java 8中,该程序只需要几行代码:
JavaRDD<String> lines = sc.textFile("hdfs://log.txt"); JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" "))); JavaPairRDD<String, Integer> counts = words.mapToPair(w -> new Tuple2<String, Integer>(w, 1)) .reduceByKey((x, y) -> x + y); counts.saveAsTextFile("hdfs://counts.txt");
引用:http://www.infoq.com/cn/news/2014/04/lambda-make-spark-easy?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk
大家可以加我个人微信号:scccdgf
或者关注soledede的微信公众号:soledede
相关推荐
自Java 8引入Lambda表达式和Stream API后,Java已经具备了函数式编程的特点。这些新特性使得Java能够进行更高效、更简洁的并行处理和数据操作。 8. **Java的并发编程很难** 虽然Java并发编程确实有一定的学习曲线...
虽然Hadoop的原生编程模型是基于Java,但Scala提供了更简洁、高效的语法,使得开发人员可以更容易地编写MapReduce作业。 2. **Spark**:Spark是建立在Hadoop之上的数据处理引擎,它最初就是用Scala编写的,并且深度...
线程则是运行在同一个进程内的执行流,它们共享同一片数据空间,能够更容易地共享信息,但也带来了线程安全的问题。 由于Python的全局解释器锁(Global Interpreter Lock,GIL)的存在,导致在CPython解释器中,...
Java 8引入了Lambda表达式和流API,增强了函数式编程的支持;Java 11引入了模块系统,提升了系统资源的管理和优化;Java 17(长期支持版本,LTS)继续优化性能,提供更好的开发体验。 总结,Java编程语言凭借其强大...
- **lambda表达式**:这是JDK8最重要的特性之一,它引入了一种新的语法结构,使函数式编程在Java中变得更加简洁。Lambda表达式可以作为方法参数,也可以作为返回值,使得代码更加紧凑和易读。 - **默认方法**:在...
此外,Kotlin支持函数式编程概念,如高阶函数、lambda表达式和匿名函数,这为编写更简洁、可读性强的代码提供了可能。 在Android开发中,Kotlin的使用极大地改善了开发体验。它提供了许多内建功能,如数据类、扩展...
- Java 8在2014年推出,引入了Lambda表达式、函数式编程、Stream API和日期时间API等重大改进,显著提升了代码的简洁性和可读性。 - Java 9至Java 14,引入了模块系统(Project Jigsaw)、增强的开关语句、文本块...
Java 7和8分别引入了try-with-resources语句和lambda表达式,提高了资源管理的便利性和函数式编程的能力。Java 9及以后版本的模块化系统(Jigsaw项目)则优化了大型应用的构建和部署。 5. **实际应用** Java广泛...