spark-学习笔记--1 wordcount

05rjyzl11

浏览: 151820 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

spark-学习笔记--1 wordcount

spark RDD

spark ：分布式、基于内存、迭代式、

RDD ：弹性分布式数据集

RDD是一个逻辑上的数据集合可以分为多个分区分布到不同的机器上

RDD的弹性：默认是放在节点内存里的，内存装不下时会放到磁盘，但这对使用者是透明的。

自动的进行内存和磁盘切换机制就是它说的弹性。

RDD的容错性：节点失败会从源重新计算

spark 核心编程：

1、定义初始的RDD 读取数据

2、定义算子-- 对数据的操作

3、多步操作处理数据

4、保存结果

package com.yzl.spark.sparkstudy;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**
 * Hello world!
 *
 */
public class App {
	public static void main(String[] args) {

		// 1、创建 SparkConf
		SparkConf sc = new SparkConf();
		sc.setAppName("wordCount");
		sc.setMaster("local");

		// 2、创建JavaSparkContext
		JavaSparkContext jsc = new JavaSparkContext(sc);

		// 3、创建RDD
		JavaRDD<String> lines = jsc.textFile("/666666666.txt");

		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

			public Iterator<String> call(String arg0) throws Exception {

				
				List<String> list = Arrays.asList(arg0.split(" |\\.|_|=|/"));
				ArrayList<String> arrayList = new ArrayList<String>(list);
				
				return arrayList.iterator();
			}

		});

		JavaPairRDD<String, Integer> pair = words.mapToPair(new PairFunction<String, String, Integer>() {

			public Tuple2<String, Integer> call(String key) throws Exception {

				return new Tuple2<String, Integer>(key, 1);
			}
		});
		
		JavaPairRDD<String,Integer> counts = pair.reduceByKey(new Function2<Integer, Integer, Integer>() {

					public Integer call(Integer arg0, Integer arg1) throws Exception {
						 
						return arg0 + arg1;
					}
		});
		
		//action 
		counts.foreach(new VoidFunction<Tuple2<String,Integer>>() {
			
			public void call(Tuple2<String, Integer> arg0) throws Exception {
				
				System.out.println(arg0._1 +"------"+arg0._2);
				
			}
		});
		
		jsc.close();
	}
}

分享到：

linux 配置免密码登录 | Java volatile

2018-10-11 18:06
浏览 498
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-学习笔记--1 wordcount

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-学习笔记--1 wordcount

评论

发表评论

相关推荐

spark-学习笔记--31 spark性能优化

spark-学习笔记--30 BlockManager 一

spark-学习笔记--29 shuffle2

spark-学习笔记--28 shuffle

spark-学习笔记--27 Task 源码

spark-学习笔记--26 task 的执行

spark-学习笔记--25 executor

spark-学习笔记--24 TaskScheduler

spark-学习笔记--23 DAGScheduler 的stage划分

spark-学习笔记--22 RDD 转换为 DataFrame--使用编程接口

spark-学习笔记--21 RDD 转换为 DataFrame--使用反射

spark-学习笔记--20 spark SQL入门

spark-学习笔记--19 stage划分

spark-学习笔记--18 spark1.3 worker解析

spark-学习笔记--17 spark1.3 资源调度

spark-学习笔记--16 spark1.3 状态改变

spark-学习笔记--15 master注册机制

spark-学习笔记--14 master的主备切换

Spark-学习笔记--13 spark1.3 SparkContext执行过程

Spark-学习笔记--12 宽依赖与窄依赖

最近访客更多访客>>