前面一片文章介绍了SocketTextStream 是如何从blockmanager里面获取block组成blockRDD的，地址： http://humingminghz.iteye.com/admin/blogs/2310003 那么接下来关注一下block是怎么存到blockmanager里面的。还是从receiverTracker.start() 入手，会执行ReceiverTracker的start方法： def start(): Unit = synchronized { if (isTrackerStarted) { throw new Spa ...

2016-07-08 17:54
浏览 2257
评论(0)
分类:开源软件

Sparkstreaming是如何获取数据组成Dstream的源码浅析

博客分类：

Spark

spark

前面一篇文章介绍了SparkStreaming是如何不停的循环submitJob的，连接： http://humingminghz.iteye.com/admin/blogs/2308711 既然已经知道了Spark Streaming如何循环处理，那么我们就要看一下处理过程中是怎么获取到Dstream的，用简单的socketTextStream 来做一个列子，入口： val lines = scc.socketTextStream(args(1), args(2).toInt, StorageLevel.MEMORY_AND_DISK) 在socketTextStream ...

2016-07-08 11:23
浏览 1511
评论(0)
分类:开源软件

SparkSQL 使用SQLContext读取csv文件分析数据（含部分数据）

博客分类：

Spark

spark sparksql scala

前两天开始研究SparkSQL，其主要分为HiveContext以及SQLContext 目前打算先学习SQLContent，因为Hive环境还没搭好，一步一步来先把spark的原理弄明白后再去研究hadoop的组件。这篇文章主要是讲如何使用SQLContext去读取csv文件，然后根据表头注册表，进行数据分析要通过SQLContext去操作csv文件，那么我们需要用到spark-csv_xxx.jar sbt地址为： // https://mvnrepository.com/artifact/com.databricks/spark-csv_2.10 libr ...

2016-07-06 11:24
浏览 10204
评论(0)
分类:开源软件

SparkStreaming是如何完成不停的循环处理的代码浅析

博客分类：

Spark

spark streamingcontext scala

一直很好奇Sparkstreaming的ssc.start是怎么做到不停的一直定时循环处理数据的，看了一下源码，大致明白了整个过程，记录分享一下。入口为StreamingContext的start方法：在构造StreamingContext的时候 state就初始化为INITIALIZED ，并且定义了一个JobScheduler scheduler 代码里面很明白，在初始化的时候，执行了JobScheduler的start方法。 def start(): Unit = synchronized { state match { case ...

2016-07-02 12:26
浏览 4693
评论(0)
分类:开源软件

SparkStreaming 对Window的reduce的方法解析

博客分类：

Spark

spark scala

在sparkstreaming中对窗口范围进行reduce主要有下面四个方法，其他方法都是直接或者间接调用下面的方法来获取结果在这之前，最好了解我之前一篇博客内容： http://humingminghz.iteye.com/blog/2308138 对非(K,V)形式的RDD 窗口化reduce： 1.r ...

2016-06-30 11:57
浏览 4752
评论(0)
分类:开源软件

关于Eclipse开发环境下 Spark+Kafka 获取topic的时候连接出错

博客分类：

Spark
kafka

spark kafka

林林总总玩了Spark快一个月了，打算试一下kafka的消息系统加上Spark Streaming 进行实时推送数据的处理。简单的写了一个类作为kafka的producer，然后SparkStreaming的类作为consumer Producer 的run方法产生数据： public void run() { KafkaProducer<Integer, String> producer = getProducer(); int messageNum = 0; Random rd = new Random(); ...

2016-06-28 17:20
浏览 7436
评论(0)
分类:开源软件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

SparkSQL SQL语句解析过程源代码浅析

SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析

Sparkstreaming是如何获取数据组成Dstream的源码浅析

SparkSQL 使用SQLContext读取csv文件 分析数据 （含部分数据）

SparkStreaming是如何完成不停的循环处理的代码浅析

SparkStreaming 对Window的reduce的方法解析

关于Eclipse开发环境下 Spark+Kafka 获取topic的时候连接出错

最近访客更多访客>>

SparkSQL 使用SQLContext读取csv文件分析数据（含部分数据）