本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
Spark中Blockmanager相关代码解析
前一段时间看了如何划分stage以及如何提交Job, 最后把结果返回到Driver端的过程, 中间也涉及到了通过blockManager来获取Data等过程。 这两天花了点时间看了一下blockmanager是如何工作的, 在这里记录一下。
看了一下源代码, 这里有几个主要的对象:
1.BlockManager
2.BlockManagerMaster
3.BlockManagerMasterEn ...
Spark在submitStage后如何通过clustermanager调度执行task到Driver接收计算结果的代码解析
前文: http://humingminghz.iteye.com/blog/2314269
前面先看到了从action入口到如何切分stage, 随后submit stage的过程, 那么既然stage被submit了, 接下来就应该是cluster manager去分配各个任务到prefer location的executor上面去执行了.
submitstage的方法, 最终会把当前st ...
Spark中saveAsTextFile至stage划分和job提交的源代码分析
之前看了Spark Streaming和Spark SQL, 自己还花了一些时间去玩了些machine learning的算法, 像 线性回归, kmeans, 协同过滤等。
现在回过头来, 打算看一下spark core部分代码, 就先找了下saveAsTextFile这个方法作为入口, 看一下是怎么保存文档到hadoop中,并且怎么切分stage以及提交Task。 中间也会触碰到DAGSch ...
SparkSQL DF.agg 执行过程解析
在上一篇文章前, 我一直没看懂为什么下面的代码就能得到max或者avg或者min的值:
malePPL.agg(Map("height" -> "max", "sex" -> "count")).show
数据是
身高 性别
这样的一个组合大概有几百万个值
刚开始是使用reducebykey去做 ...
SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析
前面一片文章介绍了SocketTextStream 是如何从blockmanager里面获取block组成blockRDD的, 地址:
http://humingminghz.iteye.com/admin/blogs/2310003
那么接下来关注一下block是怎么存到blockmanager里面的。
还是从receiverTracker.start() 入手, 会执行ReceiverTra ...
SparkSQL 使用SQLContext读取csv文件 分析数据 (含部分数据)
前两天开始研究SparkSQL, 其主要分为HiveContext以及SQLContext
目前打算先学习SQLContent, 因为Hive环境还没搭好, 一步一步来 先把spark的原理弄明白后再去研究hadoop的组件。
这篇文章主要是讲如何使用SQLContext去读取csv文件, 然后根据表头注册表, 进行数据分析
要通过SQLContext去操作csv文件, 那么我们需要用 ...
SparkStreaming是如何完成不停的循环处理的代码浅析
一直很好奇Sparkstreaming的ssc.start是怎么做到不停的一直定时循环处理数据的, 看了一下源码, 大致明白了整个过程, 记录分享一下。
入口为StreamingContext的start方法:
在构造StreamingContext的时候 state就初始化为INITIALIZED , 并且定义了一个JobScheduler scheduler
代码里面很明白, 在初始化的时 ...
学习总结----(4)一张图总结scala语言学习
本系列博客是利用思维导向图(MindManager)的直观性,将cron、regex、java、Scala和Python以类似划重点的方式,直观展现在读者面前;
在学生时代,对于每一门课程的学习,本人希望的是能把控课程全局,而把控课程全局最直观的就是一张图来图解整个课程大致章节内容,各个章节注意点尽量在图中一目了然。这个习惯伴随我终身学习,并且延伸到这六年的I ...
spark 2.0主要特性预览
2016-05-29 朱洁 hadoop技术学习
spark 2.0相比老版本变化很大,已经发布了预览版本。原始的英文版databricks的博客:https://databricks.com/blog/