最新文章列表

源码跟踪executor如何写数据到blockmanager, 以及如何从blockmanager读数据

之前看了Job怎么submit 以及最后run的, 然后也看了blockmanager是怎么工作的, 那么接下来就是要看spark是如何从blockManager中读写数据的。  首先每个计算 ...
humingminghz 评论(0) 有1434人浏览 2016-08-10 19:41

Spark中Blockmanager相关代码解析

前一段时间看了如何划分stage以及如何提交Job, 最后把结果返回到Driver端的过程, 中间也涉及到了通过blockManager来获取Data等过程。 这两天花了点时间看了一下blockmanager是如何工作的, 在这里记录一下。 看了一下源代码, 这里有几个主要的对象: 1.BlockManager 2.BlockManagerMaster 3.BlockManagerMasterEn ...
humingminghz 评论(0) 有1850人浏览 2016-08-04 19:47

Spark在submitStage后如何通过clustermanager调度执行task到Driver接收计算结果的代码解析

前文: http://humingminghz.iteye.com/blog/2314269 前面先看到了从action入口到如何切分stage, 随后submit stage的过程, 那么既然stage被submit了, 接下来就应该是cluster manager去分配各个任务到prefer location的executor上面去执行了. submitstage的方法, 最终会把当前st ...
humingminghz 评论(0) 有1485人浏览 2016-08-01 14:08

Spark中saveAsTextFile至stage划分和job提交的源代码分析

之前看了Spark Streaming和Spark SQL, 自己还花了一些时间去玩了些machine learning的算法, 像 线性回归, kmeans, 协同过滤等。 现在回过头来, 打算看一下spark core部分代码, 就先找了下saveAsTextFile这个方法作为入口, 看一下是怎么保存文档到hadoop中,并且怎么切分stage以及提交Task。 中间也会触碰到DAGSch ...
humingminghz 评论(0) 有3365人浏览 2016-07-29 14:20

SparkSQL DF.agg 执行过程解析

在上一篇文章前, 我一直没看懂为什么下面的代码就能得到max或者avg或者min的值: malePPL.agg(Map("height" -> "max", "sex" -> "count")).show 数据是 身高 性别 这样的一个组合大概有几百万个值 刚开始是使用reducebykey去做 ...
humingminghz 评论(0) 有4128人浏览 2016-07-19 10:21

SparkSQL SQL语句解析过程源代码浅析

前两天一直在忙本职工作, 最近才有时间闲下来看了一下SparkSql的执行过程, 记录一下。 主要是通过sqlContext.sql() 这个方法作为一个入口。 在这之前 ...
humingminghz 评论(1) 有6667人浏览 2016-07-15 19:34

scala学习笔记

1、for循环格式 for(i <- 1 to 10){print(i)} 2、懒加载 lazy val a = 1; 直到用时才会加载 3、方法的声明格式 def(x:Int,y:Int) : Int ={} 最后一个冒号后面是返回类型,不加则没有返回值 4、默认参数 def loadConf(conf : String = "default"){ print(co ...
indinna 评论(0) 有436人浏览 2016-07-11 15:32

SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析

前面一片文章介绍了SocketTextStream 是如何从blockmanager里面获取block组成blockRDD的, 地址: http://humingminghz.iteye.com/admin/blogs/2310003 那么接下来关注一下block是怎么存到blockmanager里面的。 还是从receiverTracker.start() 入手, 会执行ReceiverTra ...
humingminghz 评论(0) 有2239人浏览 2016-07-08 17:54

Scala mapreduce

本文只是带你进入 Scala 的世界,包括安装、不可变变量 val、可变变量 var、定义类、集合(包括列表(list)、集(set)、映射(map))以及集合遍历 ...
e_e 评论(0) 有803人浏览 2016-07-07 14:40

SparkSQL 使用SQLContext读取csv文件 分析数据 (含部分数据)

前两天开始研究SparkSQL, 其主要分为HiveContext以及SQLContext 目前打算先学习SQLContent, 因为Hive环境还没搭好,    一步一步来 先把spark的原理弄明白后再去研究hadoop的组件。 这篇文章主要是讲如何使用SQLContext去读取csv文件, 然后根据表头注册表, 进行数据分析 要通过SQLContext去操作csv文件, 那么我们需要用 ...
humingminghz 评论(0) 有10164人浏览 2016-07-06 11:24

SparkStreaming是如何完成不停的循环处理的代码浅析

一直很好奇Sparkstreaming的ssc.start是怎么做到不停的一直定时循环处理数据的, 看了一下源码, 大致明白了整个过程, 记录分享一下。 入口为StreamingContext的start方法: 在构造StreamingContext的时候 state就初始化为INITIALIZED , 并且定义了一个JobScheduler scheduler 代码里面很明白, 在初始化的时 ...
humingminghz 评论(0) 有4662人浏览 2016-07-02 12:26

SparkStreaming 对Window的reduce的方法解析

在sparkstreaming中对窗口范围进行reduce主要有下面四个方法, 其他方法都是直接或者间接调用下面的方法来获取结果 在这之前, 最好了解我之前一篇博客 ...
humingminghz 评论(0) 有4734人浏览 2016-06-30 11:57

学习总结----(4)一张图总结scala语言学习

        本系列博客是利用思维导向图(MindManager)的直观性,将cron、regex、java、Scala和Python以类似划重点的方式,直观展现在读者面前;         在学生时代,对于每一门课程的学习,本人希望的是能把控课程全局,而把控课程全局最直观的就是一张图来图解整个课程大致章节内容,各个章节注意点尽量在图中一目了然。这个习惯伴随我终身学习,并且延伸到这六年的I ...
zilongzilong 评论(0) 有1613人浏览 2016-06-06 23:45

SCALA入门

今天纪念高考十周年,路漫漫其修远兮,吾将上下而求索。 SCALA,一门运行在JVM上的编程语言,其理念是面向对象和面向函数的结合。 scala环境搭建 1.安装jdk,配置JAVA_HOME,PATH,CLASSPATH环境变量,安装SCALA,安装时注意选择SCALA版本,scala下载地址http://www.scala-lang.org 2.IDE,下载idea,或者scalaforeclip ...
v_ger 评论(0) 有373人浏览 2016-06-06 22:23

scala之trait详解三:延时绑定

    我们知道,trait支持多重继承,那么scala是如何解决trait多重继承带来的方法冲突问题?      通过延时绑定混入类的方法,可以有效的回避这一点。在trait里调用super可能解析成另一个trait的方法也可能解析成混入类的方法。     做一下名词解释,所谓延时绑定也叫动态绑定,发生在运行期;与之相对的静态绑定发生在编译器,熟悉C++的可以参考这篇文章对这两个概念有更深的了解 ...
fushengxu 评论(0) 有1032人浏览 2016-06-06 19:07

spark 2.0主要特性预览

  2016-05-29 朱洁 hadoop技术学习   spark 2.0相比老版本变化很大,已经发布了预览版本。原始的英文版databricks的博客:https://databricks.com/blog/
jiezhu2007 评论(0) 有2295人浏览 2016-05-29 14:32

scala之trait详解二:选择性混入

    上篇文章http://fushengxu.iteye.com/blog/2301179的例子里,Friend trait混入到了Dog类里,就可以将Dog的任意实例当做Friend。也就是说,所有的Dog都是Friend。此外,还可以在实例一级对trait进行选择性混入。如下所示: def useFriend(friend:Friend)= Friend listen val alf=ne ...
fushengxu 评论(0) 有546人浏览 2016-05-29 00:13

scala之trait详解一

问题一:scala为什么没有多重继承?     Scala和Java一样不允许从多个超类继承。我们知道,C++允许多重继承,但代价也是出人意料的高。主要是多重继 ...
fushengxu 评论(1) 有6115人浏览 2016-05-26 21:30

转:scala override的学习总结

1) 可以用override val  覆盖父类或trait中不带参数的def , 但反过来不行, 既不可以用override def 覆盖父类的val,比如 class Father{     def name = "Archer"     def score() = 1.0     val id = 12 } class Children extends Father{ ...
fushengxu 评论(0) 有928人浏览 2016-05-26 14:23

Spark相关术语

RDD 全称为Resilient Distributed Dataset,弹性分布式数据集。     就是分布在集群节点上的数据集,这些集合可以用来进行各种操作,能实现MapReduce不擅长的 ...
fushengxu 评论(0) 有517人浏览 2016-05-25 19:18

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) .net(54785) 编程(39454) JSP(37542) 数据结构(36423) Eclipse(31254) PHP(29988) F#(26079) 算法(24867) 脚本(19840) J#(18922) JDBC(17888) ASP(17480) JDK(14881) JVM(14450)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics