wbj0110

浏览: 1645978 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

博客分类：

Spark

Spark

概要

本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。

准备

spark已经安装完毕
spark运行在local mode或local-cluster mode

local-cluster mode

local-cluster模式也称为伪分布式，可以使用如下指令运行

MASTER=local[1,2,1024] bin/spark-shell

[1,2,1024] 分别表示，executor number, core number和内存大小，其中内存大小不应小于默认的512M

Driver Programme的初始化过程分析

初始化过程的涉及的主要源文件

SparkContext.scala 整个初始化过程的入口
SparkEnv.scala 　　创建BlockManager, MapOutputTrackerMaster, ConnectionManager, CacheManager
DAGScheduler.scala 任务提交的入口，即将Job划分成各个stage的关键
TaskSchedulerImpl.scala 决定每个stage可以运行几个task，每个task分别在哪个executor上运行
SchedulerBackend
1. 最简单的单机运行模式的话，看LocalBackend.scala
2. 如果是集群模式，看源文件SparkDeploySchedulerBackend

初始化过程步骤详解

步骤1：根据初始化入参生成SparkConf，再根据SparkConf来创建SparkEnv, SparkEnv中主要包含以下关键性组件 1. BlockManager 2. MapOutputTracker 3. ShuffleFetcher 4. ConnectionManager

 private[spark] val env = SparkEnv.create(
    conf,
    "",
    conf.get("spark.driver.host"),
    conf.get("spark.driver.port").toInt,
    isDriver = true,
    isLocal = isLocal)
  SparkEnv.set(env)

步骤2：创建TaskScheduler,根据Spark的运行模式来选择相应的SchedulerBackend，同时启动taskscheduler，这一步至为关键

  private[spark] var taskScheduler = SparkContext.createTaskScheduler(this, master, appName)
  taskScheduler.start()

TaskScheduler.start目的是启动相应的SchedulerBackend，并启动定时器进行检测

override def start() {
    backend.start()

    if (!isLocal && conf.getBoolean("spark.speculation", false)) {
      logInfo("Starting speculative execution thread")
      import sc.env.actorSystem.dispatcher
      sc.env.actorSystem.scheduler.schedule(SPECULATION_INTERVAL milliseconds,
            SPECULATION_INTERVAL milliseconds) {
        checkSpeculatableTasks()
      }
    }
  }

步骤3：以上一步中创建的TaskScheduler实例为入参创建DAGScheduler并启动运行

@volatile private[spark] var dagScheduler = new DAGScheduler(taskScheduler)
  dagScheduler.start()

步骤4：启动WEB UI

ui.start()

RDD的转换过程

还是以最简单的wordcount为例说明rdd的转换过程

sc.textFile("README.md").flatMap(line=>line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

上述一行简短的代码其实发生了很复杂的RDD转换，下面仔细解释每一步的转换过程和转换结果

步骤1：val rawFile = sc.textFile("README.md")

textFile先是生成hadoopRDD，然后再通过map操作生成MappedRDD,如果在spark-shell中执行上述语句，得到的结果可以证明所做的分析

scala> sc.textFile("README.md")
14/04/23 13:11:48 WARN SizeEstimator: Failed to check whether UseCompressedOops is set; assuming yes
14/04/23 13:11:48 INFO MemoryStore: ensureFreeSpace(119741) called with curMem=0, maxMem=311387750
14/04/23 13:11:48 INFO MemoryStore: Block broadcast_0 stored as values to memory (estimated size 116.9 KB, free 296.8 MB)
14/04/23 13:11:48 DEBUG BlockManager: Put block broadcast_0 locally took  277 ms
14/04/23 13:11:48 DEBUG BlockManager: Put for block broadcast_0 without replication took  281 ms
res0: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at :13

步骤2: val splittedText = rawFile.flatMap(line => line.split(" "))

flatMap将原来的MappedRDD转换成为FlatMappedRDD

 def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] =                                                                                                  new FlatMappedRDD(this, sc.clean(f))

步骤3：val wordCount = splittedText.map(word => (word, 1))

利用word生成相应的键值对，上一步的FlatMappedRDD被转换成为MappedRDD

步骤4：val reduceJob = wordCount.reduceByKey(_ + _)，这一步最复杂

步骤2，3中使用到的operation全部定义在RDD.scala中，而这里使用到的reduceByKey却在RDD.scala中见不到踪迹。reduceByKey的定义出现在源文件PairRDDFunctions.scala

细心的你一定会问reduceByKey不是MappedRDD的属性和方法啊，怎么能被MappedRDD调用呢？其实这背后发生了一个隐式的转换，该转换将MappedRDD转换成为PairRDDFunctions

implicit def rddToPairRDDFunctions[K: ClassTag, V: ClassTag](rdd: RDD[(K, V)]) =
    new PairRDDFunctions(rdd)

这种隐式的转换是scala的一个语法特征，如果想知道的更多，请用关键字"scala implicit method"进行查询，会有不少的文章对此进行详尽的介绍。

接下来再看一看reduceByKey的定义

  def reduceByKey(func: (V, V) => V): RDD[(K, V)] = {
    reduceByKey(defaultPartitioner(self), func)
  }

  def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = {
    combineByKey[V]((v: V) => v, func, func, partitioner)
  }

  def combineByKey[C](createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C,
      partitioner: Partitioner,
      mapSideCombine: Boolean = true,
      serializerClass: String = null): RDD[(K, C)] = {
    if (getKeyClass().isArray) {
      if (mapSideCombine) {
        throw new SparkException("Cannot use map-side combining with array keys.")
      }
      if (partitioner.isInstanceOf[HashPartitioner]) {
        throw new SparkException("Default partitioner cannot partition array keys.")
      }
    }
    val aggregator = new Aggregator[K, V, C](createCombiner, mergeValue, mergeCombiners)
    if (self.partitioner == Some(partitioner)) {
      self.mapPartitionsWithContext((context, iter) => {
        new InterruptibleIterator(context, aggregator.combineValuesByKey(iter, context))
      }, preservesPartitioning = true)
    } else if (mapSideCombine) {
      val combined = self.mapPartitionsWithContext((context, iter) => {
        aggregator.combineValuesByKey(iter, context)
      }, preservesPartitioning = true)
      val partitioned = new ShuffledRDD[K, C, (K, C)](combined, partitioner)
        .setSerializer(serializerClass)
      partitioned.mapPartitionsWithContext((context, iter) => {
        new InterruptibleIterator(context, aggregator.combineCombinersByKey(iter, context))
      }, preservesPartitioning = true)
    } else {
      // Don't apply map-side combiner.
      val values = new ShuffledRDD[K, V, (K, V)](self, partitioner).setSerializer(serializerClass)
      values.mapPartitionsWithContext((context, iter) => {
        new InterruptibleIterator(context, aggregator.combineValuesByKey(iter, context))
      }, preservesPartitioning = true)
    }
  }

reduceByKey最终会调用combineByKey, 在这个函数中PairedRDDFunctions会被转换成为ShuffleRDD,当调用mapPartitionsWithContext之后，shuffleRDD被转换成为MapPartitionsRDD

Log输出能证明我们的分析

res1: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[8] at reduceByKey at :13

RDD转换小结

小结一下整个RDD转换过程

HadoopRDD->MappedRDD->FlatMappedRDD->MappedRDD->PairRDDFunctions->ShuffleRDD->MapPartitionsRDD

整个转换过程好长啊，这一切的转换都发生在任务提交之前。

运行过程分析

数据集操作分类

在对任务运行过程中的函数调用关系进行分析之前，我们也来探讨一个偏理论的东西，作用于RDD之上的Transformantion为什么会是这个样子？

对这个问题的解答和数学搭上关系了，从理论抽象的角度来说，任务处理都可归结为“input->processing->output"。input和output对应于数据集dataset.

在此基础上作一下简单的分类

one-one 一个dataset在转换之后还是一个dataset，而且dataset的size不变，如map
one-one 一个dataset在转换之后还是一个dataset，但size发生更改，这种更改有两种可能：扩大或缩小，如flatMap是size增大的操作，而subtract是size变小的操作
many-one 多个dataset合并为一个dataset，如combine, join
one-many 一个dataset分裂为多个dataset, 如groupBy

Task运行期的函数调用

task的提交过程参考本系列中的第二篇文章。本节主要讲解当task在运行期间是如何一步步调用到作用于RDD上的各个operation

TaskRunner.run
- Task.run
  - Task.runTask (Task是一个基类，有两个子类，分别为ShuffleMapTask和ResultTask)
    - RDD.iterator
      - RDD.computeOrReadCheckpoint
        
        RDD.compute

或许当看到RDD.compute函数定义时，还是觉着f没有被调用,以MappedRDD的compute定义为例

  override def compute(split: Partition, context: TaskContext) =                                                                                                      
    firstParent[T].iterator(split, context).map(f)

注意，这里最容易产生错觉的地方就是map函数，这里的map不是RDD中的map，而是scala中定义的iterator的成员函数map, 请自行参考http://www.scala-lang.org/api/2.10.4/index.html#scala.collection.Iterator

堆栈输出

 80         at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:111)
 81         at org.apache.spark.rdd.HadoopRDD$$anon$1.(HadoopRDD.scala:154)
 82         at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:149)
 83         at org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:64)
 84         at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
 85         at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
 86         at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
 87         at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
 88         at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
 89         at org.apache.spark.rdd.FlatMappedRDD.compute(FlatMappedRDD.scala:33)
 90         at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
 91         at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
 92         at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
 93         at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
 94         at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
 95         at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:34)
 96         at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:241)
 97         at org.apache.spark.rdd.RDD.iterator(RDD.scala:232)
 98         at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:161)
 99         at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:102)
100         at org.apache.spark.scheduler.Task.run(Task.scala:53)
101         at org.apache.spark.executor.Executor$TaskRunner$$anonfun$run$1.apply$mcV$sp(Executor.scala:211)

ResultTask

compute的计算过程对于ShuffleMapTask比较复杂，绕的圈圈比较多，对于ResultTask就直接许多。

override def runTask(context: TaskContext): U = {
    metrics = Some(context.taskMetrics)
    try {
      func(context, rdd.iterator(split, context))
    } finally {
      context.executeOnCompleteCallbacks()
    }
  }

计算结果的传递

上面的分析知道，wordcount这个job在最终提交之后，被DAGScheduler分为两个stage，第一个Stage是shuffleMapTask，第二个Stage是ResultTask.

那么ShuffleMapTask的计算结果是如何被ResultTask取得的呢？这个过程简述如下

ShffuleMapTask将计算的状态(注意不是具体的数据)包装为MapStatus返回给DAGScheduler
DAGScheduler将MapStatus保存到MapOutputTrackerMaster中
ResultTask在执行到ShuffleRDD时会调用BlockStoreShuffleFetcher的fetch方法去获取数据
1. 第一件事就是咨询MapOutputTrackerMaster所要取的数据的location
2. 根据返回的结果调用BlockManager.getMultiple获取真正的数据

BlockStoreShuffleFetcher的fetch函数伪码

    val blockManager = SparkEnv.get.blockManager

    val startTime = System.currentTimeMillis
    val statuses = SparkEnv.get.mapOutputTracker.getServerStatuses(shuffleId, reduceId)
    logDebug("Fetching map output location for shuffle %d, reduce %d took %d ms".format(
      shuffleId, reduceId, System.currentTimeMillis - startTime))

    val blockFetcherItr = blockManager.getMultiple(blocksByAddress, serializer)
    val itr = blockFetcherItr.flatMap(unpackBlock)

注意上述代码中的getServerStatuses及getMultiple,一个是询问数据的位置，一个是去获取真正的数据。

有关Shuffle的详细解释，请参考”详细探究Spark的shuffle实现一文" http://jerryshao.me/architecture/2014/01/04/spark-shuffle-detail-investigation/

http://www.cnblogs.com/hseagle/p/3673132.html

分享到：

详细探究Spark的shuffle实现 | Android如何实现TCP和UDP传输

2015-03-17 18:20
浏览 612
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

运动控制领域8轴插补运动控制源码：双DMA实现高频率脉冲输出与加减速控制: 内容概要：本文详细介绍了8轴插补运动控制系统的实现，重点探讨了双DMA技术的应用，实现了高频率脉冲输出（最高可达500kHz）。文中首先解释了双DMA的工作原理及其相对于传统脉冲输出方式的优势，即减少CPU负载并提高数据传输速率。接着阐述了8轴插补算法的设计思想，包括基于时间分割的方法来确定各轴在特定时间段内的脉冲数。此外，还讨论了加减速控制策略，尤其是S型加减速算法的应用，以确保运动的平顺性。最后，文章展示了具体的代码实现细节，涵盖DMA配置、插补算法、加减速控制等方面。适合人群：从事运动控制系统开发的技术人员，尤其是对嵌入式系统有一定了解的研发人员。使用场景及目标：适用于需要高精度、高频脉冲输出的工业应用场景，如工业机器人、3D打印、激光切割等。目标是帮助开发者理解和掌握8轴插补运动控制的关键技术和实现方法，从而应用于实际项目中。其他说明：文中提供的代码示例主要基于STM32系列单片机，但相关概念和技术可以迁移至其他平台。同时，强调了硬件细节处理的重要性，如RC滤波电路的应用，以应对实际工程中的常见问题。

2303040222橡胶232熊文栋（苯乙烯悬浮聚合）副本.pdf: 2303040222橡胶232熊文栋（苯乙烯悬浮聚合）副本.pdf

音乐喷泉控制系统设计：基于Altium Designer的原理图与代码实现: 内容概要：本文详细介绍了音乐喷泉的设计与制作过程，涵盖了从原理图绘制到具体代码实现的各个方面。首先介绍了Altium Designer这款强大的电子设计软件，接着展示了如何利用现有文件进行设计，包括水泵控制、灯光效果和音乐解析三大核心模块的具体实现方法。文中提供了多个代码片段，如单片机控制喷头升降、PWM调速控制水泵以及灯光效果同步音乐节奏等。同时，强调了在实际制作过程中需要注意的问题，如焊接温度、布线规划、元件选择等。此外，还分享了一些实用技巧和经验教训，帮助读者更好地理解和应用相关知识。适合人群：对电子设计感兴趣的爱好者、初学者以及有一定基础的电子工程师。使用场景及目标：适用于希望深入了解音乐喷泉工作原理和技术实现的人群，目标是掌握如何使用Altium Designer完成音乐喷泉的电路设计，并能够编写相应的控制代码。其他说明：文章不仅提供了详细的理论讲解，还包括了许多实战经验和技巧，有助于读者在实践中少走弯路。

汽车主动悬架系统参数仿真与控制算法解析: 内容概要：本文详细介绍了汽车主动悬架系统的工作原理及其参数仿真的方法。首先解释了主动悬架的基本概念，即它可以根据车辆行驶状态和路面情况进行实时调整，提高行车安全性和舒适度。接着展示了如何利用简化的单自由度模型进行参数设置并进行仿真，具体涉及到了动力学方程、状态空间模型以及PID控制器的设计。此外还提到了更高级别的LQR控制器的应用，并强调了实际应用中需要注意的问题，如执行器响应延迟、物理限制等。文中通过实例演示了被动悬架与主动悬架在面对相同路面输入时的不同表现，突出了主动控制系统的优势。同时，针对传感器噪声处理、卡尔曼滤波器的使用、PWM信号生成等方面进行了深入探讨，揭示了主动悬架背后的复杂技术和工程挑战。适用人群：对汽车工程特别是悬架系统感兴趣的研究人员和技术爱好者。使用场景及目标：帮助读者理解主动悬架的工作机制，掌握基本的建模和仿真技能，为进一步开展相关领域的研究提供理论支持和技术指导。其他说明：文中不仅提供了详细的数学推导和代码片段，还分享了许多实践经验，使读者能够全面地了解主动悬架系统的各个方面。

Operating System 实验五进程管理编程实验: (3)请修改代码，解决临界区问题。解决后，无论如何运行，counter值均输出0

少儿编程scratch项目源代码文件案例素材-Mc v2.zip: 少儿编程scratch项目源代码文件案例素材-Mc v2.zip

车辆动力学联合仿真：基于Carsim和Simulink的十四自由度模型验证与优化: 内容概要：本文详细介绍了将Carsim与Simulink联合用于十四自由度车辆动力学模型的构建与验证过程。文中首先概述了整车架构的模块化分解方法，接着深入探讨了各个子系统的具体实现细节，如转向系统、轮胎模型、悬架子系统以及PI驾驶员控制器的设计与调优。针对联合仿真过程中遇到的关键问题，如采样率同步、参数调优、模型验证等进行了详细的讨论，并提供了具体的解决方案和技术技巧。通过对多种典型工况（如阶跃转向、正弦油门、双移线等）的仿真测试，验证了所建立模型的有效性和准确性。适合人群：从事车辆动力学研究、汽车仿真领域的工程师和技术人员，尤其是那些希望深入了解Carsim与Simulink联合仿真的从业者。使用场景及目标：适用于需要进行复杂车辆动力学仿真和模型验证的研究机构或企业。主要目标是提高仿真精度，缩短开发周期，确保模型能够准确反映实际车辆行为。此外，还可以作为教学材料帮助学生掌握先进的车辆建模技术和仿真工具。其他说明：文中不仅分享了大量的实战经验和技巧，还附带了完整的源代码和详细的调试记录，对于想要深入理解和应用这一技术的人来说非常有价值。

基于雨流计数法的源-荷-储双层协同优化配置及其Python实现: 内容概要：本文探讨了基于雨流计数法的源-荷-储双层协同优化配置，旨在提高能源系统的效率和经济性。文中介绍了双层优化架构，即外层优化储能系统的功率和容量，内层优化储能系统的充放电曲线并评估其寿命。通过Python代码示例展示了具体的实现过程，包括外层和内层优化的具体步骤以及雨流计数法的应用。此外，文章还讨论了常见的调试问题及解决方案，强调了内外层变量之间的相互影响。适合人群：从事能源系统优化的研究人员和技术人员，尤其是对储能系统优化感兴趣的读者。使用场景及目标：适用于需要进行源-荷-储系统优化的实际工程项目，如光伏电站、风力发电站等。目标是通过合理的储能配置，延长储能系统的使用寿命，降低成本，提高经济效益。其他说明：文章提供了详细的代码示例和理论解释，帮助读者更好地理解和应用这一优化方法。同时提醒读者，在实际应用中需要注意数据的准确性以及参数的选择。

维宏数控雕刻机维宏3D卡驱动 Ncstudio V5.449: 很多盗版PCI卡都在用的雕刻机控制程序

基于Matlab的三机并联风光储混合系统仿真及关键技术解析: 内容概要：本文详细介绍了三机并联的风光储混合系统在Matlab中的仿真方法及其关键技术。首先，针对光伏阵列模型，讨论了其核心二极管方程以及MPPT（最大功率点跟踪）算法的应用，强调了环境参数对输出特性的影响。接着，探讨了永磁同步风机的矢量控制，尤其是转速追踪和MPPT控制策略。对于混合储能系统，则深入讲解了超级电容和蓄电池的充放电策略，以及它们之间的协调机制。此外，还涉及了PQ控制的具体实现，包括双闭环结构的设计和锁相环的优化。最后，提供了仿真过程中常见的问题及解决方案，如求解器选择、参数敏感性和系统稳定性等。适合人群：从事电力电子、新能源系统设计与仿真的工程师和技术人员，以及相关专业的研究生。使用场景及目标：适用于希望深入了解风光储混合系统工作原理的研究人员，旨在帮助他们掌握Matlab仿真技巧，提高系统设计和优化的能力。其他说明：文中不仅提供了详细的理论推导和代码示例，还分享了许多实践经验，有助于读者更好地理解和应用所学知识。

基于NGSIM数据的Wiedemann99跟驰模型Matlab实现及其IPSO算法优化: 内容概要：本文详细介绍了基于NGSIM数据对Wiedemann99跟驰模型进行参数标定的过程。作者使用Matlab编写代码，实现了数据读取与预处理、Wiedemann99模型定义、拟合优度函数（RMSPE）计算以及改进粒子群算法（IPSO）。通过这些步骤，成功地对标定了Wiedemann99模型的关键参数，并对其进行了性能评估。文中不仅展示了具体的代码实现细节，还探讨了参数选择、算法改进等方面的经验教训。适合人群：从事交通工程、智能交通系统研究的专业人士，尤其是那些对车辆跟驰行为建模感兴趣的科研工作者和技术开发者。使用场景及目标：适用于需要精确模拟车辆跟驰行为的研究项目，如交通流量仿真、自动驾驶测试等。目标是提高模型的准确性和可靠性，以便更好地理解和预测真实的道路交通状况。其他说明：文章提供了详细的代码片段和理论背景介绍，有助于读者深入理解整个标定流程。同时，作者分享了一些实用的小技巧，如参数敏感度分析、适应度函数设计等，对于相关领域的研究人员具有较高的参考价值。

大模型落地路线图研究报告（2024年）: 内容概要：本文为中国信息通信研究院发布的《2024年大模型落地路线图研究报告》，旨在梳理大模型应用落地的共性需求和关键要素，为大模型赋能各行业提供参考。报告重点介绍了大模型应用落地的四个重要阶段——现状诊断、能力建设、应用部署、运营管理，归纳了八个关键步骤，包括能力分析、需求挖掘、方案设计、研发测试、应用开发、效能评估、运维监测和运营管理。报告详细分析了大模型在基础设施、数据资源、算法模型、应用服务、安全可信五个层面应重点关注的发展要素和亟待解决的问题。此外，报告还探讨了大模型在金融、工业、教育、医疗、政务等行业的具体应用场景及其带来的降本增效、提质增效等优势。最后，报告展望了大模型的发展趋势，强调了架构优化、行业数字化转型和可信发展的必要性。适合人群：具备一定技术背景，特别是从事人工智能、大数据、云计算等领域工作的研发人员、管理人员和技术决策者。使用场景及目标：①帮助企业和机构评估自身大模型应用的基础条件，明确业务转型需求；②指导大模型建设方案的设计和实施，确保技术选型的科学性和合理性；③提供应用部署和效能评估的具体方法，确保大模型在实际应用中的稳定性和高效性；④建立健全大模型的运营管理体系，保障业务的高效稳定开展。其他说明：报告强调了大模型在推动各行业数字化转型中的重要作用，提出了未来大模型发展的重点方向，如架构优化、技术应用和可信发展。报告还呼吁社会各界共同关注大模型的安全可信问题，确保其与人类价值观的对齐，推动大模型的健康发展。

少儿编程scratch项目源代码文件案例素材-Scratch泡泡龙.zip: 少儿编程scratch项目源代码文件案例素材-Scratch泡泡龙.zip

软考初级程序员09-18年真题及答案解析: 软考初级程序员是中国计算机技术与软件专业技术资格（水平）考试中的一个重要级别，主要面向打算进入IT行业的初学者或初级程序员。这个级别的考试旨在测试考生的基础编程能力、计算机基础知识以及解决问题的能力。历年真题是备考的重要参考资料，可以帮助考生了解考试的题型、难度以及考点。在"软考初级程序员09-18年真题及答案解析"的压缩包中，包含了从2009年至2018年上半年的所有程序员考试真题。这些真题涵盖了多个方面，包括但不限于： 1. **基础编程语言**：如C语言、Java、Python等，主要考察基本语法、数据类型、控制结构、函数使用等方面。 2. **数据结构与算法**：如数组、链表、栈、队列、树、图等，以及排序算法（冒泡、选择、插入、快速、归并等）和查找算法（线性查找、二分查找等）。 3. **计算机系统知识**：包括计算机组成原理、操作系统、网络基础知识，例如CPU结构、内存管理、进程与线程、网络协议等。 4. **数据库基础**：SQL语言的基本操作，如增删改查、子查询、联接操作、索引等。 5. **软件工程与项目管理**：软件生命周期、需求分析、设计原则、测试方法、版本控制等。 6. **法律法规与职业道德**：涉及知识产权、合同法、信息安全与隐私保护等。每份真题后的答案解析部分，是对题目答案的详细解释，通常包括解题思路、关键步骤以及知识点的扩展。通过阅读解析，考生不仅能知道自己答案的正确与否，还能深入理解相关知识点，提高自己的分析和解决问题的能力。在准备软考初级程序员考试时，考生应充分利用这些真题资源，进行模拟练习，掌握各类题目的解答技巧。同时，考生还需要广泛阅读教材，补充相关知识，提高对理论的理解。此外，多做编程实践，提高实际编程能力，也是非常重要的。总结来说，这个压缩包是备考软考初级程序员的宝贵资料，它能帮助考生熟悉考试形式，了解重

基于FPGA和W5500的TCP网络通信：Zynq扩展口开发测试平台（使用Vivado 2019.2纯Verilog实现）: 内容概要：本文详细介绍了如何在Zynq扩展口上使用FPGA和W5500实现稳定的TCP网络通信。作者通过一系列实验和技术手段，解决了多个实际问题，最终实现了零丢包的数据回环处理。主要内容包括：硬件搭建（SPI接口配置）、数据回环处理（双时钟域流水线）、压力测试（信号抓波形和防抖处理）、多路复用扩展以及上位机测试脚本的编写。文中提供了大量Verilog代码片段，展示了具体实现细节。适合人群：具备一定FPGA开发经验的工程师，尤其是对TCP/IP协议栈感兴趣的嵌入式系统开发者。使用场景及目标：适用于需要高性能、低延迟网络通信的应用场景，如工业控制系统、实时数据采集等。目标是帮助读者掌握在FPGA上实现高效TCP通信的方法和技术。其他说明：文章不仅提供了详细的代码实现，还分享了许多实践经验，如SPI时钟优化、CS信号防抖、FIFO深度选择等。此外，作者还讨论了未来可能的改进方向，如UDP组播和QoS优先级控制。

基于Matlab/Simulink的UKF/EKF实现路面附着系数估计: 内容概要：本文探讨了在汽车动力学研究和自动驾驶领域中，使用无迹扩展卡尔曼滤波（UKF/EKF）在Matlab/Simulink环境中对路面附着系数进行估计的方法。文中介绍了选择Matlab/Simulink的原因及其强大功能，详细解析了7自由度整车模型的构建，以及UKF和EKF的具体实现方式。UKF通过非线性处理和sigma点传播概率分布，适用于复杂工况；EKF则通过线性化处理，更适合计算资源有限的场景。两者在不同路面条件下表现出各自的优劣，如UKF在突变路面下表现更好，而EKF在不变路面上效率更高。此外，还讨论了调参技巧、工程实现细节及实际测试结果。适用人群：从事汽车动力学研究、自动驾驶技术研发的专业人士，尤其是对非线性滤波算法感兴趣的研究人员和技术开发者。使用场景及目标：①用于车辆稳定性控制系统中，提高行驶安全性；②优化滤波算法性能，平衡精度与实时性；③为复杂工况下的路面附着系数估计提供解决方案。其他说明：文章不仅提供了理论分析，还包括大量代码示例和实践经验分享，有助于读者深入理解和实际应用。

基于三菱PLC与触摸屏的定长送料系统：点动、相对定位与绝对定位的实现: 内容概要：本文详细介绍了如何使用三菱PLC（以FX3U为例）和显控触摸屏实现定长送料系统的三种核心功能：点动、相对定位和绝对定位。文章从硬件连接开始，逐步讲解了每种功能的具体实现方法，包括梯形图编程、参数设置以及触摸屏交互设计。特别强调了伺服和步进电机的应用，并提供了调试技巧和注意事项，确保系统稳定可靠。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要掌握PLC编程和伺服/步进电机控制的人群。使用场景及目标：适用于各类需要精确控制物料输送的生产设备，如包装机、裁切设备等。目标是帮助工程师快速搭建稳定的定长送料系统，提高生产效率和产品质量。其他说明：文中还分享了一些实战经验，如软限位设置、急停回路设计、电子齿轮比计算等，有助于解决实际应用中的常见问题。

51单片机开发音乐盒：程序源码、原理图与Protues仿真的详细解析: 内容概要：本文详细介绍了一个基于51单片机的音乐盒项目，涵盖从原理到实践的全过程。首先解释了音乐产生的基本原理，即通过控制I/O口输出不同频率的方波驱动蜂鸣器发声。接着介绍了原理图设计，重点描述了51单片机与其他组件如蜂鸣器、按键等的连接方式。然后讲解了Protues仿真工具的应用，强调其在硬件电路搭建前进行验证的重要性。最后深入剖析了程序源码，包括音符频率表、节拍编码、延时函数、播放音符和音乐的函数以及主函数的具体实现。适合人群：对单片机开发感兴趣的初学者或有一定经验的研发人员。使用场景及目标：适用于希望深入了解51单片机工作原理及其应用的人群，特别是那些想要亲手制作一个能够播放多首曲目的音乐盒爱好者。通过该项目的学习，不仅可以掌握单片机的基本编程技能，还可以提高解决实际问题的能力。其他说明：文中提供了详细的代码注释和技术细节，帮助读者更好地理解和实现项目。此外，还分享了一些实用的小贴士，如如何避免常见错误、优化性能等。

子查询练习题，多练习总没有坏处，不知道凑没凑够十一个字: 子查询练习题，多练习总没有坏处，不知道凑没凑够十一个字

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

概要

准备

local-cluster mode

Driver Programme的初始化过程分析

初始化过程的涉及的主要源文件

初始化过程步骤详解

RDD的转换过程

步骤1：val rawFile = sc.textFile("README.md")

步骤2: val splittedText = rawFile.flatMap(line => line.split(" "))

步骤3：val wordCount = splittedText.map(word => (word, 1))

步骤4：val reduceJob = wordCount.reduceByKey(_ + _)，这一步最复杂

RDD转换小结

运行过程分析

数据集操作分类

Task运行期的函数调用

堆栈输出

ResultTask

计算结果的传递

评论

发表评论

相关推荐

Spark源码分析--资源调度机制

详细探究Spark的shuffle实现

Apache Spark源码走读之2 -- Job的提交与运行

Apache Spark源码走读之1 -- Spark论文阅读笔记

Spark源码系列（六）Shuffle的过程解析

Spark源码系列（五）分布式缓存

Spark源码系列（四）图解作业生命周期

Spark源码系列（三）作业运行过程

Spark源码系列（二）RDD详解

Spark源码系列（一）spark-submit提交作业过程

详细探究Spark的shuffle实现

Spark源码分析之-Storage模块

Spark源码分析之-deploy模块

Spark源码分析之-scheduler模块

Spark Core源码分析: Spark任务模型

Spark Core源码分析: Spark任务执行模型

Spark Core源码分析: RDD基础

spark出现GC overhead limit exceeded和java heap space

Hadoop、Spark、HBase与Redis的适用性讨论

Spark SQL & Spark Hive编程开发， 并和Hive执行效率对比

最近访客更多访客>>

Spark SQL & Spark Hive编程开发，并和Hive执行效率对比