spark导读

scholltop

浏览: 310959 次
性别:
来自: 武汉

最近访客更多访客>>

地方疙瘩人

kodo521

猫狸粽子

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据行业信息
PYTHON

类Hadoop的高效分布式计算系统Spark
日期：2013-9-11 作者： jzou 我要评论
大 | 中 | 小投稿打印
导读：本文对Spark进行了不厌其详的介绍，从比较优势到应用运行，再到对RDD的详解。多种模式下的编程语言也都罗列其中。
关键词：Spark 分布式计算系统
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：

Spark与Hadoop的对比
Spark的中间数据放到内存中，对于迭代运算效率更高。
Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。
Spark比Hadoop更通用。
Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup,mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。
这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。
不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
容错性
在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。
可用性
Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。
Spark与Hadoop的结合
Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。
Spark的适用场景
Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小
由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
总的来说Spark的适用面比较广泛且比较通用。
运行模式
本地模式
Standalone模式
Mesoes模式
yarn模式
Spark生态系统
Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapReduce。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。
Spark streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断(几秒)，以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算，另一方面相比基于Record的其它处理框架(如Storm)，RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
Bagel: Pregel on Spark，可以用Spark进行图计算，这是个非常有用的小项目。Bagel自带了一个例子，实现了Google的PageRank算法。
在业界的使用
Spark项目在2009年启动，2010年开源, 现在使用的有：Berkeley, Princeton, Klout, Foursquare, Conviva, Quantifind, Yahoo! Research & others, 淘宝等，豆瓣也在使用Spark的python克隆版Dpark。
Spark核心概念
Resilient Distributed Dataset (RDD)弹性分布数据集
RDD是Spark的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。
RDD的特点：
　　1. 它是在集群节点上的不可变的、已分区的集合对象。
　　2. 通过并行转换的方式来创建如(map, filter, join, etc)。
　　3. 失败自动重建。
　　4. 可以控制存储级别(内存、磁盘等)来进行重用。
　　5. 必须是可序列化的。
　　6. 是静态类型的。
RDD的好处
　　1. RDD只能从持久存储或通过Transformations操作产生，相比于分布式共享内存(DSM)可以更高效实现容错，对于丢失部分数据分区只需根据它的lineage就可重新计算出来，而不需要做特定的Checkpoint。
　　2. RDD的不变性，可以实现类Hadoop MapReduce的推测式执行。
　　3. RDD的数据分区特性，可以通过数据的本地性来提高性能，这与Hadoop MapReduce是一样的。
　　4. RDD都是可序列化的，在内存不足时可自动降级为磁盘存储，把RDD存储于磁盘上，这时性能会有大的下降但不会差于现在的MapReduce。
RDD的存储与分区
　　1. 用户可以选择不同的存储级别存储RDD以便重用。
　　2. 当前RDD默认是存储于内存，但当内存不足时，RDD会spill到disk。
　　3. RDD在需要进行分区把数据分布于集群中时会根据每条记录Key进行分区(如Hash 分区)，以此保证两个数据集在Join时能高效。
RDD的内部表示
在RDD的内部实现中每个RDD都可以使用5个方面的特性来表示：
　　1. 分区列表(数据块列表)
　　2. 计算每个分片的函数(根据父RDD计算出此RDD)
　　3. 对父RDD的依赖列表
　　4. 对key-value RDD的Partitioner【可选】
　　5. 每个数据分片的预定义地址列表(如HDFS上的数据块的地址)【可选】
RDD的存储级别
　　RDD根据useDisk、useMemory、deserialized、replication四个参数的组合提供了11种存储级别：

val NONE = new StorageLevel(false, false, false)
    val DISK_ONLY = new StorageLevel(true, false, false)
    val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)
    val MEMORY_ONLY = new StorageLevel(false, true, true)
    val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)
    val MEMORY_ONLY_SER = new StorageLevel(false, true, false)
    val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)
    val MEMORY_AND_DISK = new StorageLevel(true, true, true)
    val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)
    val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)
    val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2)

RDD定义了各种操作，不同类型的数据由不同的RDD类抽象表示，不同的操作也由RDD进行抽实现。
RDD的生成
RDD有两种创建方式：
　　1、从Hadoop文件系统(或与Hadoop兼容的其它存储系统)输入(例如HDFS)创建。
　　2、从父RDD转换得到新RDD。
下面来看一从Hadoop文件系统生成RDD的方式，如：val file = spark.textFile("hdfs://...")，file变量就是RDD(实际是HadoopRDD实例)，生成的它的核心代码如下：

 
 // SparkContext根据文件/目录及可选的分片数创建RDD, 这里我们可以看到Spark与Hadoop MapReduce很像
    // 需要InputFormat, Key、Value的类型，其实Spark使用的Hadoop的InputFormat, Writable类型。
    def textFile(path: String, minSplits: Int = defaultMinSplits): RDD[String] = {
        hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable],
        classOf[Text], minSplits) .map(pair => pair._2.toString) }
 
    // 根据Hadoop配置，及InputFormat等创建HadoopRDD  
    new HadoopRDD(this, conf, inputFormatClass, keyClass, valueClass, minSplits)  
对RDD进行计算时，RDD从HDFS读取数据时与Hadoop MapReduce几乎一样的：
 
   reader = fmt.getRecordReader(split.inputSplit.value, conf, Reporter.NULL)
 
    val key: K = reader.createKey()
    val value: V = reader.createValue()
 
    //使用Hadoop MapReduce的RecordReader读取数据，每个Key、Value对以元组返回。
    override def getNext() = {
    try {
      finished = !reader.next(key, value)
    } catch {
      case eof: EOFException =>
        finished = true
    }
      (key, value)
    }

RDD的转换与操作
对于RDD可以有两种计算方式：转换(返回值还是一个RDD)与操作(返回值不是一个RDD)。
转换(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Transformations操作时只会记录需要这样的操作，并不会去执行，需要等到有Actions操作的时候才会真正启动计算过程进行计算。
操作(Actions) (如：count, collect, save等)，Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。
下面使用一个例子来示例说明Transformations与Actions在Spark的使用。

    val sc = new SparkContext(master, "Example", System.getenv("SPARK_HOME"),
        Seq(System.getenv("SPARK_TEST_JAR")))
 
    val rdd_A = sc.textFile(hdfs://.....)
    val rdd_B = rdd_A.flatMap((line => line.split("\\s+"))).map(word => (word, 1))
 
    val rdd_C = sc.textFile(hdfs://.....)
    val rdd_D = rdd_C.map(line => (line.substring(10), 1))
    val rdd_E = rdd_D.reduceByKey((a, b) => a + b)
 
    val rdd_F = rdd_B.jion(rdd_E)
 
    rdd_F.saveAsSequenceFile(hdfs://....)

Lineage(血统)
利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现，Spark的主要区别在于它处理分布式运算环境下的数据容错性(节点实效/数据丢失)问题时采用的方案。为了保证RDD中数据的鲁棒性，RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制，RDD的Lineage记录的是粗颗粒度的特定数据转换(Transformation)操作(filter, map, join etc.)行为。当这个RDD的部分分区数据丢失时，它可以通过Lineage获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。
RDD在Lineage依赖方面分为两种Narrow Dependencies与Wide Dependencies用来解决数据容错的高效性。Narrow Dependencies是指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区，也就是说一个父RDD的一个分区不可能对应一个子RDD的多个分区。Wide Dependencies是指子RDD的分区依赖于父RDD的多个分区或所有分区，也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。对与Wide Dependencies，这种计算的输入和输出在不同的节点上，lineage方法对与输入节点完好，而输出节点宕机时，通过重新计算，这种情况下，这种方法容错是有效的，否则无效，因为无法重试，需要向上其祖先追溯看是否可以重试(这就是lineage，血统的意思)，Narrow Dependencies对于数据的重算开销要远小于Wide Dependencies的数据重算开销。
容错
在RDD计算，通过checkpint进行容错，做checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错，默认是logging the updates方式，通过记录跟踪所有生成RDD的转换(transformations)也就是记录每个RDD的lineage(血统)来重新计算生成丢失的分区数据。
资源管理与作业调度
Spark对于资源管理与作业调度可以使用Standalone(独立模式)，Apache Mesos及Hadoop YARN来实现。 Spark on Yarn在Spark0.6时引用，但真正可用是在现在的branch-0.8版本。Spark on Yarn遵循YARN的官方规范实现，得益于Spark天生支持多种Scheduler和Executor的良好设计，对YARN的支持也就非常容易，Spark on Yarn的大致框架图。

让Spark运行于YARN上与Hadoop共用集群资源可以提高资源利用率。
编程接口
Spark通过与编程语言集成的方式暴露RDD的操作，类似于DryadLINQ和FlumeJava，每个数据集都表示为RDD对象，对数据集的操作就表示成对RDD对象的操作。Spark主要的编程语言是Scala，选择Scala是因为它的简洁性(Scala可以很方便在交互式下使用)和性能(JVM上的静态强类型语言)。
Spark和Hadoop MapReduce类似，由Master(类似于MapReduce的Jobtracker)和Workers(Spark的Slave工作节点)组成。用户编写的Spark程序被称为Driver程序，Dirver程序会连接master并定义了对各RDD的转换与操作，而对RDD的转换与操作通过Scala闭包(字面量函数)来表示，Scala使用Java对象来表示闭包且都是可序列化的，以此把对RDD的闭包操作发送到各Workers节点。 Workers存储着数据分块和享有集群内存，是运行在工作节点上的守护进程，当它收到对RDD的操作时，根据数据分片信息进行本地化数据操作，生成新的数据分片、返回结果或把RDD写入存储系统。

Scala
Spark使用Scala开发，默认使用Scala作为编程语言。编写Spark程序比编写Hadoop MapReduce程序要简单的多，SparK提供了Spark-Shell，可以在Spark-Shell测试程序。写SparK程序的一般步骤就是创建或使用(SparkContext)实例，使用SparkContext创建RDD，然后就是对RDD进行操作。如：

    val sc = new SparkContext(master, appName, [sparkHome], [jars])
    val textFile = sc.textFile("hdfs://.....")
    textFile.map(....).filter(.....).....

Java
Spark支持Java编程，但对于使用Java就没有了Spark-Shell这样方便的工具，其它与Scala编程是一样的，因为都是JVM上的语言，Scala与Java可以互操作，Java编程接口其实就是对Scala的封装。如：
　

    JavaSparkContext sc = new JavaSparkContext(...);  
    JavaRDD lines = ctx.textFile("hdfs://...");
    JavaRDD words = lines.flatMap(
      new FlatMapFunction<String, String>() {
         public Iterable call(String s) {
            return Arrays.asList(s.split(" "));
         }
       }
    );

Python

现在Spark也提供了Python编程接口，Spark使用py4j来实现python与java的互操作，从而实现使用python编写Spark程序。Spark也同样提供了pyspark，一个Spark的python shell，可以以交互式的方式使用Python编写Spark程序。如：
　　

    from pyspark import SparkContext
    sc = SparkContext("local", "Job Name", pyFiles=['MyFile.py', 'lib.zip', 'app.egg'])
    words = sc.textFile("/usr/share/dict/words")
    words.filter(lambda w: w.startswith("spar")).take(5)

使用示例
Standalone模式
为方便Spark的推广使用，Spark提供了Standalone模式，Spark一开始就设计运行于Apache Mesos资源管理框架上，这是非常好的设计，但是却带了部署测试的复杂性。为了让Spark能更方便的部署和尝试，Spark因此提供了Standalone运行模式，它由一个Spark Master和多个Spark worker组成，与Hadoop MapReduce1很相似，就连集群启动方式都几乎是一样。
以Standalone模式运行Spark集群
下载Scala2.9.3，并配置SCALA_HOME
下载Spark代码(可以使用源码编译也可以下载编译好的版本)这里下载编译好的版本(http://spark-project.org/download/spark-0.7.3-prebuilt-cdh4.tgz)
解压spark-0.7.3-prebuilt-cdh4.tgz安装包
修改配置(conf/*) slaves: 配置工作节点的主机名 spark-env.sh：配置环境变量。

SCALA_HOME=/home/spark/scala-2.9.3
JAVA_HOME=/home/spark/jdk1.6.0_45
SPARK_MASTER_IP=spark1            
SPARK_MASTER_PORT=30111
SPARK_MASTER_WEBUI_PORT=30118
SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=4g
SPARK_WORKER_PORT=30333
SPARK_WORKER_WEBUI_PORT=30119
SPARK_WORKER_INSTANCES=1

把Hadoop配置copy到conf目录下
在master主机上对其它机器做ssh无密码登录
把配置好的Spark程序使用scp copy到其它机器
在master启动集群

　　
$SPARK_HOME/start-all.sh

Spark-shell现在还不支持Yarn模式，使用Yarn模式运行，需要把Spark程序全部打包成一个jar包提交到Yarn上运行。目录只有branch-0.8版本才真正支持Yarn。
以Yarn模式运行Spark
下载Spark代码.

　
git clone git://github.com/mesos/spark

切换到branch-0.8

　　
cd spark
git checkout -b yarn --track origin/yarn

使用sbt编译Spark并

$SPARK_HOME/sbt/sbt
> package
> assembly

把Hadoop yarn配置copy到conf目录下
运行测试
　　

SPARK_JAR=./core/target/scala-2.9.3/spark-core-assembly-0.8.0-SNAPSHOT.jar \
./run spark.deploy.yarn.Client --jar examples/target/scala-2.9.3/ \
--class spark.examples.SparkPi --args yarn-standalone

使用Spark-shell
Spark-shell使用很简单，当Spark以Standalon模式运行后，使用$SPARK_HOME/spark-shell进入shell即可，在Spark-shell中SparkContext已经创建好了，实例名为sc可以直接使用，还有一个需要注意的是，在Standalone模式下，Spark默认使用的调度器的FIFO调度器而不是公平调度，而Spark-shell作为一个Spark程序一直运行在Spark上，其它的Spark程序就只能排队等待，也就是说同一时间只能有一个Spark-shell在运行。
在Spark-shell上写程序非常简单，就像在Scala Shell上写程序一样。
　　

    scala> val textFile = sc.textFile("hdfs://hadoop1:2323/user/data")
    textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3
 
    scala> textFile.count() // Number of items in this RDD
    res0: Long = 21374
 
    scala> textFile.first() // First item in this RDD
    res1: String = # Spark

编写Driver程序
在Spark中Spark程序称为Driver程序，编写Driver程序很简单几乎与在Spark-shell上写程序是一样的，不同的地方就是SparkContext需要自己创建。如WorkCount程序如下：
　

import spark.SparkContext
import SparkContext._
 
object WordCount {
  def main(args: Array[String]) {
    if (args.length ==0 ){
      println("usage is org.test.WordCount <master>")
    }
    println("the args: ")
    args.foreach(println)
 
    val hdfsPath = "hdfs://hadoop1:8020"
 
    // create the SparkContext， args(0)由yarn传入appMaster地址
    val sc = new SparkContext(args(0), "WrodCount",
    System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
 
    val textFile = sc.textFile(hdfsPath + args(1))
 
    val result = textFile.flatMap(line => line.split("\\s+"))
        .map(word => (word, 1)).reduceByKey(_ + _)
 
    result.saveAsTextFile(hdfsPath + args(2))
  }
}

原文出处：http://tech.uc.cn/?p=2116

查看图片附件

分享到：

raise-Ruby 异常处理(转载) | Spark - 大数据Big Data处理框架

2014-08-03 19:24
浏览 743
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Spark的异构分布式深度学习平台: 导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构...

XGBoost导读和实战--原理解析及源码、实战指导: Runs on single machine, Hadoop, Spark, Flink and DataFlow 可扩展、移植、分布式的Gradient Boosting (GBDT, GBRT or GBM)库，适用于Python, R, Java, Scala, C++，可以运行在单机，hadoop，spark，flink和Data...

Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题: 【导读】我们知道，ApacheSpark在处理实时数据方面的能力非常出色，目前也在工业界广泛使用。本文通过使用SparkMachineLearningLibrary和PySpark来解决一个文本多分类问题，内容包括：数据提取、ModelPipeline、训练...

java查看函数源码-BigDataArchitect:大数据架构师: 大数据架构师课程导读 1. bigdata_hadoop 2. bigdata_hive 3. bigdata_hbase 4. bigdata_hadoop_project 5. bigdata_redis 6. bigdata_zookeeper 7. bigdata_spark 课程大纲目录，持续更新中。。。 hadoop阶段： 1. ...

能源领域：基于MATLAB的阶梯式碳交易与供需灵活双响应综合能源系统优化调度: 内容概要：本文详细介绍了考虑阶梯式碳交易与供需灵活双响应的综合能源系统优化调度方法。在供给侧，引入了有机朗肯循环（ORC）实现热电联产机组的灵活响应；在需求侧，提出电、热、气负荷之间的可替代性，以提高能源利用效率。构建了以最小化碳排放成本、购能成本、弃风成本和需求响应成本为目标的优化调度模型，并采用MATLAB和CPLEX进行了模型构建和求解。文中提供了具体的代码示例，展示了如何处理热电耦合、负荷替代和阶梯式碳交易等问题。适合人群：从事能源系统优化、电力系统调度、碳交易等相关领域的研究人员和技术人员。使用场景及目标：适用于需要优化能源系统调度、降低成本并减少碳排放的实际应用场景。目标是帮助读者理解和掌握如何通过先进的技术和算法实现更加灵活和高效的能源调度。其他说明：文章提供了完整的代码实现和服务支持，包括12种典型场景的数据集和预设模型，方便读者快速上手实践。

工业自动化中欧姆龙CP1H与东元N310变频器基于Modbus RTU通讯的实战程序: 内容概要：本文详细介绍了一个利用欧姆龙CP1H PLC及其CIF11通讯板与三台东元N310变频器进行通讯的实战案例。主要内容涵盖硬件配置（包括接线方式和终端电阻设置）、变频器参数设置（如波特率、站号等）、PLC编程（含频率设定、实际频率和输出电压读取的具体指令及其实现方法）、以及调试过程中遇到的问题和解决方案。此外，还提供了关于如何扩展更多变频器的方法，强调了通讯稳定性和高效性的优化措施。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要掌握PLC与变频器通讯技能的人群。使用场景及目标：适用于需要对多个变频器进行集中控制和监测的应用场合，如工厂生产线、电力系统等。主要目的是提高系统的集成度和可靠性，降低维护成本。其他说明：文中不仅给出了详细的代码片段，还包括了许多宝贵的实践经验，对于初学者来说是非常好的参考资料。同时，作者也提到了一些常见的陷阱和注意事项，有助于读者少走弯路。

基于Simulink的TCR+FC型SVC无功补偿仿真模型构建与优化: 内容概要：本文详细介绍了如何在Simulink中构建TCR+FC型静止无功补偿器(SVC)的仿真模型。首先，文章解释了TCR（晶闸管控制电抗器）和FC（固定电容器）的工作原理及其在电力系统中的重要性。接着，逐步讲解了模型搭建的关键步骤，包括晶闸管参数设置、触发脉冲生成、滤波器设计以及控制策略的选择。文中特别强调了触发角控制对补偿效果的影响，并提供了具体的MATLAB代码示例。此外，作者分享了许多实践经验，如如何应对现场环境变化带来的参数偏差、如何防止谐振等问题。最后，通过对不同工况下仿真结果的分析，展示了该模型在改善电压稳定性、提高功率因数方面的显著效果。适合人群：从事电力系统研究和技术开发的专业人士，尤其是那些希望深入了解SVC工作原理及其仿真方法的研究人员和工程师。使用场景及目标：适用于需要进行电力系统无功补偿装置性能评估、优化设计的研究机构或企业。主要目标是在确保系统稳定性的前提下，最大化提升无功补偿效率，降低谐波污染，从而保障电网的安全运行。其他说明：文中不仅提供了详细的建模指导，还包括许多实用的小贴士和注意事项，帮助读者避开常见陷阱，快速掌握核心技术要点。同时，附带的实际案例分析有助于加深理解，使读者能够将所学应用于实际工程项目中。

spring-ai-chroma-store-1.0.0-M6.jar中文文档.zip: # 压缩文件中包含：中文文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

智云物业小程序v3.5.0高级版+微信+支付宝前端.zip: 智云物业小程序v3.5.0高级版微信支付宝前端版本号：3.5.0智云物业抄表可以直接录入表号社区发图多由5张改为9张添加付出通道对接车位锁bug批改细节调整和优化功能特色： 1. 可视化楼宇房产管理，一键生成楼宇房产（支持EXCEL导入） 2. 住户管理（业主、成员、租户），严格、宽松和自由三种注册方式 3. 报修和投诉建议完整处理流程（派单与抢单），内部工单处理（派单与抢单） 4. 智能门禁（微信开门、定位防骚扰、开门日志）、人脸识别、蓝牙 5. 商铺和车位管理，一键生成或EXCEL导入 6. 多收费项目管理，批量生成账单，前后台收银，可视化管理 7. 社区论坛、邻里互动、新动态 8. WQ独立后台、物业独立后台，权限角色完全分开 9. 版权自定义设置、页面自定义图标及链接 10. 统计分析报表、打通WQ会员、会员组及积分 11. 物业手机端住户管理、上门收费、账单核销、抄表录入、巡更 12. 线下周边商家（集积分、支付、活动、红包于一体） 13. 积分红包、挪车服务、打包小程序、智能充电站、自助智能设备（如：洗车机、饮水机等） 14. 全局权限控制、公众号授权、自定义系统帮助 15. 对接多家车牌识别管理系统，在线缴费、办理月卡、统计报表 16.?快递驿站、活动管理（投票、报名、问卷）、管理看板

西门子S7-1200 PLC在新能源物料输送系统中的RS485通讯与称重仪表集成应用: 内容概要：本文详细介绍了在一个新能源物料输送系统中，利用西门子S7-1200 PLC和昆仑通态触摸屏实现物料输送控制的具体方法。主要内容涵盖硬件配置（如PLC、称重仪表、RS485通信模块）、通信配置（如RS485参数设置）、软件开发（如博途V16编程、模拟量采集、物料输送控制逻辑）以及触摸屏组态开发等方面。文中不仅提供了具体的配置步骤和技术细节，还分享了许多实际开发中的经验和常见问题解决方法。适合人群：自动化领域的工程师和技术人员，尤其是那些正在从事或计划从事PLC控制系统的开发和维护工作的人员。使用场景及目标：适用于需要开发类似物料输送系统的工程项目，旨在帮助读者掌握PLC控制系统的开发技能，提高系统稳定性和可靠性，减少开发过程中的错误和问题。其他说明：文中提到的实际案例和开发经验对于理解和解决工业自动化项目中的常见问题非常有帮助。同时，文中提供的代码片段和配置示例可以直接应用于实际项目中，方便读者快速上手。

光伏储能与虚拟同步发电机并网的Matlab/Simulink建模及优化: 内容概要：本文详细介绍了如何在Matlab/Simulink环境下构建光伏储能系统与虚拟同步发电机（VSG）并网的模型。首先，文章阐述了整体思路，即实现直流侧光储与VSG并网的完美配合。接着，分别讲解了光伏部分、储能部分和VSG部分的具体实现方法，包括光伏电池模型的选择、储能电池的参数设置以及VSG控制算法的设计。此外，文章还讨论了光照强度变化的设置及其对系统的影响，并提供了详细的波形分析。最后，针对模型调试过程中遇到的问题提出了有效的解决方案。适合人群：从事电力电子、新能源发电领域的研究人员和技术人员，尤其是熟悉Matlab/Simulink工具的用户。使用场景及目标：适用于希望深入了解光伏储能系统与虚拟同步发电机并网机制的研究人员和技术人员。主要目标是掌握如何在Matlab/Simulink中搭建和优化此类模型，以便更好地应用于实际工程实践中。其他说明：文中提供的代码片段和调试技巧对于初学者非常有帮助，同时也为高级用户提供了一些优化建议。通过对不同参数的调整，如虚拟惯量、阻尼系数等，可以进一步提高系统的稳定性和响应速度。

【蓝桥杯EDA】客观题解析：第十二届省赛第二场真题.pdf: 【蓝桥杯EDA】客观题解析

J1939信号详解及SPN查询表: 表格可以详细查询到商用车CAN通信里每个信号具体的定义，SPN，每一位信号的定义

直驱永磁风机Simulink仿真模型：内外双环控制、低电压穿越及MPPT研究: 内容概要：本文详细介绍了直驱永磁风机的Simulink仿真模型，涵盖了机侧和网侧控制、低电压穿越控制（chopper电路控制）、风速模拟及最大功率点跟踪（MPPT）。机侧控制采用了内外双环结构，通过零d轴电流（ZDC）控制降低铜损，提高效率；MPPT则通过最优转矩（OTC）控制实现。网侧控制包括并网和脱网两种模式，分别采用双闭环解耦控制和闭环无源逆变控制。低电压穿越控制通过chopper电路确保电网电压异常时风机的稳定运行。风速模拟部分使用了复杂的风速模型，使仿真更加接近实际情况。此外，文中还提到了详细的参数设定和调试经验，以及相关文献的支持。适合人群：从事风电系统设计、仿真建模的研究人员和技术人员，尤其是对直驱永磁风机及其控制系统感兴趣的工程师。使用场景及目标：适用于需要深入了解直驱永磁风机Simulink仿真的研究人员和技术人员。主要目标是掌握直驱永磁风机的控制策略，包括内外双环控制、低电压穿越控制、风速模拟及MPPT的具体实现方法，以便应用于实际项目中。其他说明：文中提供的代码片段和参数设定有助于读者更好地理解和应用这些控制策略。同时，参考文献也为进一步研究提供了理论依据。

基于Simulink的永磁同步电机多故障诊断与处理策略: 内容概要：本文详细介绍了如何在Simulink环境中构建永磁同步电机（PMSM）的多故障诊断模型，特别是针对绕组匝间短路和转子偏心故障的联合诊断。文章首先展示了如何通过MATLAB代码实现绕组电阻变化模型，解释了故障注入的关键参数设置及其背后的物理意义。接着讨论了混合故障建模的方法，强调了机械偏心和电气短路之间的耦合关系，并提供了具体的Simulink模块连接方式。文中还探讨了多种先进的故障特征提取技术，如改进的S变换、小波包分解以及经验模态分解，并推荐使用MATLAB的signalDiagnosticDesigner工具来自动生成特征提取代码。此外，文章介绍了不同类型的观测器设计，包括磁链观测器和滑模观测器，并分享了一些实用的经验技巧。最后，文章提出了几种有效的故障分类算法，如改进的KNN和支持向量机结合长短期记忆网络的混合模型。适合人群：从事电机控制系统设计的研究人员和技术工程师，尤其是那些对永磁同步电机故障诊断感兴趣的从业者。使用场景及目标：适用于希望深入了解永磁同步电机内部故障机制并在Simulink平台上进行仿真的专业人士。主要目标是提高故障检测精度，优化故障处理策略，确保系统的稳定性和可靠性。其他说明：文中提供的代码片段和建模思路可以帮助读者快速入门并掌握复杂的故障诊断流程。同时，作者还分享了许多宝贵的实践经验，有助于避免常见的错误和陷阱。

三菱Q系列11轴运动控制系统：PLC程序、触摸屏程序及电气设计详解: 内容概要：本文详细介绍了三菱Q系列11轴运动控制项目的实施细节，涵盖PLC程序、触摸屏程序、电气清单及完整电路图。PLC程序采用分工位编辑，确保各工位独立控制，便于调试和维护。触摸屏程序实现了对各工位的实时监控和参数修改，增强了系统的灵活性。电气清单详尽列出所有电气元件及其规格，电路图展示了元件间的连接关系，有助于现场布局和故障排查。此外，文中还涉及定位模块和模拟量模块的应用，提升了系统的控制精度和稳定性。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些负责多轴运动控制系统的开发和维护人员。使用场景及目标：适用于需要进行复杂多轴运动控制的工业生产线，旨在提高生产效率、降低维护成本，并提供详细的编程和设计指导。其他说明：文章不仅提供了具体的代码示例和电路图，还包括了许多实用的设计技巧和注意事项，如异常处理机制、信号隔离方法以及变量命名规范等，这些都是实际项目中非常宝贵的经验总结。

晫璨智慧环卫建设解决方案PPT(32页).pptx: 在当今智慧城市的建设浪潮中，智慧环卫作为城市管理的重要组成部分，正以其独特的魅力引领着环卫行业的变革。本方案旨在通过一系列高科技手段，如物联网、大数据、云计算等，全面提升环卫作业效率与管理水平，为城市居民创造更加清洁、宜居的生活环境。一、智慧环卫系统概述与核心亮点智慧环卫系统是一个集机械化保洁、垃圾清运、设施管理、事件指挥调度等多功能于一体的综合性管理平台。其核心亮点在于通过高精度定位、实时监控与智能分析，实现环卫作业的精细化管理。例如，机械化保洁管理子系统能够实时监控机扫车、洒水车等作业车辆的运行状态，自动规划最优作业路线，并根据作业完成情况生成考核评价报表，极大地提高了作业效率与服务质量。同时，垃圾清运管理子系统则通过安装GPS定位设备和油量传感器，对清运车辆进行全方位监控，确保垃圾清运过程的规范与高效，有效解决了城市垃圾堆积与随意倾倒的问题。此外，系统还配备了垃圾箱满溢报警系统，通过智能感应技术，当垃圾箱内垃圾达到预设高度时自动报警，提醒作业人员及时清运，避免了因垃圾满溢而引发的居民投诉与环境污染。二、智慧环卫系统的趣味性与知识性融合智慧环卫系统不仅实用性强，还蕴含着丰富的趣味性与知识性。以餐厨垃圾收运管理子系统为例，该系统通过为餐厨垃圾收运车辆安装GPS定位、车载称重、视频监控等多种感知设备，实现了对餐厨垃圾收运过程的全程监控与智能管理。作业人员可以通过手机APP实时查看车辆位置、行驶轨迹及收运情况，仿佛在玩一场现实版的“垃圾追踪游戏”。同时，系统还能自动生成餐厨垃圾收运统计报表，帮助管理人员轻松掌握收运量、违规情况等关键数据，让数据管理变得既科学又有趣。此外，中转站视频监控子系统更是将趣味性与实用性完美结合，通过高清摄像头与双向语音对讲功能，实现了对中转站内外环境的实时监控与远程指挥，让管理人员足不出户就能掌控全局，仿佛拥有了一双“千里眼”和一对“顺风耳”。三、智慧环卫系统的未来展望与社会价值随着科技的不断进步与智慧城市建设的深入推进，智慧环卫系统将迎来更加广阔的发展前景。未来，智慧环卫系统将更加注重数据的深度挖掘与分析，通过大数据与人工智能技术，为城市环卫管理提供更加精准、高效的决策支持。同时，系统还将加强与其他城市管理系统的互联互通，实现资源共享与协同作战，共同推动城市管理的智能化、精细化水平。从社会价值来看，智慧环卫系统的推广与应用将有效提升城市环境卫生质量，改善居民生活环境，提升城市形象与竞争力。此外，系统还能通过优化作业流程、减少资源浪费等方式，为城市可持续发展贡献重要力量。可以说，智慧环卫系统不仅是城市管理的得力助手，更是推动社会进步与文明发展的重要力量。

MATLAB车牌识别技术详解：从图像预处理到字符识别的全流程解析: 内容概要：本文详细介绍了基于MATLAB的车牌识别技术，涵盖了从图像预处理到最终字符识别的完整流程。首先，文章强调了MATLAB环境配置及相关图像处理工具箱的重要性。接着，逐步展示了核心代码片段，如图像读取、灰度转换、边缘检测、形态学操作、轮廓提取、车牌区域筛选等关键技术。此外，还探讨了字符分割方法，包括垂直投影法和连通域分析，并介绍了模板匹配用于字符识别的具体实现。文中不仅提供了代码示例，还附带了详细的Word版解析，解释了各个函数的作用及参数选择依据，帮助读者深入理解每一环节的工作机制。适合人群：对图像处理和车牌识别感兴趣的初学者、有一定编程基础的研究人员和技术爱好者。使用场景及目标：适用于学术研究、教学演示以及小型项目的快速原型开发。主要目标是使读者能够掌握车牌识别的基本原理和技术细节，从而应用于实际场景中。其他说明：文章特别指出了一些常见问题及其解决办法，例如如何应对复杂光照条件、字符粘连等问题，并给出了具体的优化建议。同时，强调了代码实现过程中需要注意的各种细节，如参数调整、图像预处理等，以提高识别精度。

【模型预测控制MPC】使用离散、连续、线性或非线性模型对预测控制进行建模附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

误码率二进制相移键控 BER 8PSK附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark导读

评论

发表评论

相关推荐

python aes加密

python简单爬取一个blogs内容

python打开文件逐行读取文件命令并执行

python爬虫学习记录

PMP（Private Marketplace）

批量日志数据库外表写入

网站回头客属性设置

关于异步操作的汇总

SEM 自动化管理工具大起底(这其实是改写三个SEM优化问题的一部分）

在调用sql脚本时动态生成临时表处理

Hive 中内部表与外部表的区别与创建方法

Hadoop的实时分析之路

hadoop实时查询

用户行为属性分类的实现

pig将多对象按相同属性集合分组

ruby接收pig流式处理文件内容

greenplum解决数组取交集问题

PostgreSQL: 如何获取一维数组的相同元素并根据相似度排序

PostgreSQL的ARRAY_AGG函数与unnest函数

pig过滤A表中有B表中无的数据实例

最近访客更多访客>>