`

剖析Disruptor:为什么会这么快?(二)神奇的缓存行填充

 
阅读更多
  • 首页
  • Disruptor
  • 剖析Disruptor:为什么会这么快?(二)神奇的缓存行填充

剖析Disruptor:为什么会这么快?(二)神奇的缓存行填充

原文地址:http://ifeve.com/disruptor-padding/

作者:Trisha  译者:方腾飞 校对:丁一

我们经常提到一个短语Mechanical Sympathy,这个短语也是Martin博客的标题(译注:Martin Thompson),Mechanical Sympathy讲的是底层硬件是如何运作的,以及与其协作而非相悖的编程方式。

我在上一篇文章中提到RingBuffer后,我们收到一些关于RingBuffer中填充高速缓存行的评论和疑问。由于这个适合用漂亮的图片来说明,所以我想这是下一个我该解决的问题了。
(译注:Martin Thompson很喜欢用Mechanical Sympathy这个短语,这个短语源于赛车驾驶,它反映了驾驶员对于汽车有一种天生的感觉,所以他们对于如何最佳的驾御它非常有感觉。)

计算机入门

我喜欢在LMAX工作的原因之一是,在这里工作让我明白从大学和A Level Computing所学的东西实际上还是有意义的。做为一个开发者你可以逃避不去了解CPU,数据结构或者大O符号 —— 而我用了10年的职业生涯来忘记这些东西。但是现在看来,如果你知道这些知识并应用它,你能写出一些非常巧妙和非常快速的代码。

因此,对在学校学过的人是种复习,对未学过的人是个简单介绍。但是请注意,这篇文章包含了大量的过度简化。

CPU是你机器的心脏,最终由它来执行所有运算和程序。主内存(RAM)是你的数据(包括代码行)存放的地方。本文将忽略硬件驱动和网络之类的东西,因为Disruptor的目标是尽可能多的在内存中运行。

CPU和主内存之间有好几层缓存,因为即使直接访问主内存也是非常慢的。如果你正在多次对一块数据做相同的运算,那么在执行运算的时候把它加载到离CPU很近的地方就有意义了(比如一个循环计数-你不想每次循环都跑到主内存去取这个数据来增长它吧)。

 

 
 

越靠近CPU的缓存越快也越小。所以L1缓存很小但很快(译注:L1表示一级缓存),并且紧靠着在使用它的CPU内核。L2大一些,也慢一些,并且仍然只能被一个单独的 CPU 核使用。L3在现代多核机器中更普遍,仍然更大,更慢,并且被单个插槽上的所有 CPU 核共享。最后,你拥有一块主存,由全部插槽上的所有 CPU 核共享。

当CPU执行运算的时候,它先去L1查找所需的数据,再去L2,然后是L3,最后如果这些缓存中都没有,所需的数据就要去主内存拿。走得越远,运算耗费的时间就越长。所以如果你在做一些很频繁的事,你要确保数据在L1缓存中。

Martin和Mike的 QCon presentation演讲中给出了一些缓存未命中的消耗数据:

 
从CPU到 大约需要的 CPU 周期 大约需要的时间
主存   约60-80纳秒
QPI 总线传输
(between sockets, not drawn)
  约20ns
L3 cache 约40-45 cycles, 约15ns
L2 cache 约10 cycles, 约3ns
L1 cache 约3-4 cycles, 约1ns
寄存器 1 cycle  
 

如果你的目标是让端到端的延迟只有 10毫秒,而其中花80纳秒去主存拿一些未命中数据的过程将占很重的一块。

缓存行

现在需要注意一件有趣的事情,数据在缓存中不是以独立的项来存储的,如不是一个单独的变量,也不是一个单独的指针。缓存是由缓存行组成的,通常是64字节(译注:这篇文章发表时常用处理器的缓存行是64字节的,比较旧的处理器缓存行是32字节),并且它有效地引用主内存中的一块地址。一个Java的long类型是8字节,因此在一个缓存行中可以存8个long类型的变量。

 
(为了简化,我将忽略多级缓存)
 

非常奇妙的是如果你访问一个long数组,当数组中的一个值被加载到缓存中,它会额外加载另外7个。因此你能非常快地遍历这个数组。事实上,你可以非常快速的遍历在连续的内存块中分配的任意数据结构。我在第一篇关于ring buffer的文章中顺便提到过这个,它解释了我们的ring buffer使用数组的原因。

因此如果你数据结构中的项在内存中不是彼此相邻的(链表,我正在关注你呢),你将得不到免费缓存加载所带来的优势。并且在这些数据结构中的每一个项都可能会出现缓存未命中。

不过,所有这种免费加载有一个弊端。设想你的long类型的数据不是数组的一部分。设想它只是一个单独的变量。让我们称它为head,这么称呼它其实没有什么原因。然后再设想在你的类中有另一个变量紧挨着它。让我们直接称它为tail。现在,当你加载head到缓存的时候,你也免费加载了tail

 
 

听想来不错。直到你意识到tail正在被你的生产者写入,而head正在被你的消费者写入。这两个变量实际上并不是密切相关的,而事实上却要被两个不同内核中运行的线程所使用。

 
 

设想你的消费者更新了head的值。缓存中的值和内存中的值都被更新了,而其他所有存储head的缓存行都会都会失效,因为其它缓存中head不是最新值了。请记住我们必须以整个缓存行作为单位来处理(译注:这是CPU的实现所规定的,详细可参见深入分析Volatile的实现原理),不能只把head标记为无效。

 
 

现在如果一些正在其他内核中运行的进程只是想读tail的值,整个缓存行需要从主内存重新读取。那么一个和你的消费者无关的线程读一个和head无关的值,它被缓存未命中给拖慢了。

当然如果两个独立的线程同时写两个不同的值会更糟。因为每次线程对缓存行进行写操作时,每个内核都要把另一个内核上的缓存块无效掉并重新读取里面的数据。你基本上是遇到两个线程之间的写冲突了,尽管它们写入的是不同的变量。

这叫作“伪共享”(译注:可以理解为错误的共享),因为每次你访问head你也会得到tail,而且每次你访问tail,你也会得到head。这一切都在后台发生,并且没有任何编译警告会告诉你,你正在写一个并发访问效率很低的代码。

解决方案-神奇的缓存行填充

你会看到Disruptor消除这个问题,至少对于缓存行大小是64字节或更少的处理器架构来说是这样的(译注:有可能处理器的缓存行是128字节,那么使用64字节填充还是会存在伪共享问题),通过增加补全来确保ring buffer的序列号不会和其他东西同时存在于一个缓存行中。

1 public long p1, p2, p3, p4, p5, p6, p7; // cache line padding
2     private volatile long cursor = INITIAL_CURSOR_VALUE;
3     public long p8, p9, p10, p11, p12, p13, p14; // cache line padding

因此没有伪共享,就没有和其它任何变量的意外冲突,没有不必要的缓存未命中。

在你的Entry类中也值得这样做,如果你有不同的消费者往不同的字段写入,你需要确保各个字段间不会出现伪共享。

修改:Martin写了一个从技术上来说更准确更详细的关于伪共享的文章,并且发布了性能测试结果。

(全文完)



 
 
 

您可能感兴趣的文章

<iframe id="aswift_0" style="max-width: 100%; position: absolute; left: 0px; margin: 0px auto; display: block; top: 0px;" name="aswift_0" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" width="468" height="60"></iframe>
花名清英,英文名kiral,并发编程网博主。目前工作于淘宝广告技术部,负责无线广告联盟产品的设计和开发工作,关注于无线广告,并发编程和敏捷实践。
  • Trackback 关闭
  • 评论 (13)
    • cunzhangok
    • 2013/01/27 3:48下午
     

    这个文章非常好,解决了我的一些疑惑

    • 匿名
    • 2013/03/04 4:43下午
     

    public long p1, p2, p3, p4, p5, p6, p7; // cache line padding
    private volatile long cursor = INITIAL_CURSOR_VALUE;
    public long p8, p9, p10, p11, p12, p13, p14; // cache line padding
    填充后, p1, p2, p3, p4, p5, p6, p7和cursor不是在同一个缓存行上来吗? 一个缓存行存8个long型变量

      • 匿名
      • 2013/03/04 9:03下午
       

      用作padding的变量不会去使用,或者不会在有伪共享的情况下使用

      • 匿名
      • 2013/05/24 4:26下午
       

      相同的疑问,64byte的为何需要15个long来填充。。。。不是很明白

    • regulus.sun
    • 2013/03/05 4:47下午
     

    这个图是用什么画的 我喜欢

  1.  

    “现在需要注意一件有趣的事情,它在缓存中不是以独立的项来存储的” 这里的它不是很明确,是不是改成“数据”或者“缓存数据”?

  2.  

    “为了简化,我将忽略多极缓存” 这里是不是应该是“多级缓存”?

  3.  

    缓存行填充确实漂亮。很喜欢文中的一段话:

    “在这里工作让我明白从大学和A Level Computing所学的东西实际上还是有意义的。做为一个开发者你可以逃避不去了解CPU,数据结构或者大O符号 —— 而我用了10年的职业生涯来忘记这些东西。但是现在看来,如果你知道这些知识并应用它,你能写出一些非常巧妙和非常快速的代码”

    • LierD
    • 2013/05/24 4:07下午
     

    版主,你好,有个地方没看懂,一个cacheline只要64Byte,为什么要前后都用7个long呢?看了伪共享那篇文章也是没弄明白….

    •  

      一个long是8字节,加上cursor,一共8个long,8*8=64,刚好把缓存行填充满。

    • greenzh
    • 2013/05/26 4:38下午
     

    我的看原码的时候发现一个问题,在MultiProducerSequencer(多个生产者)中,AbstractSequencer中的cursor用于表示已经分配的空间(即next后就会改变,而使用一个availableBuffer在publish更新,以表示生产者已经准备好Event了,但是在消费者那边是根据cursor为准来判断是否有没有消费的Event。这样的话,如果生产者在准备Event时,消费者去取Event,则由于消费者没有查看availableBuffer,就会直接将没有准备好的Event那去处理了。

 
昵称
E-MAIL - 不会公开 -
网址
 

return top

分享到:
评论

相关推荐

    Disruptor并发框架中文参考文档

    ##### 1.2 神奇的缓存行填充 现代计算机采用多级缓存来提高数据访问速度。为了避免多线程之间的伪共享(False Sharing),Disruptor采用了缓存行填充技术。这意味着在Ring Buffer的每个元素之间填充额外的未使用的...

    Disruptor:一种高性能的、在并发线程间数据交换领域用于替换有界限队列的方案

    Disruptor是一种高性能的并发数据交换框架,由Martin Thompson、Dave Farley、Michael Barker、Patricia Gee和Andrew Stewart共同开发,主要用于替代传统的有界队列。这个框架的诞生源于LMAX公司在构建高性能金融...

    Disruptor:一种高性能的、在并发线程间数据交换领域用于替换有界限队列的方案.pdf

    为了解决这个问题,他们提出了Disruptor,一个利用现代CPU硬件特性,通过减少锁竞争和优化缓存行为来提升性能的数据结构。 Disruptor的核心理念是通过消除写入争用和优化改变的可见性,从而减少互斥性管理的需求。...

    disruptor:Disruptor BlockingQueue

    2017 Conversant Disruptor - 仍然是世界上最快的入门运行 maven build 来构建和使用包。 $ mvn -U clean package Conversant Disruptor 在 Maven Central 上对于 Java 9 及更高版本: &lt;dependency&gt; &lt;groupId&gt;...

    串行io disruptor

    深入研究和对计算机科学的理解,特别是考虑到现代CPU的工作原理——我们称之为“机械同情”(mechanical sympathy),即通过良好的设计原则来区分不同的关注点,开发团队提出了名为Disruptor的数据结构和使用模式。...

    disruptor-3.3.0-API文档-中文版.zip

    赠送jar包:disruptor-3.3.0.jar; 赠送原API文档:disruptor-3.3.0-javadoc.jar; 赠送源代码:disruptor-3.3.0-sources.jar; 赠送Maven依赖信息文件:disruptor-3.3.0.pom; 包含翻译后的API文档:disruptor-...

    disruptor-3.3.0-API文档-中英对照版.zip

    赠送jar包:disruptor-3.3.0.jar; 赠送原API文档:disruptor-3.3.0-javadoc.jar; 赠送源代码:disruptor-3.3.0-sources.jar; 赠送Maven依赖信息文件:disruptor-3.3.0.pom; 包含翻译后的API文档:disruptor-...

    LMAX disruptor jar包+Demo+Api+src源码 disruptor-3.0.1.jar

    - **Ring Buffer**:Disruptor的核心数据结构是一个环形缓冲区,它避免了锁和内存屏障带来的性能开销,通过固定大小的缓存块进行数据交换。 - **Sequencer**:负责为生产者和消费者分配唯一的序列号,确保数据的...

    spring-boot-starter-disruptor.zip

    Disruptor的核心思想是利用内存局部性原理,减少缓存失效,以及通过预先分配内存空间和避免锁竞争,提高多线程环境下的数据交换速度。 Spring Boot Starter Disruptor启动器为开发者提供了一种简洁的方式来引入...

    tiny_disruptor:简化的[disruptor](https

    《tiny_disruptor:简化的Disruptor实践》 Disruptor是由LMAX公司开发的一款高性能、低延迟的并发框架,最初是用Java语言编写的。这个框架在处理高并发场景下,通过优化数据同步方式,实现了惊人的性能提升。而...

    Disruptor报错FatalExceptionHandler的解决办法,看网上这种解决办法挺少,整理了一下

    在使用Disruptor过程中,开发者可能会遇到`FatalExceptionHandler`的错误,这通常是由于处理流程中的异常没有被正确处理,导致Disruptor内部的默认异常处理器介入。下面将详细解析这个问题,并提供解决方案。 首先...

    Java工具:高性能并发工具Disruptor简单使用

    Disruptor,由LMAX公司开源的一款并发框架,为处理高并发场景提供了一种新颖且高效的解决方案。它通过消除锁和线程间通信的开销,实现了微秒级的延迟和极高的吞吐量,尤其适用于金融交易、实时分析等对性能有苛刻...

    DisruptorDemo.zip

    "DisruptorDemo.zip"的实例代码为我们提供了学习和理解Disruptor的一个良好起点,通过实际操作,我们可以更直观地感受Disruptor的强大性能。在实际项目中,尤其是对于需要处理大量并发请求的系统,Disruptor是一个...

    Disruptor应用实例

    Disruptor会自动管理事件的传递顺序,确保每个事件处理器只处理已发布的事件。 4. 处理器协作:Disruptor的等待策略(WaitStrategy)可以灵活调整,如使用忙等、多路复用或者阻塞等待,以适应不同的系统需求和资源...

    disruptor-3.3.7-API文档-中文版.zip

    赠送jar包:disruptor-3.3.7.jar; 赠送原API文档:disruptor-3.3.7-javadoc.jar; 赠送源代码:disruptor-3.3.7-sources.jar; 赠送Maven依赖信息文件:disruptor-3.3.7.pom; 包含翻译后的API文档:disruptor-...

    SourceAnalysis_Disruptor:Disruptor原始码解析-源码解析

    《Disruptor原始码解析-源码解析》 Disruptor是英国LMAX公司开发的一款高性能、低延迟的并发框架,它在处理高并发场景时展现出卓越的性能,被誉为金融交易领域的“神器”。本篇文章将深入探讨Disruptor的设计原理,...

    disruptor 多个消费者

    4. **工作窃取算法**:在Disruptor中,如果一个消费者处理得更快,它可以“窃取”其他消费者未处理的事件,前提是这些事件尚未被其他消费者处理。这种设计提高了处理器利用率,防止了资源浪费。 5. **中断与唤醒...

    disruptor-3.3.7-API文档-中英对照版.zip

    赠送jar包:disruptor-3.3.7.jar 赠送原API文档:disruptor-3.3.7-javadoc.jar 赠送源代码:disruptor-3.3.7-sources.jar 包含翻译后的API文档:disruptor-3.3.7-javadoc-API文档-中文(简体)-英语-对照版.zip ...

    Netty 使用Disruptor机制的处理源代码

    2. **消除缓存失效**:由于所有生产者和消费者共享同一个内存区域,所以缓存局部性得到优化,减少了缓存失效的开销。 3. **预定义的序列号**:Disruptor 提供全局唯一的序列号,确保消息的正确顺序。 在 Netty 中,...

Global site tag (gtag.js) - Google Analytics