tomyz0223

浏览: 530883 次
性别:
来自: 杭州

最近访客更多访客>>

yuanyuan7891

yanjie_1206

AI-9527

linchers

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

从JVM并发看CPU内存指令重排序(Memory Reordering)

博客分类：

多线程与并发编程

JVM Cache 多线程数据结构

我们都知道，现在的计算机， cpu 在计算的时候，并不总是从内存读取数据，它的数据读取顺序优先级是：寄存器－高速缓存－内 存。线程耗费的是 CPU ，线程计算的时候，原始的数据来自内存，在计算过程中，有些数据可能被频繁读取，这些数据被存储在寄存器和高速缓存中，当线程计算 完后，这些缓存的数据在适当的时候应该写回内存。当个多个线程同时读写某个内存数据时，就会产生多线程并发问题，涉及到三个特性：原子性，有序性，可见性。

本文转自：http://kenwublog.com/illustrate-memory-reordering-in-cpu

这两天，笔者拜读了 Dennis Byrne 写的一片博文 Memory Barriers and JVM Concurrency ( 中译文内存屏障与 JVM 并发 ) 。

文中提到 :

对主存的一次访问一般花费硬件的数百次时钟周期。处理器通过缓存（ caching ）能够从数量级上降低内存延迟的成本这些缓存为了性能重新排列待定内存操作的顺序。也就是说，程序的读写操作不一定会按照它要求处理器的顺序执行。

这段话是作者对内存屏障重要性的定义。通过 cache 降低内存延迟，这句话很好理解。但后面那句 “ 为了性能重排序内存操作顺序 ” ，让没学好微机原理的我倍感疑惑。

CPU 为何要重排序内存访问指令？在哪种场景下会触发重排序？作者在文中并未提及。

为了解答疑问，我在网上查阅了一些资料，在这里跟大家分享一下。

1. 重排序的背景

我们知道现代 CPU 的主频越来越高，与 cache 的交互次数也越来越多。当 CPU 的计算速度远远超过访问 cache 时，会产生 cache wait ，过多的 cache wait 就会造成性能瓶颈。
针对这种情况，多数架构（包括 X86 ）采用了一种将 cache 分片的解决方案，即将一块 cache 划分成互不关联地多个 slots ( 逻辑存储单元，又名 Memory Bank 或 Cache Bank) ， CPU 可以自行选择在多个 idle bank 中进行存取。这种 SMP 的设计，显著提高了 CPU 的并行处理能力，也回避了 cache 访问瓶颈。

Memory Bank 的划分
一般 Memory bank 是按 cache address 来划分的。比如偶数 adress 0×12345000 分到 bank 0, 奇数 address 0×12345100 分到 bank1 。

重排序的种类
编译期重排。编译源代码时，编译器依据对上下文的分析，对指令进行重排序，以之更适合于 CPU 的并行执行。

运行期重排， CPU 在执行过程中，动态分析依赖部件的效能，对指令做重排序优化。

2. 实例讲解指令重排序原理

为了方便理解，我们先来看一张 CPU 内部结构图 :

从图中可以看到，这是一台配备双CPU 的计算机，cache 按地址被分成了两块 cache banks ，分别是 cache bank0 和 cache bank1 。

理想的内存访问指令顺序：
1 ，CPU0 往 cache address 0×12345000 写入一个数字 1 。因为address 0×12345000 是偶数，所以值被写入 bank0.
2 ，CPU1 读取 bank0 address 0×12345000 的值，即数字1 。
3 ，CPU0 往 cache 地址 0×12345100 写入一个数字 2 。因为address 0×12345100 是奇数，所以值被写入 bank1.
4 ，CPU1 读取 bank1 address 0×12345100 的值，即数字2 。

重排序后的内存访问指令顺序：
1 ，CPU0 准备往 bank0 address 0×12345000 写入数字 1 。
2 ，CPU0 检查 bank0 的可用性。发现 bank0 处于 busy 状态。
3 ， CPU0 为了防止 cache 等待，发挥最大效能，将内存访问指令重排序。即先执行后面的 bank1 address 0×12345100 数字2 的写入请求。
4 ，CPU0 检查 bank1 可用性，发现bank1 处于 idle 状态。
5 ，CPU0 将数字2 写入 bank 1 address 0×12345100 。
6 ，CPU1 来读取 0×12345000 ，未读到数字1 ，出错。
7 ， CPU0 继续检查 bank0 的可用性，发现这次 bank0 可用了，然后将数字1 写入 0×12345000 。
8 ， CPU1 读取 0×12345100 ，读到数字2 ，正确。

从上述触发步骤中，可以看到第 3 步发生了指令重排序，并导致第 6 步读到错误的数据。

通过对指令重排，CPU 可以获得更快地响应速度， 但也给编写并发程序的程序员带来了诸多挑战。
内存屏障是用来防止CPU 出现指令重排序的利器之一。
通过这个实例，不知道你对指令重排理解了没有？

3. 不同架构下的指令重排优化

从图中，可以看到，X86 仅在 Stores after loads 和 Incoherent instruction cache pipeline 中会触发重排。

Stores after loads 的含义是在对同一个地址进行读写操作时，写入在读取后面，允许重排序。即满足弱一致性(Weak Consistency) ，这是最可被接受的类型，不会造成太大的影响。

Incoherent instruction cache pipeline 是跟JIT 相关的类型，作用是在执行 self-modifying code 时预防JIT 没有flush 指令缓存。我不知道该类型跟指令排序有什么关系，既然不在本文涉及范围内，就不做深入探讨了。

转载请注明原文链接：http://kenwublog.com/illustrate-memory-reordering-in-cpu

参考资料

http://kenwublog.com/docs/memory.barrier.ppt
http://kenwublog.com/docs/memory.model.instruction.reordering.and.store.atomicity.pdf
http://kenwublog.com/docs/memory.ordering.in.modern.microprocessor.pdf
http://en.wikipedia.org/wiki/Memory_ordering
http://en.wikipedia.org/wiki/Memory_Bank

查看图片附件

分享到：

Java 并发编程基础-共享对象 | Java并发编程基础

2011-04-18 16:17
浏览 1500
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

JVM内存模型-重排序&内存屏障 1: 在这个模型中，内存屏障（Memory Barrier）和重排序（Reordering）是两个关键概念，它们对并发编程的正确性和性能有着重要影响。 **重排序** 重排序是指编译器和处理器为了优化程序性能，可能会改变程序执行顺序的...

什么是Java内存模型.docx: 5. **重排序（Reordering）**：为了优化性能，编译器和处理器可能会对指令进行重排序，但JMM规定了一些限制，以保证在特定条件下重排序不会破坏程序的正确性。在多线程环境下，JMM通过内存屏障（Memory Barrier）...

java必读书籍: - **重排序（Reordering）：** 编译器和处理器可能会为了提高效率而改变执行顺序。 - **顺序一致性：** 确保指令按程序顺序执行。 - **Volatile：** 保证了可见性和有序性。 - **锁：** 实现线程同步，防止数据...

SNS单模无芯光纤仿真与传感器结构特性分析——基于Rsoft beamprop模块: 内容概要：本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性，利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况，进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真，包括损耗、色散和模式耦合等参数的评估。随后，文章分析了光纤的结构特性，如折射率分布、包层和纤芯直径对性能的影响，并探讨了镀膜技术对光纤性能的提升作用。最后，进行了变形仿真分析，研究外部因素导致的光纤变形对其性能的影响。通过这些分析，为优化光纤设计提供了理论依据。适合人群：从事光纤通信、光学工程及相关领域的研究人员和技术人员。使用场景及目标：适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目，旨在提高光纤性能并拓展其应用场景。其他说明：本文不仅提供了详细的仿真方法和技术细节，还对未来的发展方向进行了展望，强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。

发那科USM通讯程序socket-rece: 发那科USM通讯程序socket-set

嵌入式八股文面试题库资料知识宝典-WIFI.zip: 嵌入式八股文面试题库资料知识宝典-WIFI.zip

JS+HTML源码与image: 源码与image

物流行业车辆路径优化：基于遗传算法和其他优化算法的MATLAB实现及应用: 内容概要：本文详细探讨了物流行业中路径规划与车辆路径优化（VRP）的问题，特别是针对冷链物流、带时间窗的车辆路径优化（VRPTW）、考虑充电桩的车辆路径优化（EVRP）以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景，还提供了完整的MATLAB代码及注释，帮助读者理解这些算法的具体实现。此外，文章还讨论了如何通过MATLAB处理大量数据和复杂计算，以得出最优的路径方案。适合人群：从事物流行业的研究人员和技术人员，尤其是对路径优化感兴趣的开发者和工程师。使用场景及目标：适用于需要优化车辆路径的企业和个人，旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码，读者可以在实际工作中应用这些优化方法，提升物流系统的性能。其他说明：为了更好地理解和应用这些算法，建议读者参考相关文献和教程进行深入学习。同时，实际应用中还需根据具体情况进行参数调整和优化。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

基于灰狼优化算法的城市路径规划Matlab实现——解决TSP问题: 内容概要：本文介绍了基于灰狼优化算法（GWO）的城市路径规划优化问题（TSP），并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理，包括寻找猎物、围捕猎物和攻击猎物三个阶段，并提供了具体的代码示例。通过不断迭代优化路径，最终得到最优的城市路径规划方案。与传统TSP求解方法相比，GWO算法具有更好的全局搜索能力和较快的收敛速度，适用于复杂的城市环境。尽管如此，算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。适合人群：对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。使用场景及目标：①研究和开发高效的路径规划算法；②优化城市交通系统，提升出行效率；③探索人工智能在交通领域的应用。其他说明：文中提到的代码可以作为学习和研究的基础，但实际应用中需要根据具体情况调整算法参数和优化策略。

嵌入式八股文面试题库资料知识宝典-Intel3.zip: 嵌入式八股文面试题库资料知识宝典-Intel3.zip

嵌入式八股文面试题库资料知识宝典-2019京东C++.zip: 嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

物理学领域十字形声子晶体的能带与传输特性研究及应用: 内容概要：本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位，特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响，并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性，即它对声波的调控能力，包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性，并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。适合人群：从事物理学、材料科学、声学等相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者，旨在为相关领域的创新和发展提供理论支持和技术指导。其他说明：文中还对未来的研究方向进行了展望，强调了声子晶体在未来多个领域的潜在应用价值。

嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_.zip: 嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_

e2b8a-main.zip: e2b8a-main.zip

少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip: 少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

【HarmonyOS分布式技术】远程启动子系统详解：跨设备无缝启动与智能协同的应用场景及未来展望: 内容概要：本文详细介绍了HarmonyOS分布式远程启动子系统，该系统作为HarmonyOS的重要组成部分，旨在打破设备间的界限，实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术，它能够快速、稳定地实现设备间的通信和数据同步，为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景，展示了其在提升效率和用户体验方面的巨大潜力。最后，文章展望了该系统的未来发展，强调其在技术优化和应用场景拓展上的无限可能性。适合人群：对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。使用场景及目标：①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节；②探索该系统在智能家居、智能办公和教育等领域的具体应用场景；③了解该系统为开发者提供的开发优势和实践要点。其他说明：本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景，还展望了其未来的发展方向。通过阅读本文，用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验，为智能生活带来新的变革。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

少儿编程scratch项目源代码文件案例素材-激光反弹.zip: 少儿编程scratch项目源代码文件案例素材-激光反弹.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

从JVM并发看CPU内存指令重排序(Memory Reordering)

1. 重排序的背景

2. 实例讲解指令重排序原理

3. 不同架构下的指令重排优化

评论

发表评论

相关推荐

死锁实例

Java存储模型

设计模式-组合模式

CompleteService介绍和使用实例

CyclicBarrier的使用实例

CopyOnWriteArrayList工作原理和实例

Semaphore的介绍和使用实例

FutureTask的使用方法和使用实例

CountDownLatch的使用实例

Java 并发编程基础-共享对象

Java并发编程基础

Java多线程基础

硬件同步原语（CAS）理论

java5中使用interrupt()来停止java线程的方法(转）

Java 中的Double Check Lock（转）

并发访问的问题解决方案

用并发包中的重入锁实现生产消费模型

ThreadLocal原理（转）

（转）Java偏向锁实现原理(Biased Locking)

生产消费模型实例

最近访客更多访客>>