- 浏览: 530883 次
- 性别:
- 来自: 杭州
-
文章分类
- 全部博客 (161)
- 多线程与并发编程 (20)
- 算法和数据结构 (8)
- 缓存 (0)
- HttpClient (2)
- 疑难杂症 (11)
- Java内存管理 (17)
- 分布式开发 (14)
- Linux常用命令 (10)
- OSGI (0)
- UML (2)
- 趣味面试题 (5)
- 设计模式 (8)
- Java类加载 (2)
- JSTL (1)
- Web 服务器 (4)
- IT人生 (3)
- Java基础 (11)
- Flash技术 (7)
- 新知识 (3)
- 常用速备速查 (4)
- 版本控制 (1)
- Java集合工具类 (6)
- web前端技术 (1)
- 趣味话题 (1)
- 安全 (0)
- 架构设计 (5)
- Spring (4)
- 负载均衡技术 (2)
- 持久层技术 (2)
- MySQL单机多实例方案 (1)
- 收藏备用 (0)
- 性能优化 (3)
最新评论
-
liuwuhen:
...
Pushlet的工作原理 -
fbwfbi:
fengchuizhuming 写道楼主的完全正确。鉴定完毕楼 ...
硬件同步原语(CAS)理论 -
passerby_whu:
uule 写道这个测试后结果为:“testPageConten ...
FutureTask的使用方法和使用实例 -
fengchuizhuming:
楼主的完全正确。鉴定完毕
硬件同步原语(CAS)理论 -
edwardjuice:
FutureTask的使用方法和使用实例
我们都知道,现在的计算机, cpu 在计算的时候,并不总是从内存读取数据,它的数据读取顺序优先级是:寄存器-高速缓存-内 存。线程耗费的是 CPU ,线程计算的时候,原始的数据来自内存,在计算过程中,有些数据可能被频繁读取,这些数据被存储在寄存器和高速缓存中,当线程计算 完后,这些缓存的数据在适当的时候应该写回内存。当个多个线程同时读写某个内存数据时,就会产生多线程并发问题,涉及到三个特性:原子性,有序性,可见性。
本文转自:http://kenwublog.com/illustrate-memory-reordering-in-cpu
这两天,笔者拜读了 Dennis Byrne 写的一片博文 Memory Barriers and JVM Concurrency ( 中译文 内存屏障与 JVM 并发 ) 。
文中提到 :
对主存的一次访问一般花费硬件的数百次时钟周期。处理器通过缓存( caching )能够从数量级上降低内存延迟的成本这些缓存为了性能重新排列待定内存操作的顺序。也就是说,程序的读写操作不一定会按照它要求处理器的顺序执行。
这段话是作者对内存屏障重要性的定义。通过 cache 降低内存延迟,这句话很好理解。但后面那句 “ 为了性能重排序内存操作顺序 ” ,让没学好微机原理的我倍感疑惑。
CPU 为何要重排序内存访问指令?在哪种场景下会触发重排序?作者在文中并未提及。
为了解答疑问,我在网上查阅了一些资料,在这里跟大家分享一下。
1. 重排序的背景
我们知道现代
CPU
的主频越来越高,与
cache
的交互次数也越来越多。当
CPU
的计算速度远远超过访问
cache
时,会产生
cache wait
,过多的
cache wait
就会造成性能瓶颈。
针对这种情况,多数架构(包括
X86
)采用了一种将
cache
分片的解决方案,即将一块
cache
划分成互不关联地多个
slots (
逻辑存储单元,又名
Memory Bank
或
Cache Bank)
,
CPU
可以自行选择在多个
idle bank
中进行存取。这种
SMP
的设计,显著提高了
CPU
的并行处理能力,也回避了
cache
访问瓶颈。
Memory
Bank
的划分
一般
Memory bank
是按
cache address
来划分的。比如
偶数
adress 0×12345000
分到
bank 0,
奇数
address 0×12345100
分到
bank1
。
重排序的种类
编译期重排。编译源代码时,编译器依据对上下文的分析,对指令进行重排序,以之更适合于
CPU
的并行执行。
运行期重排, CPU 在执行过程中,动态分析依赖部件的效能,对指令做重排序优化。
2. 实例讲解指令重排序原理
为了方便理解,我们先来看一张 CPU 内部结构图 :
从图中可以看到,这是一台配备双CPU 的计算机,cache 按地址被分成了两块 cache banks ,分别是 cache bank0 和 cache bank1 。
理想的内存访问指令顺序:
1
,CPU0
往 cache address 0×12345000
写入一个数字 1
。因为address 0×12345000
是偶数,所以值被写入 bank0.
2
,CPU1
读取 bank0 address
0×12345000
的值,即数字1
。
3
,CPU0
往 cache
地址 0×12345100
写入一个数字 2
。因为address 0×12345100
是奇数,所以值被写入 bank1.
4
,CPU1
读取 bank1 address
0×12345100
的值,即数字2
。
重排序后的内存访问指令顺序:
1
,CPU0
准备往 bank0 address 0×12345000
写入数字 1
。
2
,CPU0
检查 bank0
的可用性。发现 bank0
处于 busy
状态。
3
, CPU0
为了防止 cache
等待,发挥最大效能,将内存访问指令重排序。即先执行后面的 bank1
address 0×12345100
数字2
的写入请求。
4
,CPU0
检查 bank1
可用性,发现bank1
处于 idle
状态。
5
,CPU0
将数字2
写入 bank 1 address 0×12345100
。
6
,CPU1
来读取 0×12345000
,未读到 数字1
,出错。
7
, CPU0
继续检查 bank0
的可用性,发现这次 bank0
可用了,然后将数字1
写入 0×12345000
。
8
, CPU1
读取 0×12345100
,读到数字2
,正确。
从上述触发步骤中,可以看到第 3 步发生了指令重排序,并导致第 6 步读到错误的数据。
通过对指令重排,CPU
可以获得更快地响应速度,
但也给编写并发程序的程序员带来了诸多挑战。
内存屏障是用来防止CPU
出现指令重排序的利器之一。
通过这个实例,不知道你对指令重排理解了没有?
3. 不同架构下的指令重排优化
从图中,可以看到,X86 仅在 Stores after loads 和 Incoherent instruction cache pipeline 中会触发重排。
Stores after loads 的含义是在对同一个地址进行读写操作时,写入在读取后面,允许重排序。即满足弱一致性(Weak Consistency) ,这是最可被接受的类型,不会造成太大的影响。
Incoherent instruction cache pipeline 是跟JIT 相关的类型,作用是在执行 self-modifying code 时预防JIT 没有flush 指令缓存。我不知道该类型跟指令排序有什么关系,既然不在本文涉及范围内,就不做深入探讨了。
转载请注明原文链接:http://kenwublog.com/illustrate-memory-reordering-in-cpu
参考资料
http://kenwublog.com/docs/memory.barrier.ppt
http://kenwublog.com/docs/memory.model.instruction.reordering.and.store.atomicity.pdf
http://kenwublog.com/docs/memory.ordering.in.modern.microprocessor.pdf
http://en.wikipedia.org/wiki/Memory_ordering
http://en.wikipedia.org/wiki/Memory_Bank
发表评论
-
死锁实例
2011-05-19 14:21 1984下面这道题,是考死锁的,比较简单,想两个问题: 1.什么时候 ... -
Java存储模型
2011-05-18 13:29 01.什么是存储模型 没有适当的同步,编译器生成指令的次序,可 ... -
设计模式-组合模式
2011-05-16 15:48 1130组合模式的定义: 将对象组合成树的形式来表示整体和局部之 ... -
CompleteService介绍和使用实例
2011-05-11 17:31 4035当向Executor提交批处理任务时,并且希望在它们完成后获得 ... -
CyclicBarrier的使用实例
2011-05-11 15:45 1506CyclicBarrier允许给定数量的线程全部到达关卡点时, ... -
CopyOnWriteArrayList工作原理和实例
2011-05-05 23:43 3422CopyOnWriteArrayList顾名思义,在写入操作时 ... -
Semaphore的介绍和使用实例
2011-04-27 22:32 2831Semaphore可以用来控制能 ... -
FutureTask的使用方法和使用实例
2011-04-27 15:34 13349FutureTask是一种可以取消的异步的计算任务。它的计算是 ... -
CountDownLatch的使用实例
2011-04-26 22:20 8240CountDownLatch CountDownl ... -
Java 并发编程基础-共享对象
2011-04-19 14:48 1464Java 并发编程基础 ... -
Java并发编程基础
2011-04-15 14:55 1577Java 并发编程基 ... -
Java多线程基础
2011-04-13 15:52 4777Java 多线程基础 ... 2 ... -
硬件同步原语(CAS)理论
2010-09-24 22:13 7025在Java并发编程中,常常 ... -
java5中使用interrupt()来停止java线程的方法(转)
2010-08-18 23:24 3137在开发java多线程时,如果要停止线程这个问题很头痛吧,不过在 ... -
Java 中的Double Check Lock(转)
2010-07-27 21:13 8144对于多线程编程来说,同步问题是我们需要考虑的最多的问题,同步的 ... -
并发访问的问题解决方案
2010-07-26 18:15 2016目前正在做基于Red 5 的Meeting系统,我们会在Mee ... -
用并发包中的重入锁实现生产消费模型
2010-06-15 00:07 1450传统的生产消费模型,实际上是通过一个条件来调节生产者和消费者线 ... -
ThreadLocal原理(转)
2010-03-24 18:06 2190http://jzhua.iteye.com/blog/517 ... -
(转)Java偏向锁实现原理(Biased Locking)
2010-03-21 22:24 1382http://www.iteye.com/topic/5180 ... -
生产消费模型实例
2010-03-02 23:23 1730“生产者-消费者-仓储”模型,包含三种角色: 1.生产者 ...
相关推荐
在这个模型中,内存屏障(Memory Barrier)和重排序(Reordering)是两个关键概念,它们对并发编程的正确性和性能有着重要影响。 **重排序** 重排序是指编译器和处理器为了优化程序性能,可能会改变程序执行顺序的...
5. **重排序(Reordering)**:为了优化性能,编译器和处理器可能会对指令进行重排序,但JMM规定了一些限制,以保证在特定条件下重排序不会破坏程序的正确性。 在多线程环境下,JMM通过内存屏障(Memory Barrier)...
- **重排序(Reordering):** 编译器和处理器可能会为了提高效率而改变执行顺序。 - **顺序一致性:** 确保指令按程序顺序执行。 - **Volatile:** 保证了可见性和有序性。 - **锁:** 实现线程同步,防止数据...
内容概要:本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性,利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况,进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真,包括损耗、色散和模式耦合等参数的评估。随后,文章分析了光纤的结构特性,如折射率分布、包层和纤芯直径对性能的影响,并探讨了镀膜技术对光纤性能的提升作用。最后,进行了变形仿真分析,研究外部因素导致的光纤变形对其性能的影响。通过这些分析,为优化光纤设计提供了理论依据。 适合人群:从事光纤通信、光学工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目,旨在提高光纤性能并拓展其应用场景。 其他说明:本文不仅提供了详细的仿真方法和技术细节,还对未来的发展方向进行了展望,强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。
发那科USM通讯程序socket-set
嵌入式八股文面试题库资料知识宝典-WIFI.zip
源码与image
内容概要:本文详细探讨了物流行业中路径规划与车辆路径优化(VRP)的问题,特别是针对冷链物流、带时间窗的车辆路径优化(VRPTW)、考虑充电桩的车辆路径优化(EVRP)以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景,还提供了完整的MATLAB代码及注释,帮助读者理解这些算法的具体实现。此外,文章还讨论了如何通过MATLAB处理大量数据和复杂计算,以得出最优的路径方案。 适合人群:从事物流行业的研究人员和技术人员,尤其是对路径优化感兴趣的开发者和工程师。 使用场景及目标:适用于需要优化车辆路径的企业和个人,旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码,读者可以在实际工作中应用这些优化方法,提升物流系统的性能。 其他说明:为了更好地理解和应用这些算法,建议读者参考相关文献和教程进行深入学习。同时,实际应用中还需根据具体情况进行参数调整和优化。
嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip
内容概要:本文介绍了基于灰狼优化算法(GWO)的城市路径规划优化问题(TSP),并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理,包括寻找猎物、围捕猎物和攻击猎物三个阶段,并提供了具体的代码示例。通过不断迭代优化路径,最终得到最优的城市路径规划方案。与传统TSP求解方法相比,GWO算法具有更好的全局搜索能力和较快的收敛速度,适用于复杂的城市环境。尽管如此,算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。 适合人群:对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。 使用场景及目标:①研究和开发高效的路径规划算法;②优化城市交通系统,提升出行效率;③探索人工智能在交通领域的应用。 其他说明:文中提到的代码可以作为学习和研究的基础,但实际应用中需要根据具体情况调整算法参数和优化策略。
嵌入式八股文面试题库资料知识宝典-Intel3.zip
嵌入式八股文面试题库资料知识宝典-2019京东C++.zip
嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip
内容概要:本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位,特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响,并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性,即它对声波的调控能力,包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性,并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。 适合人群:从事物理学、材料科学、声学等相关领域的研究人员和技术人员。 使用场景及目标:适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者,旨在为相关领域的创新和发展提供理论支持和技术指导。 其他说明:文中还对未来的研究方向进行了展望,强调了声子晶体在未来多个领域的潜在应用价值。
嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_
e2b8a-main.zip
少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip
内容概要:本文详细介绍了HarmonyOS分布式远程启动子系统,该系统作为HarmonyOS的重要组成部分,旨在打破设备间的界限,实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术,它能够快速、稳定地实现设备间的通信和数据同步,为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景,展示了其在提升效率和用户体验方面的巨大潜力。最后,文章展望了该系统的未来发展,强调其在技术优化和应用场景拓展上的无限可能性。 适合人群:对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。 使用场景及目标:①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节;②探索该系统在智能家居、智能办公和教育等领域的具体应用场景;③了解该系统为开发者提供的开发优势和实践要点。 其他说明:本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景,还展望了其未来的发展方向。通过阅读本文,用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验,为智能生活带来新的变革。
嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip
少儿编程scratch项目源代码文件案例素材-激光反弹.zip