`
javayestome
  • 浏览: 1050784 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

积极准备、谨慎行动——应对多核编程革命

阅读更多

本文发表于《程序员》杂志2007年4月刊,版权所有,如蒙转载,敬请保留作者等版权信息,违者必究!

本文发表于恋花蝶的博客(http://blog.csdn.net/lanphaday)

积极准备、谨慎行动

——应对多核编程革命

广州网易 赖勇浩

多核革命

2001年,IBM推出了基于双核的Power4处理器;随后SunHP都先后推出了基于双核架构的UltraSPARC IV以及PA-RISC8800处理器。但这些面向高端应用的RISC处理器曲高和寡,并没有能够引起广大群众的关注。直到2005年第二季度,Intel发布了基于X86的桌面双核处理器,从此多核才走进平常百姓家。

在今天多核处理器已占据了越来越多的市场份额,作为一线的编程人员,我们必须直面多核革命带来的冲击。多核编程,既是机遇也是挑战,如何在这个行业大变革中把握方向、与时俱进,成为摆在我们面前的迫切课题。因为从单核到多核并不像处理器时钟频率的提升那样对程序员而言是透明的,如果我们的编写的程序没有针对多核的特点来设计,那就不能完全获得多核带来的性能提升。在这个新旧交替的战国时代,我们有什么选择、能否借鉴以前的开发经验?

是的,人类最为伟大的技能就是能够借鉴之前的经验。我们应该借鉴前人的经验,积极学习并行编程技能同时在实际工作中小心求证、谨慎行动。多核,特别是双核,与双路SMP(对称多处理器)架构非常相似:

<shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"></path><lock v:ext="edit" aspectratio="t"></lock></shapetype><shape id="_x0000_i1025" style="WIDTH: 388.5pt; HEIGHT: 233.25pt; mso-wrap-style: square; mso-position-horizontal-relative: page; mso-position-vertical-relative: page" type="#_x0000_t75"><imagedata src="file:///C:%5CDOCUME~1%5CLai%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.png" o:title="图1" embosscolor="#000002"></imagedata><lock v:ext="edit" aspectratio="f"></lock></shape>

1 IntelAMD的双核CPU结构示意图

1可以看到尽管IntelAMD的双核技术有所不同,但仍然可以发现所谓双核处理器就是将两个运算核心集成在一个处理器上。这跟在一块主板上集成两颗处理器的双路SMP系统相当相似,不同之处仅在于双核系统两个计算核心之间相互交换数据并不需要通过前端系统总线(FSB),而双路系统的两个处理器是通过FSB来交换数据的,这也是我们编写程序时需要注意的一个小细节。

就像针对SMP编程一样,针对多核处理器编程也必须使用多线程或者多进程的形式来编写应用程序才能够得到多核带来的性能提升。可见我们在SMP并行编程上积累的经验大多都可以应用到多核编程上来。

编程的变革

多核时代的到来,给我们的编程思维带来了巨大的冲击。为了能够充分地利用多核性能,我们必须学会以分块的思维设计程序、以多进程或多线程的形式来编写程序。到底应该使用多进程还是多线程的形式来编写程序是最让程序员感到困惑的问题之一,我觉得需要根据具体的应用来决定;但通常情况下使用多线程进行多核编程比使用多进程有更大的优势:

A) 线程的创建和切换开销比进程更小。

B) 线程间通信的方式多而且简单也更有效率。

C) 多线程有汗牛充栋的基础库支持。

D) 多线程的程序比多进程的程序更容易理解和修改。

除了编程形式,我们使用多线程编程的动机也发生了改变。在以往,对于Windows程序员来说,使用多线程的主要原因之一是为了提高用户体验:如在长时间的计算中提高UII/O或者网络的响应速度。而在多核时代我们编写应用程序为了充分利用多个计算核心,缩短计算时间或者在相同的时间段内计算更多任务。如在游戏编程时通过多线程的方式把碰撞检测的计算分散到多个CPU内核可以大大缩减计算时间;也可以利用多核做更细致的检测计算,从而能够模拟更加真实的碰撞。

在多核时代,我们对编程语言的选择也要更加谨慎。这一小节的内容虽然是个人见解但的确值得系统开发、游戏开发甚至Web开发程序员一起探讨。无论开发何种项目,相对于C/C++/Fortran等编译型语言,C#/java/Python等脚本语言也许是更好的选择。原因在于脚本语言比较高级,一般都提供了对多线程的原生支持;如C#System.Threading.Threadjavajava.lang.ThreadPythonThreading.Thread。相形之下,编译型语言往往都是通过平台相关的库来提供多线程支持,如Win32 SDKPOSIX threads等。没有统一的标准,造成使用C/C++编写多线程程序需要考虑更多的细节,提高了项目成本。从现在来看,C/C++的用户虽然不少,但在多核时代脚本语言会更受欢迎,因为船小好调头啊,脚本语言一般都没有ISO标准,说改就可以改,很快就会出现针对多核的解释器和编译器了。不过PHP/Ruby/Lua等脚本语言就会比较难得到多核程序员们的宠爱了——因为它们并没有提供内核级线程支持,它们的多线程是用户级的甚至不支持线程,用它们编写的多线程程序仍然无法完全利用多核优势。

1 各种语言对多线程支持的比较

C/C++等编译型语言

C#/java/Python等脚本

PHP/Ruby/Lua等脚本

语言支持多线程

库支持多线程

支持内核级线程

支持用户级线程

可模拟

可模拟

线程编程复杂度

一般/

N/A

推荐度

★★★☆

★★★★

★☆

虽然C/C++在多线程编程方面因为没有从语言级提供支持而失去了部分优势;但因为当前的主流操作系统都以C语言接口的方式提供创建线程的API,而C/C++又有相当丰富的程序库,也就一定程度上弥补了语言上的不足。使用C/C++编写多线程程序不仅可以使用Win32 SDK,还可以使用POSIX threadsMFCboost.thread等。虽然这些库都提供了一定程度的封装,减轻了程序员进行多线程负担,但对于目标定位于提升计算密集型程序的性能的多核程序员来说,这些方式仍然太为复杂。因为使用这些库几乎要增加一倍的关键代码,相应地调试和测试的成本也大大增加。更好的选择应该是使用OpenMP这种通过编译器加强来支持多线程的基础库。OpenMP通过使用#pragma编译器指令来指定并行代码段,对程序的改动相当少;而且可以指定编译为串行版本以方便调试,更可以和不支持OpenMP的编译器共存。

可见即便脚本语言在语言层次上提供了对多线程编程的原生支持,但却并没有比C/C++领先多远。根本原因在于脚本语言的基础——数据结构与算法的基础库CRT/STLC/C++基础库然一样是以串行形式来设计开发的。针对多核编程去修改基础库这一几乎所有编程语言都需要面对的燃眉之急是拉开两大阵营领先优势的生死之战,而所有权集中于某一公司或者组织的C#/java/Python这类脚本语言船小好调头,估计将赢得这场关键之役。这就是我在上文推荐选择使用脚本来编写程序的原因之一。

多核程序设计

随着时间推进,我们终将需要面对多核系统来设计程序。多核编程我个人认为基本上等同于共享内存的并行编程,多核程序设计可以借鉴以往并行编程的经验——如分块的设计思维、并行设计方法论和多样的并行支持方式。

首先我们来谈谈分块的设计思维。因为线程是操作系统分配CPU资源的最小单位,所以如果想要设计多核并行的程序,那么我们就要形成将程序分块的设计思维。还记得初中课本上<personname w:st="on" productid="华罗庚">华罗庚</personname>先生的《统筹方法》吗?现在我们可以借助华老的这篇文章来谈谈怎么样去分块:

比如,想泡壶茶喝。当时的情况是:开水没有;水壶要洗,茶壶茶杯要洗;火生了,茶叶也有了。怎么办?

办法甲:洗好水壶,灌上凉水,放在火上;在等待水开的时间里,洗茶壶、洗茶杯、拿茶叶;等水开了,泡茶喝。

办法乙:先做好一些准备工作,洗水壶,洗茶壶茶杯,拿茶叶;一切就绪,灌水烧水;坐待水开了泡茶喝。

办法丙:洗净水壶,灌上凉水,放在火上,坐待水开;水开了之后,急急忙忙找茶叶,洗茶壶茶杯,泡茶喝。

哪一种办法省时间?我们能一眼看出第一种办法好,后两种办法都窝了工。

假定华老有两个机器人给他泡茶喝,那最好的方法显然是按照“办法甲”分工:机器人A去烧水,机器人B洗茶具;等水开了,泡茶喝。看,不经意间,我们就应用了分块的思维——把不相关的事务分开给不同的处理器执行。再举个我们工作中经常遇到的例子:有数据类型为T的序列A,求序列中值与K相等的元素个数。实现这个功能的C++函数如下:

代码 1 统计序列中值为K的元素个数

template <class T>

size_t Count(const T& K, const T* pA, int num)

{

size_t cnt = 0;

for(int i = 0; i < num; ++i)

if(pA[i] == K) ++cnt;

return cnt;

}

代码 1 统计序列中值为K的元素个数中显而易见Count(k, p, n) = Count(k, p, n/2) + Count(k, p+n/2, n-n/2),即序列中值等于K的元素个数为前半段中值为K的元素个数加上后半段中值等于K的元素个数。如果我们开启两条线程,一条统计前半段(执行Count(k, p, n/2)),另一条统计后半段(执行Count(k, p+n/2, n-n/2)),那么在双核系统上我们将可以节省一半的运行时间(忽略生成线程的开销等)。

以上分块的思维都是简单直接的,如果是复杂的任务,就不可能容易地找出分块的方案了,所以需要并行设计的方法论来指导我们。经过几十年的并行程序研究,前人已经总结出若干行之有效的并行设计方法,在这里介绍一个经典的方法:数据相关图。仍然以《统筹方法》中经典的泡茶为例,我们可以画出以下数据相关图:

<stroke endarrow="block"><font size="3"></font></stroke><stroke endarrow="block"><font size="3"></font></stroke><stroke dashstyle="dashDot"><font size="3"></font></stroke><stroke dashstyle="dash"><font size="3"></font></stroke><wrap type="none"></wrap><anchorlock></anchorlock>

2 《统筹方法》中办法甲的数据相关图

2 《统筹方法》中办法甲的数据相关图中可以看出数据相关图是一个有向图,其中每个顶点代表一个要完成的任务;箭头表示箭头指向的任务依赖于引出箭头的任务,如果数据相关图中没有从一个任务到另一个任务的路径,那么这两个任务不相关,可以并行处理。如果华老自己动手泡茶喝,那 2 《统筹方法》中办法甲的数据相关图中红色虚框的部分是可以并行的;而如果华老有两个机器人帮他泡茶,而且有不少于2个水龙头供机器人使用,那绿色虚框的部分都可以并行而且能取得更高的效率。可见能够合理利用的资源越多,并行的加速比率就越高

在数据相关图中,如果有不相关的任务对数据集的不同元素进行相同的操作,我们称这种数据相关表现了数据并行性。如在科学计算中经常会对某一N维向量乘以一个实数值:

for( int i = 0; i < N; ++i)

v[i] *= r;

如果有N个处理器,那么这N次带有数据并行性的迭代可以同时执行。除了数据并行性,如果有不相关的任务对数据集的不同元素进行不同的操作,则表现了功能并行性。还有形状为简单路径或链的数据相关图意味着在处理单个问题上不存在并行性,但如果需要处理多个问题,且每个问题可以分为几个阶段,那么就能支持与阶段数相同的并行性,这种情况称之为流水线。关于功能并行性和流水线,由于篇幅关系,这里不能详述,有兴趣的读者可以查阅并行编程相关书籍。

既有了分块的思维,又有并行程序设计的方法论作为指引,现在我们就缺怎么去开发并行程序了。当前比较流行的思想有以下三种:

一、扩展编译器。开发并行化编译器,使其能够发现和表达现有串行语言程序中的并行性,例如Intel C++ Compiler就有自动并行循环和向量化数据操作的功能。这种把并行化的工作留给编译器的方法虽然降低了编写并行程序的成本,但因为循环和分枝等控制语句的复杂组合,编译器不能识别相当多的可并行代码而错误地编译成了串行版本。

二、扩展串行编程语言。这是当前最为流行的方式,通过增加函数调用或者编译指令来表示低层语言以获取并行程序。用户能够创建和结束并行进程或线程,并提供同步与通信的功能函数等。这方面较为杰出的库有MPIOpenMP等;在解释型脚本阵营,ParallelPython也吸引了不少粉丝。

三、创造一个并行语言。虽然这是一个疯狂的想法,但事实上近几十年来一直有人在做这样的事情,如HPFHigh Performance Fortran)是Fortran90的扩展,用多种方式支持数据并行程序。

在以后的多核编程之旅中,我们将会发现上面所述只是沧海一粟,并行计算领域有着更多的知识值得我们学习,也有更广阔的空间给我们实现自己的想法。

新瓶旧酒

虽然多核CPU正在成为主流,但毕竟时间不长,现在大部分应用程序都是在单核时代开发的,那么这些旧程序如何才能在新的环境焕发自己新的光彩?在这里我给出自己的几点见解:

1) 精确地评估旧程序是否需要作出修改。FoxmailWindows优化大师之类的桌面软件原本就只占用极少的CPU资源,那么就不需要针对多核改写。而作为网站服务器端运行的CGI程序基本上都是以多进程或多线程的方式来响应请求的,将可以平滑地充分利用多核系统的性能优势,一般而言也不需要针对多核改写。

2) 就重避轻。一个应用程序,性能瓶颈通常都只有几个或者一两个甚至这些瓶颈相关的功能还是用户很少使用的。那么为了这些少量需求而对已有程序进行伤筯动骨的改造是不合适的,更不宜以多线程的架构重写整个应用。如果应用程序是使用C/C++/Fortran编写的,那使用OpenMP使性能瓶颈部分的代码并行化是相当好的选择。如果代码是使用C#/java/Python等脚本编写的,可能需要多花一些功夫来完成同样的工作。

3) 不追逐潮流。一句话,如果旧的应用程序没有性能瓶颈,那就不要作任何改动,否则只会引火烧身。像暴风影音、千千静听这一类多媒体播放软件,针对多核优化是可做可不做的事情;但如果做了,用户可能反而会觉得太占用资源,因为换了双核系统还觉得播放视频/音频的时候做其它事情仍然有点“卡”,那就不如不做。

综上所述,如果我们手上维护着旧的程序,那我们最应该做的事情是评估软件是否有性能瓶颈,切忌为双核而双核,要以不变应万变。

写在最后

多核时代的到来,必定会给编程带来巨大的变化,对此我有几个建议:

一、 并行计算方面已经有相当多的研究人员作了几十年的基础工作,有相当多可以学习和利用的知识。我们应该学复杂的、用简单的,复杂如MPI也要去了解了解,但应用的时候就越简单越好,如上文代码 1 统计序列中值为K的元素个数的函数比较好的并行方案是使用OpenMP

代码 2 使用OpenMP并行

// 上略

size_t cnt = 0;

#pragma omp parallel for reduciotn(+:cnt)

for(int i = 0; i < num; ++i)

// 下略

简单地增加了一行源码就实现了并行,不仅比使用Win32 SDK/PThreads创建线程的代码少得多而且更容易维护。

二、 如非必要,不要并行。一直以来,我们都是接受串行编程的教育,而且大多数程序员都习惯于编写串行程序。即使我们对并行编程进行了学习,实践的时候仍然难免会引起一堆让人手忙脚乱的麻烦。所以现阶段在实际项目中如非必要,不要并行;比较适宜的方式是先在非核心业务中熟悉并行编程,然后再在有必要性的部分工作中实操。

三、 并行可以作为最后的优化手段。知道在什么时候使用并行跟知道如何编写并行代码一样重要。如果你竭尽全力优化之后程序仍然不能让你的老板、客户满意,那你可以试试将性能瓶颈部分并行化,作为优化的最后选择。

参考资料

书籍类:

·Micheal J. Quinn著,陈文光 等译 MPIOpenMP并行程序设计C语言版》 清华大学出版社 200410

·David R. Butenhof 著,于磊 等译 POSIX多线程程序设计》 中国电力出版社 20034

·Jim Beveridge等著,侯捷 Win32多线程程序设计》 华中科技大学出版社 20021

互联网资料类:

·《统筹方法》http://hi.baidu.com/civay/blog/item/0bbcb016464e4351f2de3239.html

·《从奔腾D到安腾2 英特尔双核处理器历史》http://bbs.cfan.com.cn/thread-388811-1-39.html

·《什么是双核处理器》http://bbs.zol.com.cn/index20060307/index_17_242321.html

作者简介

赖勇浩,男,现供职于网易广州。平时较关注多核编程、GameAI和最优化计算等,对C++/Python有一定了解。业余喜欢为个人博客http://blog.csdn.net/lanphaday撰写编程心得与大家分享。可以通过Email:lanphaday@126.com和我联系。

分享到:
评论

相关推荐

    嵌入式系统-第7章-嵌入式与多核-2012

    ### 嵌入式系统与多核技术 ...综上所述,从单核到多核的转变不仅是处理器设计领域的一次革命,更是推动整个计算机行业发展的重要里程碑。随着技术的不断演进,未来多核处理器将在更多应用场景中发挥重要作用。

    [高清]C#并发编程经典实例-源码.rar

    本资源——"[高清]C#并发编程经典实例-源码.rar",提供了关于C#并发编程的实践示例,对于学习和理解这一主题具有极大的价值。 首先,我们来深入理解并发编程的概念。并发编程允许一个程序中的多个任务或操作同时...

    基于事件驱动的新型处理器的研究与应用.pdf

    《基于事件驱动的新型处理器的研究与应用》这篇文章探讨了一种新兴的处理器——事件驱动多核处理器,该处理器针对现代电子设计的需求,如低成本、高效率和高灵活性,提供了全新的解决方案。文章作者韩琳和潘登分别...

    未来科技第46期:人工智能与深度学习;革命的起点.docx

    ### 未来科技第46期:人工智能与深度学习——革命的起点 在当前技术发展浪潮中,人工智能(AI)与深度学习(Deep Learning, DL)无疑是两大核心领域,它们正引领着新一轮计算范式的转变。根据《未来科技第46期:...

    EDA/PLD中的新款高性能硬件仿真器——Wind River ICE 2(风河)

    Wind River ICE 2是一款革命性的硬件仿真器,它的推出不仅提升了调试效率,还应对了多核系统开发的挑战,提供了强大的硬件/软件交互可视化和多内核调试能力。结合Wind River Trace 2模块,它为嵌入式系统开发带来了...

    透过专利看微处理器的技术发展(一)——早期微处理器的发展历程.pdf

    MCU,即微控制器单元,是将计算机系统的所有主要组件,包括CPU、内存和输入/输出接口等,集成在同一块芯片上,形成了一个独立的、可编程的控制单元。这种设计大大简化了系统的复杂性,使得微处理器能够广泛应用于...

    一种自主设计的面向E级高性能计算的异构融合加速器.docx

    随着技术的发展,E级高性能计算(Exascale HPC)——即每秒能够执行百亿亿次浮点运算的系统——已成为全球科技竞争的新焦点。这种计算能力的提升对于科研和工业应用具有革命性的影响。 【E级超算加速器】 E级超算...

    4大观点辩CPUGPU谁是胜利者

    在英特尔IDF大会上,帕特·基辛格提出,可编程的显示计算通用架构芯片(如Larrabee)将引领一场革命,可能导致传统显卡产业的消亡。他强调,新一代可编程架构将提供更高效能,特别是对于高清晰度的实时渲染和复杂的...

    基于LabVIEW的网络化技术研究.docx

    它利用计算机系统的强大功能结合相应的硬件,有效地突破了传统仪器在数据处理、数据显示、数据传送、数据存储等方面的限制,在仪器仪表领域带来了革命性的变革。虚拟仪器以通用计算机为核心硬件平台,用户可以根据...

    为什么需要并行程序_Standing.pdf

    ### 为什么需要并行程序——理解CUDA及其重要性 #### 一、CUDA简介与重要性 **CUDA**,即**Compute Unified Device Architecture**(计算统一设备架构),是一种由NVIDIA公司开发的技术,允许开发者利用图形处理器...

    VC_6_0多线程技术在端口扫描程序中的应用

    总之,VC_6_0多线程技术为端口扫描程序提供了强大的工具集,使其能够在多核处理器环境下高效运行,为网络安全领域带来了革命性的变化。通过深入研究和实践,开发者可以充分利用这一技术,开发出既高效又稳定的网络...

    C#入门经典初学者使用

    #### 1.1 Microsoft.NET —— 一场新的革命 Microsoft .NET不仅仅是一个编程平台,它代表了软件开发领域的一次重大变革。通过.NET,开发者可以创建跨平台的应用程序,实现不同系统之间的无缝通信,极大地提升了软件...

    Visual Studio 2008开发新特性系列课程VS2008新特性之LINQ入门

    LINQ是.NET Framework 3.5的核心组成部分,它为C#和Visual Basic等编程语言带来了革命性的数据查询能力,极大地简化了数据访问和处理的过程。 一、什么是LINQ LINQ(Language Integrated Query,语言集成查询)是...

    计算机系统结构的发展历史.pdf

    随着时间的推移,计算机系统结构也在继续演变,例如多核处理器、云计算、虚拟化技术的兴起等,不断推动着计算机系统性能的提升和应用范围的扩大。 总之,计算机系统结构的发展历史是一段丰富的技术进步史,涉及硬件...

    flux:JDK8 流库

    在Java世界中,JDK 8的发布引入了一个革命性的特性——流(Stream),它极大地改变了我们处理集合数据的方式。Flux库,正如其名称所示,是针对JDK 8流的一个扩展工具集,旨在提供更强大、更灵活的数据处理功能。这个...

    Communications of ACM

    ### XML Fever:Web科学中的数据交换革命 #### XML与Web科学的关系 XML(Extensible Markup Language,可扩展标记语言)是一种用于标记数据的语言,它在Web科学领域内扮演着极其重要的角色。Web科学是一个跨学科的...

    Microprocessor:微处理器教程系列

    在“微处理器教程系列”中,我们将深入探讨这个关键组件的各个方面,包括其工作原理、架构、指令集以及与之相关的编程语言——汇编语言。 一、微处理器概述 微处理器是一个集成电路,它包含了一个计算机的中央处理...

    GameChanger

    《GameChanger——C#编程在游戏开发中的革命性突破》 在当今的数字娱乐领域,游戏开发无疑是最具创新力和技术挑战性的行业之一。"GameChanger"这个标题暗示了我们将探讨一种能够显著改变游戏制作流程和用户体验的...

Global site tag (gtag.js) - Google Analytics