`
pcajax
  • 浏览: 2173697 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

.Net 4.0并行库实用性演练[1]

阅读更多

自VS2010发布近半年了,虽然整天想学习新东西,要更新到自己时,发现原来自己基本也很懒,2008还没用上多久呢,无奈被2010了。用了几天,IDE模样还是和05、08差不多,加了些小特性,以后慢慢体验吧,第一感觉启动速度慢多了。主要还是.Net 4.0的变化,其实也就是修修补补,语言特性几乎没什么新特性,C#多了个Dynamic,十年前VB就支持的晚绑定。只好把注意力放在了Framework上,新加的并行支持应该是最大的变化吧。

  VS2010发布会我也去过的,并行支持是一大卖点。当时记得台上一个MM对一个Linq查询语句加了个AsParallel(),性能就神奇地提高了一倍,台下掌声雷动。确实不费吹灰之力提高程序性能,是最能引起大家兴趣的。在看电子期刊时,看到冷冷同学,还有吴秦的文章,给偶这些菜鸟以震撼的启发,原来偶已经远远落在了在读大学生的后面。

  那就开始学吧,就拿Parallel开刀。先抓个垫背的:

1 static void Set(int length)
2         {
3             var array = new int[length, length, length];
4             for (int i = 0; i < length; i++)
5                 for (int j = 0; j < length; j++)
6                     for (int k = 0; k < length; k++)
7                         array[i, j, k] = System.Threading.Thread.CurrentThread.ManagedThreadId;
8         }

再请出真神:

01 static void ParallelSet(int length)
02        {
03            var array = new int[length, length, length];
04            Parallel.For(0, length, i =>
05            {
06                for (int j = 0; j < length; j++)
07                    for (int k = 0; k < length; k++)
08                        array[i, j, k] = System.Threading.Thread.CurrentThread.ManagedThreadId;
09            });
10        }

PK:

1 CodeTimer.Time("Single thread", 100, () => Set(100));
2 CodeTimer.Time("Multiple thread", 100, () => ParallelSet(100));

结果,1136ms:729ms,果然不错。不过MSDN的例子说不定是被和谐过的,所以偶总会变变试验过程。果然发现另有乾坤。

<!-- 文章title -->

.Net 4.0并行库实用性演练

<!-- 作者信息等 -->
作者: XiaoMing  发布时间: 2010-09-13 17:53  阅读: 413 次  原文链接   全屏阅读  [收藏]  
<!-- 页码和简介 -->
编辑点评:文中作者深入浅出的介绍了.Net4.0的并行编程,利用.Net 4.0的并行库实际编写了几段代码,供大家学习参考。
[1] .Net 4.0并行库实用性演练
[2] .Net 4.0并行库实用性演练
[3] .Net 4.0并行库实用性演练

前面说在练习Parallel时,发现另有乾坤,是这样的代码:

01 static IEnumerable<Person> testFill()
02 {
03     var list = new List<Person>(9);
04     Enumerable.Range(1, 99999).ToList().ForEach(n =>
05     {
06         var name = "Person" + n % 9;
07         list.Add(new Person { Id = n, Name = name });
08     });
09     Console.WriteLine("Person's count is {0}", list.Count);
10     return list;
11 }
12 static IEnumerable<Person> testFillParallel()
13 {
14     var list = new List<Person>(9);
15     Enumerable.Range(1, 99999).AsParallel().ForAll(n =>
16     {
17         var name = "Person" + n % 9;
18         list.Add(new Person { Id = n, Name = name });
19     });
20     Console.WriteLine("Person's count is {0}", list.Count);
21     return list;
22 }
23 class Person
24 {
25     internal int Id { get; set; }
26     internal string Name { get; set; }
27 }

试验结果如下(单位ms):

 次数

 1

 2

 3

 4

 Fill 方法

 37

 27

 26

 26

 FillParallel 方法

 43

 20

 19

 20

  这个结果有点奇妙的。第一次多线程居然还不如单线程快,和上文例子比较一下,有点明白了。稍微改了下代码,在Add语句前加了个Thread.Sleep(1),并把 List<Person>集合元素减为999,试了一次,结果如下(单位ms):

 次数

 1

 2

 3

 4

 Fill 方法

 1012

 998

 998

 999

 FillParallel 方法

 547

 504

 504

 504

  多个线程协同工作时,分配任务本身有开销,要是分配的开销比任务本身还大,多线程就没有意义了。就比如你交待别人做某件事,要是交待的功夫比自己做还长,还不如自己做。不过从结果也可以看出一个辩证关系,从长远打算,第一次让别人熟悉业务,付出点培训成本,执行完一次后,以后就轻松多了,速度提高了一倍。如果这里Sleep一下,模拟长一点的单次处理过程,一开始多线程的优势就会非常明显。

  FillParallel方法,大家觉得有没有其它问题呢?想必一般人都能看出,这里有最初级的线程安全问题。没看出的应该是刚学.Net各种集合的初学者,线程安全对他们还只是个太虚幻境。不过借助这个Parallel,就可以轻松神游幻境。把FillParallel方法循环一百次执行,会发现返回结果本来应该有999个元素,输出的却显示却结果经常少十几二十个。如果创建List时赋的容量不够,在List扩容时,还可能引发异常。一般是像下图这样(不过一百次都是999也不是不可能,要看你的RP了):

  应提醒一点的是,试验要在Release编译模式下运行,不然看不到线程安全问题,并行执行的效率提升得也很有限。我用的电脑都是双核,不知道在单核电脑的运行情况如何,可能有一定区别。

  接着我改下逻辑,增加了一个是否Person存在重名的判断,变成:

01 static IEnumerable<Person> testFillParallel()
02 {
03     var list = new List<Person>(9);
04     Enumerable.Range(1, 999).AsParallel().ForAll(n =>
05     {
06         var name = "Person" + n % 9;
07         if (list.Count(p => p.Name == name) < 1) list.Add(new Person { Id = n, Name = name });
08     });
09     Console.WriteLine("Person's count is {0}", list.Count);
10     return list;
11 }

  RP不管用了,执行几次,必抛异常:System.InvalidOperationException: Collection was modified; enumeration operation may no execute.

  一个线程在枚举集合元素,这时必须保证集合不被其它线程修改,怎么办呢?以前,就知道用锁,现在据说有了线程安全的集合类,在System.Collections.Concurrent命名空间下,有ConcurrentDictionary, ConcurrentQueue, ConcurrentStack,就是没有ConcurrentList。费了半天,才发现与List对应的应该是BlockingCollection。

  把集合定义换成:var list = new BlockingCollection<Person>(9); 只见刷刷刷,哪怕执行几万次都可以一路跑完了。

  不过这样做,还是会发现问题,不知大家看出了吗?

 

接着上一次说,即使用了新的线程安全的集合BlockingCollection,这段代码还是会有问题。

01 static void testFillParallel()
02 {
03     var list = new BlockingCollection<Person>(9999);
04     Enumerable.Range(1, 99999).AsParallel().ForAll(n =>
05     {
06         var name = "Person " + n % 9;
07         if (list.Count(p => p.Name == name) < 1) list.Add(new Person { Id = n, Name = name });
08     });
09     Console.WriteLine("Person's count is {0}", list.Count);
10 }

代码逻辑就是根据序号生成一个名字,并将名字不重复的人加入集合中。显然,最后集合中应该有9个人,应该很简单吧。执行一下,请看结果:

  可见,绝大多数结果都是正确,只有两次执行出现了异常,在正式系统运行中,这可是要命的两条!难道是BlockingCollection的问题吗?细想不太可能,微软怎么也不会漏过这么明显的设计问题,实际上是自己对线程安全认识不准确。集合元素之所以偶尔会多一个,是这样的情况:线程A抢先一步,占住集合判断是否存在这个人名,线程B被BlockingCollection拦在外面;A发现集合中查无此人,正想加一个,然而不知怎么回事,它没马上继续,就好像龟兔赛跑,兔子要到终点了,做了个白日梦,梦一醒自己成了老二。B趁机赶上,正好锁也解了,碰巧它查的人也没有,一鼓作气跑完全程。这时A跑了一大半,岂肯甘心,赖皮着到终点,不管三七二十一,有没有和B刚才加的重复,硬把自己塞了进去。

  这样理解,也容易解释,第一次执行出现异常结果概率很高,因为开始时线程间步调几乎完全一致,刚才故事的前半段最有可能上演。另外条件判断时间越久,异常结果出现概率越小,比如把name = "Person "+ n % 9改成name = "Person "+ n % 50,这时A就是做白日梦,B也全力追赶,无奈前面被落后太多,一千次中只有一两次结果异常。

  其实System.Collections.ConCurrent命名空间底下的类,只对多线程环境下的某次访问保证健壮性,却不能保证多线程下,作为业务对象的业务操作的准确性,实际上也无法做到。然而话说回来,我们使用这些类,是让它们在凶险的多线程战场上,为我们奋勇杀敌,而不是明哲保身的。如果业务出错了,仗都打输了,集合再线程安全亦无济于事。所以,不要让线程安全误导我们,要着眼在业务上,业务安全实现了,自然线程安全自然不在话下。

  现在要解决结果异常,自然又想到了老办法—上锁,先保证万无一失。显然,并行集合也不必上场了,还是用List。为了接近真实场景,将集合最大元素数目提高到999,这样在判断新元素是否重复是要花较多时间,取代Thread.Sleep(1),代码如下:

01 static void testFillParallel()
02 {
03     var list = new List<Person>(999);
04     var L = new object();
05     Enumerable.Range(1, 9999).AsParallel().ForAll(n =>
06     {
07         var name = "Person " + n % 999;
08         lock (L)
09         {
10             if (list.Count(p => p.Name == name) < 1) list.Add(new Person { Id = n, Name = name });
11         }
12     });
13     Console.WriteLine("Person's count is {0}", list.Count);
14 }

测试结果如下:

 次数

 1

 2

 3

 4

 Fill 方法

 304

 292

 291

 292

 FillParallel 方法

 340

 298

 296

 297

  可见,虽然运用并行方式,也保证每个迭代有一定的执行时间,虽然加锁可以保证结果正确,但大多数时候,只有一个线程能进行工作,其他线程再多也只能等待,实际上还不如单线程,也失去了并行运算的意义。

  学习.Net4.0 的并行库并非我们的目的,我们目的是解决现实的问题。解决关键,还是在锁上。锁是把双刃剑,我们要让线程占用锁时间尽可能短。在填加集合时,加锁没办法避免,但只是为遍历集合而加锁,好像是种浪费。根据三级锁协议,应该允许多个只读操作同时进行,可是实现IEnumerable的集合,都不允许在遍历访问时修改集合,既然如此,我们自己搞一个集合副本,只作判断用,如果原集合更新,副本也随之更新,不是就能解决同时遍历的问题了吗?

  试验代码:

01 static void testFill()
02 {
03     var list = new List<Person>(999);
04     var L = new object();
05     Enumerable.Range(1, 9999).ToList().ForEach(n =>
06     {
07         var name = "Person " + n % 999;
08         if (list.Count(p => p.Name == name) < 1) list.Add(new Person { Id = n, Name = name });
09     });
10     Console.WriteLine("Person's count is {0}", list.Count);
11 }
12 static void testFillParallel()
13 {
14     var list = new List<Person>(999);
15     var L = new object();
16     var resultCopy = new Person[999];
17     bool hasNewMember = false;
18     Enumerable.Range(1, 9999).AsParallel().ForAll(n =>
19     {
20         var name = "Person " + n % 999;
21         if (resultCopy.Count(p => p!=null && p.Name == name) < 1)
22         {
23             lock (L)
24             {
25                 // 如果有新成员,要再判断一遍
26                 if (hasNewMember)
27                 {
28                     if (resultCopy.Count(p => p != null && p.Name == name) > 0) return;
29                     hasNewMember = false;
30                 }
31                 list.Add(new Person { Id = n, Name = name });
32                 list.CopyTo(resultCopy);
33                 hasNewMember = true;
34             }
35         }
36     });
37     Console.WriteLine("Person's count is {0}", list.Count);
38 }

试验结果(单位ms):

 次数

 1

 2

 3

 4

 Fill 方法(和上次一样)

 309

 291

 292

 292

 FillParallel 方法

 210

 166

 165

 166

  看来,自己总算写了第一段能发挥并行运算的代码。

  当然,最后代码还有很多可改进的地方,比如list.CopyTo方法,还有发现有新成员后第二次判断,向让性能与CPU核数正比的目标努力。

  还有,那个if(...){ lock(...){ if(...){的语句,跟单例模式的一种普遍实现很像,单例模式也是多线程环境下一种设计模式,也许其中有些异曲同工之处吧。

 

 

分享到:
评论

相关推荐

    “.NET 4.0并行计算技术基础”系列文章及源代码

    本技术资源包括了我在博客上发表的“.NET 4.0并行计算技术基础”系列文章中的所有示例源码,并包含一个PDF,汇总了所有文章。 与作者互动请访问http://blog.csdn.net/bitfan/archive/2009/10/26/4728180.aspx 更多...

    .NET4.0离线安装包

    此版本引入了C# 4.0和VB.NET 10.0语言的更新,带来了动态类型、多语言互操作性(也称为“DLINQ”)和命名参数等新功能。此外,.NET Framework 4.0还包含了Windows Communication Foundation (WCF)、Windows Workflow...

    .net4.0安装文件

    8. **并行编程和Task Parallel Library (TPL)**:.NET 4.0引入了对多核处理器更充分的利用,通过TPL提供了并行编程的支持,使开发者能编写高性能的多线程应用程序。 9. **内存诊断工具**:.NET 4.0提供了诊断工具,...

    Microsoft .NET Framework 4.0运行库

    8. **并发和并行计算**:.NET Framework 4.0引入了Task Parallel Library(任务并行库),使得开发者可以更容易地利用多核处理器进行并发编程。此外,还有Parallel LINQ(PLINQ)提供并行查询的支持。 9. **垃圾...

    .NET 4.0 及兼容32位工具

    .NET 4.0框架引入了对多核处理器和并行计算的全面支持,这是在现代计算环境中一个非常关键的更新。通过Task Parallel Library(任务并行库)和PLINQ(并行LINQ),开发者可以轻松地编写出能够充分利用多核硬件的高...

    Microsoft.NET4.0.rar

    6. **ASP.NET MVC 3**:虽然压缩包中没有明确提及,但.NET 4.0的发布伴随着ASP.NET MVC 3的推出,为Web应用开发带来了更多功能和灵活性。 总的来说,"Microsoft.NET4.0.rar"包含了运行和开发基于.NET Framework 4.0...

    IIS运行.NET4.0配置

    而.NET4.0则是.NET Framework的一个版本,发布于2010年,引入了许多新功能和改进,包括但不限于动态语言运行时支持、并行编程模型以及增强的安全性和性能。 #### 步骤一:开启IIS并定位.NET Framework版本 配置...

    .net 4.0 vs 2010

    3. **Parallel Extensions**:这是.NET 4.0中的一项重要更新,引入了并行编程库,如`Task Parallel Library (TPL)`和`PLINQ`,使开发者可以轻松地编写高性能的多线程和多核应用。 4. **Entity Framework**:在.NET ...

    ASP.NET 4.0 in Practice

    1. **改进的页面生命周期管理**:ASP.NET 4.0引入了更灵活的页面生命周期管理,允许开发者在不同的生命周期阶段进行更精确的控制,如新的PreInit和InitComplete事件,使页面初始化更加可控。 2. **简化标记和代码...

    ASP.NET 4.0程序设计代码

    8. **安全性**:ASP.NET 4.0强化了安全机制,如改进的身份验证和授权模型,以及对OWIN(Open Web Interface for .NET)的支持,为Web应用的安全性提供了更多保障。 9. **性能优化**:通过缓存策略的改进、减少内存...

    VS2010 .NET 4.0 开发详解

    《VS2010 .NET 4.0 开发详解》是针对Visual Studio 2010集成开发环境和.NET Framework 4.0版本的一份详细教程。此教程旨在帮助开发者深入理解这两个关键技术的特性和功能,提升软件开发效率。 **Visual Studio 2010...

    ZedGraph .net4.0版本

    .NET Framework 4.0引入了许多性能改进和新特性,比如多语言支持、代码访问安全性的增强以及并发和并行编程的改进。这使得ZedGraph在.NET 4.0下运行时,能够充分利用这些优势,为开发者提供更快、更稳定且资源占用更...

    C#与.NET 4.0高级程序设计(中+英)

    .NET Framework 4.0的主要改进包括性能优化、并行计算支持(Task Parallel Library)、WCF(Windows Communication Foundation)和WF(Windows Workflow Foundation)的增强,以及ASP.NET的更新等。 在本书中,读者...

    ASP.NET 4.0Step.by.Step

    - **任务并行库(TPL)**:TPL为ASP.NET 4.0提供了一个强大的并发编程模型,使得开发者可以更容易地编写出高效且可维护的多线程应用。 - **异步编程模型**:通过引入`async`和`await`关键字,极大地简化了异步操作的...

    .net4.0安装程序.net framework 4.0安装包

    .NET Framework 4.0是微软开发的一个至关重要的组件,它为开发者提供了运行基于.NET Framework的应用程序所需的环境。这个框架在Windows操作系统上运行,允许程序员使用C#、VB.NET、F#等语言编写软件,同时也支持ASP...

    .NET Framework 4.0.30319

    总的来说,.NET Framework 4.0.30319是一个功能强大的开发平台,它为开发者提供了广泛的工具和库,便于创建高效、安全的应用程序,并支持多种操作系统。无论是在桌面应用、Web应用还是企业级服务中,它都扮演着至关...

    .NET4.0平台

    .NET Framework 4.0是微软开发的一个重要软件开发框架,为开发者提供了丰富的工具和库,以便构建、部署和运行各种应用程序。这个安装平台是专为那些尚未安装.NET Framework 4.0的用户设计的,确保软件可以在不同操作...

    .net 4.0新增的Task,更简单的使用线程完成并行计算

    .NET 4.0引入的一个新概念---任务,作为支持并行运算的重要组成部分,同时,也作为对线程池的一个补充和完善。本资源文件中模拟一个插件的工作,在主线程中分配插件的任务,如果插件执行超时,则主线程中断任务,...

    ASP.NET 4.0完整教程

    《ASP.NET 4.0完整教程》是一本全面涵盖ASP.NET 4.0技术和C# 2010编程语言的综合性书籍。它不仅提供了扎实的基础知识,还深入讲解了高级技术和最佳实践,对于希望在Web开发领域取得突破的程序员来说,这无疑是一本...

    .NET 4.0中的并行性简介

    本文将详细介绍.NET 4.0中并行性相关的三个关键概念:Parallel LINQ (PLINQ),Task Parallel Library (TPL) 和 Reactive Extensions (Rx)。 **Parallel LINQ (PLINQ)** PLINQ是并行查询语言,它是LINQ(Language ...

Global site tag (gtag.js) - Google Analytics