啊。。。找了一下,R 居然真的有办法可以多cpu平行运算!!!snowfall包!先在这里寄存一下。明天实验。太棒了!
转贴自:不周山
R本身虽然只能以单线程的方式运行与计算,但它有大量的包提供了方便而多样的并行计算方式,支持包括SOCKET、MPI、PVM、NWS等等多种 线程沟通方式。最流行最成熟的当然是MPI了,Rmpi包也因此相当受欢迎,在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用,支持协 议的多样性,就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议,所以即使没有安装MPI或者对MPI了解 不多,最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall,更是使得并行化的计算变得如同平常编程一般的简单。
由于这些包是为R而扩展的,所以跟R的矢量式编程思想能无缝地结合,只要你的程序已经用矢量化语言描述出来(比如R的apply系列函数或简单矩阵运算),再移植到snowfall并行计算平台几乎就是0成本。
下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包,即library(snowfall)
测试函数1:
foo <- function(i){ cat(sprintf('log: item %s', i)) return(2^i) } test.base <- function(){ x = 1:10 sfInit(parallel=TRUE, cpus=2, slaveOutfile='snowfall.log') sfExport('foo') res = sfClusterApplyLB(x, fun='foo') sfStop() cat(unlist(res)) } |
这个函数说明了snowfall包的基本使用:
- 先通过第7行代码初始化计算集群,参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出;
- 第8行代码把foo这个函数发布到各slave;
- 第9行代码把x传给foo函数计算,对x这个向量中不同的元素作并行,这里sfClusterApplyLB的作用类似于R里的apply函数;
- 第10行停止计算集群;
- 第2行的打印信息会输出到slaveOutfile指定的日志文件中。
测试函数2:
mysort <- function(x){ replicate(5, sort(x)) return(sort(x)[1:10]) } test.apply <- function(cpus=4){ M = matrix(rnorm(10000000), 100, 100000) print('sequence run:') print(system.time(x<-apply(M, 2, mysort))) t = Sys.time() # sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2))) sfInit(parallel=TRUE, cpus=cpus) print(sprintf('%s cpus to be used', sfCpus())) print('parallel time cost:') print(system.time(x<-sfApply(M, 2, mysort))) sfStop() print(paste('total parallel time cost:', Sys.time()-t)) } |
这个函数展示了一个实际的有一定负载量的计算过程。
- 第6行生成一个100*100000的测试矩阵M;
- 第8行对M的每一列应用mysort这个函数,mysort函数在上面有定义,除了排序之外,还做了一些额外的无用功,增加计算负载,这是单线程计算范式,用于作对比;
- 第14行进行实际计算,作用跟第8行一样,不同之处在于这里是利用并行计算范式进行计算,使用的slave数量由cpus参数指定;
- 可以尝试拿第10行置换第11行,第11行是单机多核并行,第10行是多机多核并行,各机器使用cpu的数量由socketHosts里该机器名出现次数而定(balin和dwalin都是机器名);
- 在使用同样多的slave的情况下,多机多核通常会比单机多核要慢一点,因为涉及到网络IO。
测试函数2的性能测试如下:
- 非并行情况下,总耗时31秒多;
- 2 slave的情况下,总耗时22秒多;
- 4 slave的情况下,总耗时接近15秒。
- 补:在sfInit函数初始化时,设置type=’MPI’,使用MPI方式并行,4 slave情况下,比SOCKET方式稍慢,耗时17秒多。
即slave增加4倍时,计算时间减少一半。
相关推荐
在MATLAB中进行并行计算可以极大地提升计算效率,特别是在处理大量数据或复杂计算时。本文将详细探讨如何使用MATLAB开发一个名为`rparallel3`的m-file函数,用于并行计算n个串联电阻器的总电阻。我们将讨论并行计算...
在R语言中,进行大规模数据分析或复杂计算时,传统单线程的执行方式往往效率低下,因此并行计算成为提高性能的关键技术。本篇将详细探讨R语言中的并行计算,以及如何利用这一特性来优化代码,提升工作效率。 首先,...
在MATLAB中进行并行计算是为了提升计算效率,特别是在处理大量数据或复杂计算时,能够显著缩短执行时间。本项目“matlab开发-并行计算nResistatorsInParallel的电阻.zip”似乎聚焦于利用MATLAB的并行计算工具箱...
但每个零模型的构建相互独立,可同时进行,R语言并行计算可加快beta-NTI的计算速度。本文内容包括以下三个部分:1.如何理解群落构建;2.如何理解beta-NTI;3.如何利用R语言并行计算beta-NTI。初学者可能对群落构建和...
R语言使用parallel包实现并行计算方法 R语言是统计计算和图形表达的强大工具,但是在处理大数据时,R语言的运算速度不算快。幸运的是,R语言提供了parallel包,可以实现并行计算,从而提高运算性能。下面将详细介绍...
R语言-多线程并行计算原理与操作步骤-方法笔记
之前我们介绍了计算beta-NTI(beta nearest taxon index)来进行群落构建分析。|beta-NTI| >2说明决定性过程主导,其中beta-NTI >2说明OTU的遗传距离发散,为生物交互作用主导,beta-NTI < -2则说明OUT的遗传距离...
《autodyn并行计算软件与Platform MPI的深度解析》 在高性能计算领域,软件的并行计算能力至关重要,尤其在处理大规模数据和复杂问题时。本文将深入探讨"autodyn"这一并行计算软件,以及它与Platform MPI的集成应用...
### 基于Web的Java并行计算 #### 摘要 本文深入探讨了如何运用Java技术在Web环境中执行并行数据处理程序的关键问题。文章首先介绍了基于Web的Java并行计算的基本概念及其背景,随后详细分析了利用Java进行Web上...
并行计算实验快速排序的并行算法主要涉及的是在大规模数据处理中提高效率的方法,它利用了并行计算的优势来加速传统的快速排序算法。快速排序是一种广泛应用的分治策略排序算法,由C.A.R. Hoare在1960年提出。它的...
1. 并行计算:R语言可以实现并行计算,提高统计分析的效率和速度。 2. 高性能计算算法:R语言可以实现高性能计算算法,提高统计分析的精度和速度。 3. 大规模数据处理:R语言可以处理大规模数据,提高统计分析的...
本书成功地借助于R语言实现了并行计算的多种有效算法,并且通过案例分析了如何运用R语言执行并行计算。同时详细介绍了并行计算中的R程序包的使用,如SPRINT包提供了一套从R中调用并行计算的MPI函数。全书案例简单...
R语言并行计算实战资料
快速排序是一种高效的排序算法,由英国计算机科学家C.A.R. Hoare在1960年提出。其核心思想是分治法,通过...通过实验,学生不仅可以掌握排序算法,还能理解并行计算的基本原理和实践,提高对并行算法设计和优化的能力。
为了解决这一问题,R语言提供了并行计算的功能,特别是在线性代数计算方面,能够显著提升运算效率。本文将深入探讨在交互式R语言平台上进行并行线性代数计算的方法。 首先,我们需要了解并行计算的基本概念。并行...
对spearman相关性分析进行并行化运行可大大节省计算时间,为此我们手写了spearman相关性分析函数来实现并行化运行。为方便讲解,本文以OTU table 数据为例,对OTU进行两两spearman相关性分析,获得相关系数r和显著性...