- 浏览: 135126 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
fascism219:
哇!您这篇博客写的太好了,看了以后感觉很受用!我最近正在做CE ...
移植CESM1.2和运行CLM4.5问题汇总 -
deepfuture:
不错,用栈来实现递归,速度和效率较高,建议部分栈操作这块用内联 ...
数据结构:栈应用_求解汉诺塔(Hanoi)1
PBS的配置
http://grid.tsinghua.edu.cn/home/liulk/wiki/computer/pbsconfig.html
内容提纲:
安装前的要求
安装
PBS的配置
起动PBS.
创建队列.
PBS Script samples
安装前的要求
如果是单机跑跑pbs, 那么什么都不要求. 如果你想在机群上pbs,那么再进行pbs安装之前你需要保证一些其他的软件都能工作.
- NFS 这个是为了在机群之间共享一个目录, 使得个个机器都能访问.
- Nis 这是是为了在机群上实现统一的用户认证.
安装
pbs的安装比较简单, 应该说是一个标准的linux的tarball安装方式. 安装过程主要有如下几步:
- 下载pbs的源码包 OpenPBS-2.3.12sc2.tar。
- 解压缩软件包
$tar zxvpf OpenPBS-2.3.12sc2.tar
- 进入相应的目录, 配置,make
$cd SPBS-1.0.0 $./configure --enable-docs --disable-gui $make
注意上面的选项--enable-docs 指定要编译文档 --disable-gui 指定去掉图形界面. 因为图形界面要求需要tck支持, 而且似乎必须是tcl-8.0的版本, 高了会出错 --enable-scp 先使用scp,再使用rcp进行数据的复制.
- 切换成root用户, 安装.
$su #make install
默认情况下, PBS会安装再/usr/spoole/PBS目录下. 该目录在./configure 的时候指定 --prefix=/you/want/dir来更改. 建议对于初次安装的人采用默认的设置.
PBS的配置
一般来说, PBS系统必须有一个server和至少一个mom, server负责作业的提交, mom接受server的控制,负责作业的执行. 假设pbs的根目录为 $PBS_HOME. server节点为CGSP48, mom节点为CGSP48和CGSP47,也就是CGSP48既作为共享server也作为mom, 而CGSP47只作为mom.
- 配置server_name
编辑所有的节点的 $PBS_HOME/server_name,在里面写入选定的server的主机名. 例如
CGSP48
- 配置节点. 在CGSP48的 $PBS_HOME/server_priv目录下建立nodes文件.
touch nodes
在nodes文件写入你所有mom节点的名称:CGSP48 np=2 CGSP47 np=3
其中的np代表的是虚拟处理器的个数. 实际上也就是该节点最多可以同时跑多少个任务. - 配置mom节点,使其接受sever节点的控制.
编辑每个mom节点的 $PBS_HOME/mom_priv目录下的config文件(没有就自己建立). 写入如下信息
$logevent 0x1ff $clienthost CGSP48
其中:$logevent 指定的日志的级别, 基本上不用修改. 默认就很好了 $clienthost 指定的server的地址
起动PBS.
pbs起动最好按如下顺序. mom, sever, sched. 而且必须以root身份起动. 命令如下:
# /usr/local/sbin/pbs_mom # /usr/local/sbin/pbs_server -t create # /usr/local/sbin/pbs_sched
其中, -t create 在第一次起动的时候要用, 用于创建一些初始化必要的环境. 以后起动就不在需要了.
创建队列.
PBS中的队列分为两种类型, 执行队列和路由队列. 下面是一个创建队列的脚本.
# # Create and define queue verylong # create queue verylong set queue verylong queue_type = Execution set queue verylong Priority = 40 set queue verylong max_running = 10 set queue verylong resources_max.cput = 72:00:00 set queue verylong resources_min.cput = 12:00:01 set queue verylong resources_default.cput = 72:00:00 set queue verylong enabled = True set queue verylong started = True # # Create and define queue long # create queue long set queue long queue_type = Execution set queue long Priority = 60 set queue long max_running = 10 set queue long resources_max.cput = 12:00:00 set queue long resources_min.cput = 02:00:01 set queue long resources_default.cput = 12:00:00 set queue long enabled = True set queue long started = True # # Create and define queue medium # create queue medium set queue medium queue_type = Execution set queue medium Priority = 80 set queue medium max_running = 10 set queue medium resources_max.cput = 02:00:00 set queue medium resources_min.cput = 00:20:01 set queue medium resources_default.cput = 02:00:00 set queue medium enabled = True set queue medium started = True # # Create and define queue small # create queue small set queue small queue_type = Execution set queue small Priority = 100 set queue small max_running = 10 set queue small resources_max.cput = 00:20:00 set queue small resources_default.cput = 00:20:00 set queue small enabled = True set queue small started = True # # Create and define queue default # create queue default set queue default queue_type = Route set queue default max_running = 10 set queue default route_destinations = small set queue default route_destinations += medium set queue default route_destinations += long set queue default route_destinations += verylong set queue default enabled = True set queue default started = True # # Set server attributes. # set server scheduling = True set server max_user_run = 6 set server acl_host_enable = True set server acl_hosts = * set server default_queue = default set server log_events = 63 set server mail_from = adm set server query_other_jobs = True set server resources_default.cput = 01:00:00 set server resources_default.neednodes = 1 set server resources_default.nodect = 1 set server resources_default.nodes = 1 set server scheduler_iteration = 60 set server default_node = 1#shared
该脚本定义了verylong long medium small 四个作业队列 和 一个default路由队列. 里面的几个比较重要的属性:
enabled 指示作业队列可用. 也就是可以往里面添加新的作业了. actived 指示作业队列处于活动状态, 可以参与调度了. 好象是这个样子的. 反正两个都设置为true就可以了. sever的scheduling属性指示server开始调度. 这个属性非常的重要. 为了这个属性, 我浪费了一个晚上. 因为只要该属性没有设置,那么服务器中的所有的作业就一直处于Q状态.
到此为止PBS的配置基本就完成了. 当然. PBS还有很多的参数可以设置. 但那就不是这个基本配置想给大家的. 大家自己去查PBS的手册把.
PBS Script samples
#LJRS -S /bin/bash #LJRS -o script.out #LJRS -j oe #LJRS -q dpool #LJRS -l nodes=8:ppn=1 (nodes:计算节点数,ppn:计算节点CPU数) #LJRS -l walltime=48:00:00 (用户估计的最大计算时间,超时系统会自动中断作业) limit -s unlimited TMPFILE=`whoami`_mpich_gm.tmp sed 's/c/g/g' $LJRS_NODEFILE > /tmp/$TMPFILE GM_NODEFILE=/tmp/$TMPFILE echo Working directory is $LJRS_O_WORKDIR cd $LJRS_O_WORKDIR echo Runing on host `hostname` echo Starting Time is `date` echo Directory is `pwd` echo This jobs runs on the following processors: echo `cat $GM_NODEFILE` NPROCS=`wc -l < $GM_NODEFILE` echo This job has allocated $NPROCS nodes ## User Parallel Program ########### mpirun -v -machinefile $GM_NODEFILE -np $NPROCS ~/my_parallel.exe > out (修改为用户的并行作业执行命令) #################################### rm -f /tmp/$TMPFILE echo Ending Time is `date`
########################################################################## # # Script for submitting parallel Gaussian 03 jobs to the cluster. # ########################################################################### # To use this script, first make the following changes: # # 1. Add the G03 .com filename to "jobname=", but leave out the suffix .com. # Example: jobname=input # 2. Add the same filename to #LJRS -o with the suffix .err. # Example: #LJRS -o water03.err # 3. Specify the number of nodes(nodes = x) and processors per node # (ppn = y) needed for the job. Note that each job should typically use # both processors on each node(i.e., ppn = 2). Therefore, set nodes equal # to the total number of processors divided by 2. # Example: If the job needs 16 processors total, then: # #LJRS -l nodes=8:ppn=2 # Note that the appropriate number of processors must be requested in # the .com file. In the above example, %nprocl=16 must be specified # before the job command line(i.e., the line beginning with "#"). # (Note: Either the command nprocl or nproclinda can be used.) # If only one processor is required, then %nprocl does not need to be # specified. In the .g03 file, one processor is specified as: # #LJRS -l nodes=4:ppn=2 # 4. Set the maximum length of time the job will use. # Example: #LJRS -l walltime=24:00:00 # 5. Make sure the input (.com) and submitting script (.g03) files are in # the same directory. # # Submit the script using "qsub input.g03". ########################################################################### # Lines that begin with #LJRS are PBS directives (not comments). # True comments begin with "# " (i,e., # followed by a space). ########################################################################### #LJRS -S /bin/bash #LJRS -o water333.err #LJRS -j oe #LJRS -q dpool #LJRS -l nodes=4:ppn=2 (与input.com文件保持一致) #LJRS -l walltime=860:00:00 (用户估计的最大计算时间,超时系统会自动中断作业) #LJRS -V cat "$LJRS_NODEFILE" ############################################################################# # -S: shell the job will run under # -o: name of the queue error filename # -j: merges stdout and stderr to the same file # -l: resources required by the job: number of nodes and processors per node # -l: resources required by the job: maximun job time length ############################################################################# # Define variable "jobname". jobname=input (g03输入文件名,不包括.com扩展名) username=`whoami` ulimit -s unlimited # Make a directory in scr and copy .com and .g03 file to there. GAUSS_RUNDIR=/scratch/${username} if [ ! -a $GAUSS_RUNDIR ]; then echo "Scratch directory $GAUSS_RUNDIR created." mkdir -p $GAUSS_RUNDIR fi cp $LJRS_O_WORKDIR/${jobname}.* $GAUSS_RUNDIR ORIG_LJRS_O_WORKDIR=${LJRS_O_WORKDIR} LJRS_O_WORKDIR=${GAUSS_RUNDIR} cd $LJRS_O_WORKDIR # Setup for Gaussian 03: # ======================= # Make a scratch directory if it doesn't already exist. GAUSS_SCRDIR=/scratch/${username}/${jobname} if [ ! -a $GAUSS_SCRDIR ]; then echo "Scratch directory $GAUSS_SCRDIR created." mkdir -p $GAUSS_SCRDIR fi export GAUSS_SCRDIR echo "Using $GAUSS_SCRDIR for temporary Gaussian 03 files." # Define the location where Gaussian was installed and run # a setup script, g03.profile. g03root=/export/local/g03 source $g03root/g03/bsd/g03.profile #source /export/local/g03/g03/bsd/g03.profile # Define PATH to include location of LINDA PATH=$PATH:/export/local/g03/g03/linda7.1/intel-linux2.4/bin # Define node list #echo $LJRS_NODEFILE $LJRS_JOBID > /tmp/g03log sed 's/c/g/g' $LJRS_NODEFILE > $GAUSS_SCRDIR/tsnet.nodes #cat /tmp/$2 > $LJRS_NODEFILE G03_NODEFILE="$GAUSS_SCRDIR/tsnet.nodes" GAUSS_LFLAGS="-mp 2 -nodefile $G03_NODEFILE" # Export variable list export PATH g03root GAUSS_LFLAGS echo pbs nodefile: cat $G03_NODEFILE #Run a Gaussian command file, water03.com, redirecting output #to a file, water03.log echo "Starting Gaussian run at" `date` time g03l < $GAUSS_RUNDIR/${jobname}.com >$GAUSS_RUNDIR/${jobname}.log echo "Finished Gaussian run at" `date` LJRS_O_WORKDIR=${ORIG_LJRS_O_WORKDIR} echo $LJRS_O_WORKDIR mv $GAUSS_RUNDIR/${jobname}.* $LJRS_O_WORKDIR mv $GAUSS_RUNDIR/*.chk $LJRS_O_WORKDIR echo "$GAUSS_SCRDIR" rm -Rf $GAUSS_SCRDIR
发表评论
-
图眼高校网IP正在备案,目前暂停访问,给您带来不便表示歉意!
2015-07-24 09:17 475亲, 图眼高校网(http://school.ma ... -
Linux查看登录用户信息
2014-11-07 23:11 680w 命令 功能说明:显示目前登入系统的用户信息。 ... -
SVN常用命令【转】
2014-06-09 16:39 7751、检出svn co http://路径(目录或文件的全 ... -
解决 /usr/bin/ld: cannot find -lxxx [转]
2013-11-05 10:38 1060在linux环境编译应用程式或lib的source code ... -
Linux下常用FTP命令[转]
2013-10-18 18:42 7651. 连接ftp服务器 格式:ftp [hostname| ... -
VI中的多行删除与复制 [转载]
2013-10-15 11:21 1044方法一: 单行删除, ... -
linux:/lib/libc.so.6: version `glibc_2.7′ not found[转]
2013-08-25 10:15 1278转载地址:http://blog.sina.com.cn/s ... -
/usr/lib/libstdc++.so.6: version `GLIBCXX_3.4.9' not found问题解决
2013-08-24 15:29 1505Redhat上经常出现/usr/lib/libstdc++. ... -
Linux中设置环境变量
2013-08-24 15:15 6911. 更改变量的配置文件 ~/.bash_profile ... -
shell字符串的处理【转】
2012-11-08 22:28 1121shell字符串的处理 截取; s ... -
Ubuntu shell scripts报错:Syntax error: Bad for loop variable解决方法 [转]
2012-11-08 16:03 1095今天晚上在实验室没事写了个简单的shell script 如 ... -
解压xz文件【转】
2012-10-29 20:04 1165最新一段时间会经常听到xz被采用的声音,像是最新的arc ... -
linux搭建Subversion服务器+修改svn端口号[转]
2012-10-26 16:24 7667linux搭建Subversion服务器+修 ... -
用putty中的pscp命令拷贝文件[转]
2012-09-12 09:50 1748如果linux上开着SSH服务,就可以在Windows下 ... -
PBS环境qsub, qstat, qdel[转]
2012-02-24 11:44 4134PBS环境qsub, qstat, qdel PBS ... -
PBS/torque常见错误[转]
2012-02-24 11:40 42881、# PBS_Server: Resource tempo ... -
SHELL 文件读取【转】
2011-11-29 16:14 1034转自:http://hi.baidu.com ... -
使用Ulimit命令[转]
2011-11-16 15:10 1008使用Ulimit命令 http: ... -
Linux进程管理[转]
2011-11-16 15:06 693LINUX进程管理[转] ... -
CENTOS5中安装Skype
2011-11-01 10:56 976CENTOS 5.5中安装SKYPE(安装包名:skype_s ...
相关推荐
总结来说,PBS文件的撰写需要明确指定作业的资源需求、环境设置、编译和执行程序等关键步骤,并且应该根据实际集群的配置和作业的具体需求进行相应的调整。理解这些知识点能够帮助用户更有效地利用集群资源,提高...
PBS的配置涉及到精确的化学计量和操作步骤,确保其pH值落在生物活性的最佳范围内。 PBS的配置方法通常包括以下几个步骤: 1. 称量:按照指定的比例称取所需的无机盐。对于0.01M PBS,需要8g NaCl、0.2g KCl、1.44g...
- **系统配置与管理**: 提供详细的系统配置指南,帮助管理员正确安装和配置**PBS Professional**环境。 - **性能调优**: 指导如何监控和调整系统性能,确保资源的有效利用。 - **故障排除**: 提供常见问题解决方案,...
综上所述,《PBS Professional 管理员指南》第11版为用户提供了一个全面而深入的指南,涵盖了从新功能介绍到具体配置实践等多个方面,旨在帮助用户充分利用该软件的强大功能,提升集群管理效率。
在安装和配置PBS时,通常需要解压缩源代码包,按照提供的指导文档进行编译、配置和安装,并设置必要的环境变量和系统服务,以确保PBS服务能够正常启动和运行。 总结来说,PBS作业管理系统是一个强大的工具,它为...
通过以上步骤,用户可以成功地安装和配置Torque PBS系统,并进行作业的提交和管理。在实际使用中,用户可以根据需要创建多个队列,设置不同的资源限制,以满足不同类型的计算需求。同时,通过SSH无密码登录和作业...
【标题】"Torque PBS" 是一款广泛应用于高性能计算(HPC)领域的资源调度系统,全称为“Portable Batch System”。这个系统主要用于管理并行集群上的计算任务,确保资源的高效利用。 【描述】"torque-2.3.6.tar.gz...
1. **安装和配置**:首先需要正确安装pbsacct,并根据集群环境进行配置,设置日志存储位置、收集频率等参数。 2. **数据收集**:pbsacct通常与pbs_server一起运行,当作业完成后,pbs_server会将会计信息传递给...
PBS系统项目实施涉及了多个关键的技术领域,包括高性能计算(HPC)环境的构建、网络配置、存储解决方案以及操作系统层面的优化。以下是对这些知识点的详细解释: 1. **PBS系统**:PBS(Portable Batch System)是一种...
通常,PBS的安装程序会包括一系列的安装脚本,这些脚本能够帮助用户完成安装过程,包括配置网络协议,设置作业调度器,以及配置数据库等。安装后,用户需要根据实际情况,对PBS进行配置,使其与本地计算环境相匹配。...
独立的调度模块意味着调度器可以根据实际需求灵活配置;作业依赖功能则允许用户定义作业之间的依赖关系,进一步优化作业流程。PBS还符合POSIX 1003.2d标准,确保了其在各类Unix类操作系统上的兼容性。 然而,任何...
在电气连接方面,PBS通用型压力开关标配两路开关输出,可选配为PNP或NPN,还能根据需要配置一路模拟输出信号(4…20mA或0…10V),并且支持IO-Link接口。这意味着该压力开关能够与多种控制系统兼容,并且可以实现...
在安装和使用"torque-6.1.2"时,用户需要熟悉Linux基本操作,理解集群计算的基本概念,并掌握Torque的配置文件(如`torque.conf`和`pbs_server.conf`)和命令行工具的用法。此外,根据具体环境调整配置参数,以达到...
这将会根据脚本中的配置启动 MPI 程序。 总结来说,本文档详细介绍了 MPI 编程的基础函数和流程,以及如何在 MPICH 环境下编译和运行 MPI 程序,并简要介绍了在 PBS 环境下运行 MPI 程序的方法。这对于初学者理解和...
### PBS Professional 12.1 管理员指南核心知识点概述 #### 一、关于 PBS Professional 12.1 简介 **PBS Professional**(Performance Batch System Professional)是一款由 Altair Engineering Inc. 开发的高性能...
曙光作业管理-调度系统安装配置手册 本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及...
根据提供的文件信息,我们可以深入探讨MGate-4101-MB-PBS Modbus串口转PROFIBUS从站网关的相关知识点。 ### 一、产品简介 MGate-4101-MB-PBS是一款由Moxa公司推出的Modbus串口到PROFIBUS从站转换网关。该设备主要...
在提供的信息中,我们看到了四个RAC节点(vlt02-db01到vlt02-db04)和两个RACDG节点(pbs05-cdb01和pbs05-cdb02),它们都在CentOS 7.5_x64上运行,且每个节点都有一个对应的ORACLE_HOME和数据库实例。 在配置RAC...
通过学习手册内容,能够快速掌握PBS系统的配置和管理技巧,提升集群的整体管理水平。 其他说明:手册不仅提供详尽的操作步骤,还解释了许多关键概念和技术背景,便于深入理解集群调度机制。推荐结合实际环境边学习边...