PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。 PBS的目前包括openPBS,PBS Pro和Torque三个主要分支。 其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。
一、Torque安装
在master(管理结点上)
1、解压安装包
[root@master tmp]# tar zxvf torque-2.3.0.tar.gz
2、进入到解压后的文件夹
./configure --with-default-server=master
make
make install
安装完成后,将torque文件夹中的bin、sbin加入到环境变量中
3、
(1)[root@master torque-2.3.0]#./torque.setup <user>
<user>必须是个普通用户
(2)[root@master torque-2.3.0]#make packages
把产生的 tpackages , torque-package-clients-linux-x86-64.sh,
torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
(3)[root@master torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install
[root@master torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install
(4)编辑/var/spool/torque/server_priv/nodes (需要自己建立)
加入如下内容
master np=4
node01 np=4
.......
node09 np=4
(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。
(6)创建队列
[root@master ~]# qmgr
create queue students
set queue students queue_type = Execution
set queue students Priority = 40
set queue students resources_max.cput = 96:00:00
set queue students resources_min.cput = 00:00:01
set queue students resources_default.cput = 96:00:00
set queue students enabled = True
set queue students started = True
4、在node0x (x=1-9,计算结点上)
[root@node0x torque-2.3.0]# ./torque-package-clients-linux-x86_64.sh --install
[root@node0x torque-2.3.0]# ./torque-package-mom-linux-x86_64.sh --install
然后启动pbs_mom ,把pbs_mom写入/etc/rc.local
二、Torque PBS使用
1、创建用户
在master的root下
useradd test
passwd test
输入test密码
到/var/yp下make一下
2、配置普通用户的ssh
su test
cd
ssh-keygen -t dsa
cd .ssh
cat id_pub.dsa >>authorized_keys
chmod 600 authorized_keys
3、编写作业脚本
[test1@master t]vi pbsjob
#!/bin/tcsh
#PBS -o /home/test1/pbstest/t/output 标准输出文件
#PBS -e /home/test1/pbstest/t/error 错误输出文件
#PBS -l nodes=5:ppn=4 规定使用的节点数以及每个节点能跑多少核
#PBS –q students 把任务提交到students队列中
cd $PBS_O_WORKDIR 到工作目录下(此为PBS提供的环境变量)
mpirun –machine $PBS_NODEFILE -np 20 ./vasp
4、启动mpd
mpdboot -n 10 -f mfa
mfa内容:
master:4
node01:4
….
node09:4
5、提交,查询,删除作业
提交作业:qsub pbsjob
作业提交后会有一个作业号
[test1@master pbstest]$ qsub pbsjob
48.master
查询作业:qstat
[test1@master pbstest]$ qstat
Job id Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -------------------------------
48.master pbstest test1 00:00:00 R students
删除作业:qdel 作业号
[test1@master pbstest]$ qdel 48
====================================================================
下载torque-2.3.0.tar包,置于HOME下
tar xvf torque-2.3.0.tar
cd torque-2.3.0
./configure
make
make install
./torque.setup
注1:这一步后面的user必须得是非root用户。
注2:这一步之前要把/usr/local/sbin/加入到PATH中。
make packages
将产生的 tpackages,torque-package-clients-linux-x86-64.sh和torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
在所有节点上执行./torque-package-clients-linux-x86_64.sh --install和./torque-package-mom-linux-x86_64.sh --install,主节点上也执行一下。
编辑/var/spool/torque/server_priv/nodes
格式为
node1 np=8
node2 np=8
……
编辑/var/spool/torque/server_name内容为主节点的名字。
在主节点启动pbs_server,pbs_sched,pbs_mom,直接输入这三个命令就可以了,在计算节点只要启动pbs_mom。
创建队列,使用root用户
qmgr
create queue students
set queue students queue_type = Execution
set queue students enabled = True
set queue students started = True
注:这里不能使用它默认的那个队列,否者用ms提交任务时会出现权限问题,不知道为什么。
至此配置完成,可以使用qstat/qstat -Q/qstat -q/qstat -f等命令查看队列状态。
4配置MS网关
假设MS安装在默认位置,在HOME下
设置使用PBS管理作业:
cd ~/Accelrys/MaterialsStudio44/etc/Gateway/config/
./configure queue -queuepath PBS/dsd_pbs -activate
编辑../../Gateway/root_default/dsd/conf/gw-info.sbd
设置参数queuingsystem=PBS/dsd_pbs
编辑../../Gateway/root_default/dsd/conf/gwparams.cfg
设置参数gw_queuingsystem=PBS
重启网关~/Accelrys/MaterialsStudio44/etc/Gateway/msgateway_control_18888 restart
5Windows下的设置:
在Sever Console下刷新服务器,确认服务器属性中的queue里有我们建立的students队列。
在提交计算任务里的queue选上students,就可以啦~~
PS:如果队列一直显示queued不开始,而确实服务器上又没有任务在计算的话,可以使用qrun jobid来开始任务。我第一次是这么开始,之后就不用了,不知道为什么
分享到:
相关推荐
【作业提交系统Torque个人安装总结】 Torque(也称为pbs torque)是一种广泛使用的作业调度系统,源于历史悠久的PBS(Portable Batch System),是为本地集群提供资源管理和作业调度的工具。PBS有三个主要分支:...
Maui负责决定作业的启动时机和节点选择,而Torque则负责实际的作业提交和执行。 【安装与使用】 安装Torque 6.1.2通常包括编译源代码、配置系统参数和启动相关服务。用户需要熟悉基本的Linux命令行操作和系统管理...
集群管理工具作业提交系统pbs,torque
qComsol将comsol作业提交到Torque队列,如果由于许可证错误而被拒绝,则重新提交该作业入门编辑comsolJob.pbs,以便-tmpdir和-recoverydir都指向适当的目录,然后更改电子邮件地址。 将qComsol.py,comsolJob.pbs和...
该版本是Torque作业提交系统的更新,提供了更稳定、高效的性能和功能。 【描述】"torque-6.1.2.tar.gz" 是这个版本的源代码包,采用gzip压缩格式。用户可以下载后进行编译安装,以在Linux操作系统上部署和使用...
根据提供的信息,我们可以深入探讨Torque4的相关知识点,特别是其架构、配置以及作业提交与管理等方面。 ### Torque4概述 #### 架构概览 Torque4是一种高性能的作业调度系统,它由一个管理节点(称为服务器)和多...
3. 作业提交和管理 用户可以使用Torque提交作业、监控作业状态、取消作业,并设置作业的优先级和抢占。此外,用户还可以管理已完成的作业,如保存检查点、重启作业以及检查作业的退出状态。Torque还支持服务作业,...
- **提交脚本**:给出了作业提交脚本的编写指导。 ##### 3.2 监控作业 - **监控工具**:介绍了一些常用的作业监控工具和命令。 - **实时状态**:解释了如何实时查看作业的状态。 ##### 3.3 取消作业 - **取消命令*...
调查问卷显示,用户认为作业管理系统需要具备的功能包括:支持并行程序作业的执行、支持交互式作业、支持作业间关系、在执行节点失效时能重新调度作业并继续从断点开始运行、可由用户指定独占节点、可一次提交多个...
关于作业提交和管理部分,文档提供了作业提交的基本知识,例如如何提交作业、如何管理多节点作业以及如何请求各种类型的资源(包括NUMA感知资源、通用资源、浮点资源和其他资源)。此外,Torque提供了多种工具来协助...
- **作业提交**: - 用户可以使用`qsub`命令提交作业脚本。 - 支持多种选项,如指定队列、资源需求等。 - **监控作业**: - 使用`qstat`命令查看当前正在运行、等待中的作业状态。 - **取消作业**: - 使用`qdel`...
Torque提供了丰富的功能集,包括作业提交、队列管理、资源分配、负载均衡等,是许多科研机构、大学和商业组织进行大规模计算任务的理想选择。 #### 二、Torque PBS的历史与开发背景 Torque PBS最初是由NASA艾姆斯...
Torque+Maui 是一种高性能的分布式计算系统,常用于科学计算、数据分析和机器学习等领域。本文将详细介绍在 Linux 上安装配置 Torque+Maui 的全过程。 一、解压安装包 Torque+Maui 的安装需要首先解压安装包。使用...
torque-6.1.3 计算集群作业管理系统 for linux PBS的目前包括openPBS, PBS Pro和Torque三个主要分支. 其中OpenPBS是最早的PBS系统, 目前已经没有太多后续开发,PBS pro是PBS的商业版本, 功能最为丰富. Torque是...
【标题】"Torque-4.1.0"是一个针对Linux系统的高性能计算机集群(HPC)作业管理系统,它在大规模计算环境中扮演着至关重要的角色。这个系统的主要任务是调度和管理分布式计算资源,确保高效、公平地执行各种计算任务。...
在实际操作中,可能还需要配置相应的集群资源管理策略和作业提交脚本。 总结来说,Torque-4.2.4.1是一个强大的作业调度系统,专为集群环境设计,尤其适合需要高效利用GPU和Intel Phi等加速器的高性能计算任务。其...
Torque是一款功能强大的作业管理系统,广泛应用于高性能计算领域。它主要用于管理和调度计算任务,在多台计算机组成的集群中实现高效的任务分配。Torque支持多种操作系统,并具有良好的可扩展性。 ##### 节点类型 -...
3. **队列系统**:通过作业队列实现任务的有序提交和执行,可以设置多个队列以满足不同类型的作业需求。 4. **安全性**:支持认证和授权机制,保护集群资源不被非法访问。 5. **监控与报告**:提供监控工具和日志...
1. **作业提交与调度**:用户通过`qsub`命令提交作业,pbs_server根据预设的策略进行调度。 2. **资源管理**:监控和分配CPU、内存、磁盘等硬件资源。 3. **作业优先级**:支持根据作业的优先级和依赖关系进行调度。...