今天在cluster上提交任务,发现提交之后一直显示处于站队状态(Q)。换了一个node之后发现可以正常运行。cluster的配置是一个head node带了10个child node, 所有Maui和TORQUE的配置均在head node上。版本信息:
Ubuntu 12.04.4 LTS
Torque PBS 2.5.12
Maui 3.3.1
qstat的状态
# qstat
Job id Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
66625.head testpy19 qz 0 Q temp
66626.child09 testpy19 qz 0 R temp
追踪任务显示没有给相应的job分配任何资源
# checkjob 66625
checking job 66625
State: Idle EState: Deferred
Creds: user:qz group:qz class:batch qos:DEFAULT
WallTime: 00:00:00 of 1:00:00:00
SubmitTime: Wed Oct 14 16:52:37
(Time Queued Total: 00:00:31 Eligible: 00:00:00)
Total Tasks: 1
Req[0] TaskCount: 1 Partition: ALL
Network: [NONE] Memory >= 0 Disk >= 0 Swap >= 0
Opsys: [NONE] Arch: [NONE] Features: [1][ppn=1]
NodeCount: 1
IWD: [NONE] Executable: [NONE]
Bypass: 0 StartCount: 0
PartitionMask: [ALL]
Flags: RESTARTABLE
job is deferred. Reason: NoResources (cannot create reservation for job '66625' (intital reservation attempt)
)
Holds: Defer (hold reason: NoResources)
PE: 1.00 StartPriority: 1
cannot select job 66625 for partition DEFAULT (job hold active)
一开始怀疑是queue的配置或者maui的配置问题,但是因为只有在head node上有问题,其他child node都运行良好,所以问题不在配置。下一步检查各个node
# checknode head
checking node head
State: Down (in current state for 00:00:00)
Configured Resources: PROCS: 24 MEM: 15G SWAP: 16G DISK: 1M
Utilized Resources: PROCS: 24
Dedicated Resources: [NONE]
Opsys: linux Arch: [NONE]
Speed: 1.00 Load: 0.120
Network: [DEFAULT]
Features: [temp][normal][mpi][long][bigmem]
Attributes: [Batch]
Classes: [temp 24:24][normal 24:24][mpi 24:24][long 24:24]
Total Time: INFINITY Up: INFINITY (96.56%) Active: INFINITY (42.95%)
Reservations:
NOTE: no reservations on node
# checknode child09
checking node child09
State: Idle (in current state for 00:40:17)
Configured Resources: PROCS: 12 MEM: 31G SWAP: 47G DISK: 1M
Utilized Resources: SWAP: 5290M
Dedicated Resources: [NONE]
Opsys: linux Arch: [NONE]
Speed: 1.00 Load: 0.000
Network: [DEFAULT]
Features: [temp][normal][mpi][long]
Attributes: [Batch]
Classes: [temp 12:12][normal 12:12][mpi 12:12][long 12:12]
Total Time: INFINITY Up: INFINITY (98.61%) Active: INFINITY (17.80%)
Reservations:
NOTE: no reservations on node
很明显,head node 没有正常工作,但是pbsnodes显示head node的状态是free。仔细对比了两个node的状态之后,发现head node没有任何session (nsession=0), 而且有一条错误信息表明spool 文件系统已满……
# pbsnodes head
head
state = free
np = 24
properties = normal,bigmem,long,mpi,temp
ntype = cluster
status = rectime=1444852351,varattr=,jobs=,state=free,netload=124602597243261,gres=,message=ERROR: torque spool filesystem full,loadave=0.00,ncpus=24,physmem=264108356kb,availmem=276266268kb,totmem=295356736kb,idletime=128,nusers=0,nsessions=0,uname=Linux mobs-head 3.5.0-45-generic #68~precise1-Ubuntu SMP Wed Dec 4 16:18:46 UTC 2013 x86_64,opsys=linux
gpus = 0
# pbsnodes child09
child09
state = free
np = 12
properties = normal,long,mpi,temp
ntype = cluster
status = rectime=1444852532,varattr=,jobs=,state=free,netload=77659293583815,gres=,loadave=0.00,ncpus=12,physmem=32901268kb,availmem=43868400kb,totmem=49285264kb,idletime=9836391,nusers=4,nsessions=10,sessions=510 1075 1101 1217 1233 1260 1295 1423 10483 12024,uname=Linux mobs-child09 3.5.0-45-generic #68~precise1-Ubuntu SMP Wed Dec 4 16:18:46 UTC 2013 x86_64,opsys=linux
gpus = 0
于是,删掉没有用的文件…… 大约26G……
# rm /var/spool/torque/server_logs/*
# rm /var/spool/torque/undelivered/*
重启pbs_mom之后,一切正常
# ps aux | grep pbs_mom
root 1169 0.0 0.0 32792 22428 ? SLsl 15:32 0:00 pbs_mom -p
root 46849 0.0 0.0 9392 944 pts/1 S+ 15:57 0:00 grep --color=auto pbs_mom
# kill -9 1169
# pbs_mom -p
相关推荐
Torque+Maui 安装实例 Torque+Maui 是一种高性能的分布式计算系统,常用于科学计算、数据分析和机器学习等领域。本文将详细介绍在 Linux 上安装配置 Torque+Maui 的全过程。 一、解压安装包 Torque+Maui 的安装...
### Torque与MAUI安装及使用详解 #### 一、Torque简介 Torque是一款功能强大的作业管理系统,广泛应用于高性能计算领域。它主要用于管理和调度计算任务,在多台计算机组成的集群中实现高效的任务分配。Torque支持...
在本文中,我们将深入探讨如何在Windows环境下安装和配置Torque和Maui集群调度系统。首先,我们专注于Torque的安装步骤,因为它是Maui的前提条件。 6.1 安装Torque Server Torque(Terascale Resource Scheduler)...
### TORQUE与Maui知识点详解 #### 一、概述 **TORQUE**(Terascale Open-source Resource and Queue Manager)是一种高性能计算环境中的作业调度系统,主要用于管理并行任务的执行,提供了一种灵活的方式来控制...
4. **配置文件**:修改配置文件`/etc/maui/maui.cfg`,设置调度策略和参数。 5. **启动Maui**:启动Maui服务,如`/etc/init.d/maui start`。 6. **监控和调试**:利用`maui-cli`命令行工具或Web界面监控Maui的运行...
Maui 3.3是Maui Job Scheduler的一个重要版本,它与Torque资源管理器共同工作,为高性能计算(HPC)环境提供了高效的任务调度解决方案。Maui以其灵活性、可扩展性和强大的监控功能,在集群计算领域广受赞誉。本文将...
《Maui 3.3.1:Torque的高级调度插件详解》 在高性能计算领域,集群资源管理和调度系统是关键组成部分,其中Torque(短语为“Terascale Open-source Resource and Queue Manager”)是一款广泛应用的作业调度器。而...
Maui是Torque集群资源管理系统中的一个关键组件,主要负责工作负载的调度策略。这个"maui.tar.gz"文件包含了Maui的3.3.1版本,这是一个针对大规模计算环境优化的调度系统,旨在提高集群资源的利用率和性能。本文将...
下面将从Torque的安装和配置开始,介绍如何在曙光服务器上安装和配置Torque和Maui。 一、Torque安装和配置 Torque是一个开源的集群资源管理器,可以帮助用户管理和调度集群中的资源。Torque有两个主要的可执行文件...
3. **发布应用**:右键点击项目,选择“发布”选项,然后按照Microsoft官方文档(<https://learn.microsoft.com/zh-cn/dotnet/maui/android/deployment/publish-ad-hoc>)的指引进行操作。 4. **寻找keystore文件**...
在实际应用中,Maui可以与其他工具如pbs_mom(Torque的Job Manager)、pbs_server和pbs_pro一起使用,构建完整的集群管理系统。理解Maui的原理和配置是提升集群效率和用户体验的关键,这需要对集群架构、作业调度...
由于导师需要配置集群服务,于是花了几个月,各种百度,查官方文档,各种测试+调试,便写出了这个文档,并把导师管理的几十台新旧服务器都安装配置成功了,虽然花了不少时间,但是在集群配置过程中也学到了不少知识...
当与Torque结合使用时,Maui可以提供更高级别的调度策略,比如基于负载的动态调度、复杂的资源分配规则和用户/项目配额。Maui负责决定作业的启动时机和节点选择,而Torque则负责实际的作业提交和执行。 【安装与...
Torque集群是由一个管理点和多个计算节点组成。管理节点运行pbs_server进程,计算节点运行pbs_mom进程。用于提交和管理作业的客户端命令可以安装在任何主机上(包括不运行pbsserver或pbsmom的主机)。
### .NET MAUI (Multi-platform App UI) 概览 #### 一、.NET MAUI 简介 .NET MAUI(Multi-platform App UI)是一个跨平台的UI框架,允许开发者利用C#和XAML创建适用于多种平台的本机移动和桌面应用。此框架旨在...
7. **扩展性**:支持与其他管理工具(如Maui或Moab)集成,实现更复杂的作业调度策略。 对于"torque-6.1.2" 版本,可能包含以下改进和新特性: - 优化了调度算法,提高调度效率。 - 增强了稳定性,修复了已知的bug...
.NET MAUI for C# Developers 英文书翻译版 .NET MAUI是一种跨平台的应用程序框架,允许开发者使用C#和XAML创建跨Windows、Mac、iOS和Android平台的应用程序。.NET MAUI for C# Developers是一本英文书翻译版,旨在...
Prism.Maui 是一个强大的框架,它将 Prism 框架与 .NET MAUI(Multi-platform App UI)相结合,用于构建高效、可维护且模块化的跨平台移动和桌面应用程序。Prism 是一个针对 Windows Presentation Foundation (WPF)...