`

Maui/Torque Job defered

 
阅读更多

今天在cluster上提交任务,发现提交之后一直显示处于站队状态(Q)。换了一个node之后发现可以正常运行。cluster的配置是一个head node带了10个child node, 所有Maui和TORQUE的配置均在head node上。版本信息:

Ubuntu 12.04.4 LTS

Torque PBS 2.5.12

Maui 3.3.1

 

qstat的状态

# qstat

Job id                    Name             User            Time Use S Queue

------------------------- ---------------- --------------- -------- - -----

66625.head               testpy19         qz                  0 Q temp

66626.child09            testpy19         qz                  0 R temp

 

追踪任务显示没有给相应的job分配任何资源

 

# checkjob 66625

checking job 66625

 

State: Idle  EState: Deferred

Creds:  user:qz  group:qz  class:batch  qos:DEFAULT

WallTime: 00:00:00 of 1:00:00:00

SubmitTime: Wed Oct 14 16:52:37

 (Time Queued  Total: 00:00:31  Eligible: 00:00:00)

 

 Total Tasks: 1

 

 Req[0]  TaskCount: 1  Partition: ALL

 Network: [NONE]  Memory >= 0  Disk >= 0  Swap >= 0

 Opsys: [NONE]  Arch: [NONE]  Features: [1][ppn=1]

 NodeCount: 1

 

 IWD: [NONE]  Executable:  [NONE]

 Bypass: 0  StartCount: 0

 PartitionMask: [ALL]

 Flags:       RESTARTABLE

 

 job is deferred.  Reason:  NoResources  (cannot create reservation for job '66625' (intital reservation attempt)

 )

 Holds:    Defer  (hold reason:  NoResources)

 PE:  1.00  StartPriority:  1

 cannot select job 66625 for partition DEFAULT (job hold active)

 

一开始怀疑是queue的配置或者maui的配置问题,但是因为只有在head node上有问题,其他child node都运行良好,所以问题不在配置。下一步检查各个node

 

# checknode head

checking node head

State:      Down  (in current state for 00:00:00)

Configured Resources: PROCS: 24  MEM: 15G  SWAP: 16G  DISK: 1M

Utilized   Resources: PROCS: 24

Dedicated  Resources: [NONE]

Opsys:         linux  Arch:      [NONE]

Speed:      1.00  Load:       0.120

Network:    [DEFAULT]

Features:   [temp][normal][mpi][long][bigmem]

Attributes: [Batch]

Classes:    [temp 24:24][normal 24:24][mpi 24:24][long 24:24]

 

Total Time:   INFINITY  Up:   INFINITY (96.56%)  Active:   INFINITY (42.95%)

 

Reservations:

NOTE:  no reservations on node

 

# checknode child09

checking node child09

 

State:      Idle  (in current state for 00:40:17)

Configured Resources: PROCS: 12  MEM: 31G  SWAP: 47G  DISK: 1M

Utilized   Resources: SWAP: 5290M

Dedicated  Resources: [NONE]

Opsys:         linux  Arch:      [NONE]

Speed:      1.00  Load:       0.000

Network:    [DEFAULT]

Features:   [temp][normal][mpi][long]

Attributes: [Batch]

Classes:    [temp 12:12][normal 12:12][mpi 12:12][long 12:12]

 

Total Time:   INFINITY  Up:   INFINITY (98.61%)  Active:   INFINITY (17.80%)

 

Reservations:

NOTE:  no reservations on node

 

很明显,head node 没有正常工作,但是pbsnodes显示head node的状态是free。仔细对比了两个node的状态之后,发现head node没有任何session (nsession=0), 而且有一条错误信息表明spool 文件系统已满……

# pbsnodes head

head

     state = free

     np = 24

     properties = normal,bigmem,long,mpi,temp

     ntype = cluster

     status = rectime=1444852351,varattr=,jobs=,state=free,netload=124602597243261,gres=,message=ERROR: torque spool filesystem full,loadave=0.00,ncpus=24,physmem=264108356kb,availmem=276266268kb,totmem=295356736kb,idletime=128,nusers=0,nsessions=0,uname=Linux mobs-head 3.5.0-45-generic #68~precise1-Ubuntu SMP Wed Dec 4 16:18:46 UTC 2013 x86_64,opsys=linux

     gpus = 0

 

# pbsnodes child09

child09

     state = free

     np = 12

     properties = normal,long,mpi,temp

     ntype = cluster

     status = rectime=1444852532,varattr=,jobs=,state=free,netload=77659293583815,gres=,loadave=0.00,ncpus=12,physmem=32901268kb,availmem=43868400kb,totmem=49285264kb,idletime=9836391,nusers=4,nsessions=10,sessions=510 1075 1101 1217 1233 1260 1295 1423 10483 12024,uname=Linux mobs-child09 3.5.0-45-generic #68~precise1-Ubuntu SMP Wed Dec 4 16:18:46 UTC 2013 x86_64,opsys=linux

     gpus = 0

 

于是,删掉没有用的文件…… 大约26G……

# rm /var/spool/torque/server_logs/*

# rm /var/spool/torque/undelivered/*

 

重启pbs_mom之后,一切正常

# ps aux | grep pbs_mom

root      1169  0.0  0.0  32792 22428 ?        SLsl 15:32   0:00 pbs_mom -p

root     46849  0.0  0.0   9392   944 pts/1    S+   15:57   0:00 grep --color=auto pbs_mom

# kill -9 1169

# pbs_mom -p

 

分享到:
评论

相关推荐

    torque+maui 安装实例

    Torque+Maui 安装实例 Torque+Maui 是一种高性能的分布式计算系统,常用于科学计算、数据分析和机器学习等领域。本文将详细介绍在 Linux 上安装配置 Torque+Maui 的全过程。 一、解压安装包 Torque+Maui 的安装...

    torque+maui安装使用

    ### Torque与MAUI安装及使用详解 #### 一、Torque简介 Torque是一款功能强大的作业管理系统,广泛应用于高性能计算领域。它主要用于管理和调度计算任务,在多台计算机组成的集群中实现高效的任务分配。Torque支持...

    TORQUE和Maui

    ### TORQUE与Maui知识点详解 #### 一、概述 **TORQUE**(Terascale Open-source Resource and Queue Manager)是一种高性能计算环境中的作业调度系统,主要用于管理并行任务的执行,提供了一种灵活的方式来控制...

    troque与maui的安装1

    在本文中,我们将深入探讨如何在Windows环境下安装和配置Torque和Maui集群调度系统。首先,我们专注于Torque的安装步骤,因为它是Maui的前提条件。 6.1 安装Torque Server Torque(Terascale Resource Scheduler)...

    HPC作业调度 maui 3.3.1 (for Linux)

    4. **配置文件**:修改配置文件`/etc/maui/maui.cfg`,设置调度策略和参数。 5. **启动Maui**:启动Maui服务,如`/etc/init.d/maui start`。 6. **监控和调试**:利用`maui-cli`命令行工具或Web界面监控Maui的运行...

    maui-3.3.tar

    Maui 3.3是Maui Job Scheduler的一个重要版本,它与Torque资源管理器共同工作,为高性能计算(HPC)环境提供了高效的任务调度解决方案。Maui以其灵活性、可扩展性和强大的监控功能,在集群计算领域广受赞誉。本文将...

    maui-3.3.1.tar.gz

    《Maui 3.3.1:Torque的高级调度插件详解》 在高性能计算领域,集群资源管理和调度系统是关键组成部分,其中Torque(短语为“Terascale Open-source Resource and Queue Manager”)是一款广泛应用的作业调度器。而...

    maui.tar.gz

    Maui是Torque集群资源管理系统中的一个关键组件,主要负责工作负载的调度策略。这个"maui.tar.gz"文件包含了Maui的3.3.1版本,这是一个针对大规模计算环境优化的调度系统,旨在提高集群资源的利用率和性能。本文将...

    曙光作业管理-调度系统安装配置手册.pdf

    下面将从Torque的安装和配置开始,介绍如何在曙光服务器上安装和配置Torque和Maui。 一、Torque安装和配置 Torque是一个开源的集群资源管理器,可以帮助用户管理和调度集群中的资源。Torque有两个主要的可执行文件...

    Maui在制作安卓程序的时候如何找到apk签名

    3. **发布应用**:右键点击项目,选择“发布”选项,然后按照Microsoft官方文档(<https://learn.microsoft.com/zh-cn/dotnet/maui/android/deployment/publish-ad-hoc>)的指引进行操作。 4. **寻找keystore文件**...

    maui-3[1].3.1.tar.gz

    在实际应用中,Maui可以与其他工具如pbs_mom(Torque的Job Manager)、pbs_server和pbs_pro一起使用,构建完整的集群管理系统。理解Maui的原理和配置是提升集群效率和用户体验的关键,这需要对集群架构、作业调度...

    hpc作业调度 torque 6.1.2 (for Linux)

    当与Torque结合使用时,Maui可以提供更高级别的调度策略,比如基于负载的动态调度、复杂的资源分配规则和用户/项目配额。Maui负责决定作业的启动时机和节点选择,而Torque则负责实际的作业提交和执行。 【安装与...

    dotnet-maui-net-maui-8.0.pdf

    ### .NET MAUI (Multi-platform App UI) 概览 #### 一、.NET MAUI 简介 .NET MAUI(Multi-platform App UI)是一个跨平台的UI框架,允许开发者利用C#和XAML创建适用于多种平台的本机移动和桌面应用。此框架旨在...

    torque-6.1.1.1.tar.gz

    Torque集群是由一个管理点和多个计算节点组成。管理节点运行pbs_server进程,计算节点运行pbs_mom进程。用于提交和管理作业的客户端命令可以安装在任何主机上(包括不运行pbsserver或pbsmom的主机)。

    torque 6.1.2

    7. **扩展性**:支持与其他管理工具(如Maui或Moab)集成,实现更复杂的作业调度策略。 对于"torque-6.1.2" 版本,可能包含以下改进和新特性: - 优化了调度算法,提高调度效率。 - 增强了稳定性,修复了已知的bug...

    .NET MAUI for C# Developers 英文书翻译版

    .NET MAUI for C# Developers 英文书翻译版 .NET MAUI是一种跨平台的应用程序框架,允许开发者使用C#和XAML创建跨Windows、Mac、iOS和Android平台的应用程序。.NET MAUI for C# Developers是一本英文书翻译版,旨在...

    集群配置(Torque安装配置+Maui安装配置+SSH免验证设置+节点共享目录设置+用户硬盘空间限制和核心使用限制设置)异常详细版

    由于导师需要配置集群服务,于是花了几个月,各种百度,查官方文档,各种测试+调试,便写出了这个文档,并把导师管理的几十台新旧服务器都安装配置成功了,虽然花了不少时间,但是在集群配置过程中也学到了不少知识...

    Prism.Maui-master.zip

    Prism.Maui 是一个强大的框架,它将 Prism 框架与 .NET MAUI(Multi-platform App UI)相结合,用于构建高效、可维护且模块化的跨平台移动和桌面应用程序。Prism 是一个针对 Windows Presentation Foundation (WPF)...

Global site tag (gtag.js) - Google Analytics