GPU nodes 15-18 down?

Bonjour,

Je note que les tâches demandant les nœuds GPU ipop-up 15-18 sont bloquées en attente « PD » i.e.
(ReqNodeNotAvail, UnavailableNodes:gpu-node17)

Il est très probable que c’est moi qui a tout planté. J’ai essayé de lancer un screen alphafold2 sur ces nœuds et seulement 9 tâches ont complété avant que les autres se bloquent en « PD ».

J’ai annulé mes jobs slurm, mais malheureusement, je pense que les nœuds sont toujours bloqués car une autre job d’un autre utilisateur :
19400947 ipop-up RNA_3_5_ meuret PD 0:00 2 (ReqNodeNotAvail, UnavailableNodes:gpu-node17)
est toujours bloquée.

J’avais réussi à exécuter le même screen alphafold2 le mois dernier avec un minimum de problème, je ne sais donc pas exactement quelle pourrait être la cause. Mes plates excuses si je suis effectivement la cause.

Bien cordialement
Julien

Bonjour,

Oui, dans Slurm, le message “Kill Task Failed” signifie que Slurm a tenté de tuer un processus mais n’a pas réussi, et donc il place le noeud en status DRAINED.

J’ai réactivé les noeuds.

Cordialement.

Bonjour,

Il semble que vos jobs continuent à faire planter les noeuds gpu-node15, 17 et 18.

Pouvez-vous copier / coller votre script sbatch qu’on puisse débugger ?

Merci.