Jobs monitoring sacct et squeue

Bonjour,
les commandes squeue et sacct (ou seff) me donnent des résultats différents aujourd’hui. Avec sacct et seff, il y a un grand nombre de jobs marqués comme RUNNING ou PENDING alors qu’ils sont terminés depuis un jour ou deux… Ils n’apparaissent pas avec squeue qui lui a l’air de fonctionner normalement. Par exemple:

[hennion @ ipop-up 10:39]$ WGBSflow : seff 5666165
Job ID: 5666165
Cluster: production
User/Group: hennion/umr7216
State: RUNNING
Cores: 1
CPU Utilized: 00:00:00
CPU Efficiency: 0.00% of 2-00:08:47 core-walltime
Job Wall-clock time: 2-00:08:47
Memory Utilized: 0.00 MB (estimated maximum)
Memory Efficiency: 0.00% of 500.00 MB (500.00 MB/core)
WARNING: Efficiency statistics may be misleading for RUNNING jobs.

Merci de votre aide!!

Magali

Et tant que j’y suis, est-ce qu’il est possible d’installer seff sur les noeuds? Je l’utilise dans un workflow pour vérifier l’utilisation des ressources et ça me renvoie /bin/sh: seff: command not found .
Merci!!

Hello @Magali

J’ai identifié le problème mais je ne sais pas comment le résoudre (la base de données slurm plante pendant le nettoyage).

J’ai envoyé un message sur la liste pour savoir comment faire.

Pour seff je ne suis pas sûr de bien comprendre par contre. Pourquoi vouloir l’installer sur les noeuds de calcul ?

Merci Julien!
Pour seff, je voudrais générer un rapport d’exécution automatiquement à la fin de mes workflows en utilisant seff pour vérifier si les ressources que j’alloue à chaque étape sont bien proportionnées ou pas. Ca m’évitera de demander 10x trop pour les runs suivants :wink:

Hello @Magali

J’ai réussi à nettoyer les jobs zombies, un problème de taille de buffer dans mysql - je crois.

Pour seff, pourquoi n’est-il pas possible de le lancer depuis la console ?