WARNING: ran out of memory - Nicoleta IANCU

Bonjour,

Je me permets de vous contacter au sujet de nombreux jobs que j’ai lancés sur la partition master-bi du cluster de calcul, et qui ont abouti à l’erreur " WARNING: ran out of memory, skipping batch".

Voici un exemple de script que j’utilise :
cat liste_top10_medicament.o | while read DRUG; do
SMILES=$(grep $DRUG liste_smiles_chemEMBL_correct.o | awk ‘{print$3}’) ;
cat liste_partenaire_AKT1.o | while read NAME SEQ ; do
NAME=$(echo $DRUG""$NAME | tr ‘[A-Z]’ ‘[a-z]’) ;
if [ ! -e data_AKT1-Compound-Partner/boltz_results
$NAME/predictions/$NAME/affinity_$NAME.json ]; then
cat ../template_protein_compound.yaml | sed “s|ZZZZ|$SEQ|” | sed “s|BBBB|‘$SMILES’|”> data_AKT1-Compound-Partner/$NAME.yaml;

sbatch -J $NAME -p master-bi -A master-bi --gres=gpu:1 -c 1 --mem=100G --time=02:00:00 -o data_AKT1-Compound-Partner/boltz_AKT1_$NAME.out --wrap=“boltz predict data_AKT1-Compound-Partner/$NAME.yaml --use_msa_server --diffusion_samples 1 --out_dir data_AKT1-Compound-Partner/”;

fi;
done;
done

J’ai essayé différentes valeurs de -c et --mem, sans succès, ainsi que de lancer un seul job séparément, avec --mem=30G, et il n’y a pas eu de problème. Par conséquent, je me demande si j’utilise bien le --mem dans mon script. L’erreur est-elle due au nombre important de jobs que je lance simultanément, bien que seulement 5 jobs tournent en parallèle grâce au --mem=100G ?

Je vous remercie par avance pour votre aide.
Cordialement,
Nicoleta IANCU M2BI

Bonjour,

La première chose est qu’il ne faut pas lancer de jobs à partir d’une boucle. Vous devriez utiliser les array à la place (–array, voir documentation).

Ensuite, il faudrait identifier à quel moment de votre job l’erreur survient.

S’agit-il de boltz qui ne bénéficie pas d’assez de vram sur une carte graphique, ou est-ce slurm qui a tué le job car il dépassait la quantité de ram allouée ?

Bien cordialement.

Bonjour,

J’ai essayé de relancer mes jobs avec --array, cependant certains d’entre eux continuent d’échouer à cause de la mémoire. Je vous ai joint les fichiers de sortie dans ce cas de figure. J’en déduis que le problème vient du manque de vram sur la carte graphique.

Bien cordialement,
Nicoleta IANCU M2BI

(Attachment avapritinib_adamtsl4_q6uy14-3.err is missing)

(Attachment avapritinib_adamtsl4_q6uy14-3.out is missing)

Je ne peux pas voir les pièces jointes en passant par cette adresse.

Vous pouvez cibler spécifiquement les L4 qui ont 24GB de VRAM chacune.

Cordialement.