Can't run Alphafold jobs on node 15, 17 or 18

Hello,

I can’t run jobs on the GPU nodes 15, 17 or 18. Node 15 has the status ‘mixed’ and when I launch a job on it, it gets eventually cancelled with : ‘srun: error: gpu-node15: task 0: Exited with exit code 1’
Nodes 17 or 18 have the status ‘Iddle’, they should thus be free to use, however, my jobs are being immediately cancelled with the same message.
Thanks for your help.

Julien

Bonjour,

Vous utilisez quelles spécifications avec --gres ?

J.

Bonjour,

#SBATCH --gres=gpu:15

#SBATCH --nodelist=gpu-node15

#SBATCH --gres=gpu:a100_1g.20gb:1

Merci,

Julien

Avez-vous essayé avec les autres partitions a100_2g.20gb, a100_4g.39gb ou a100_7g.79gb pour voir ?

J.

Bonjour,

Je viens d’essayer sur les noeuds 15 et 18 avec a100_4g.39gb et ça ne marche pas mieux.

Cordialement

Voici le message complet :

File “/opt/conda/bin/colabfold_batch”, line 8, in

sys.exit(main())

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 1757, in main

queries, is_complex = get_queries(args.input, args.sort_queries_by)

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 607, in get_queries

(sequences, headers) = parse_fasta(input_path.read_text())

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 572, in parse_fasta

sequences[index] += line

IndexError: list index out of range

srun: error: gpu-node18: task 0: Exited with exit code 1

C’est quelle version de colabfold ? Quel module ?

C’est ça :
srun singularity run --bind /shared/banks/alphafold2/2022-12-13/:/root/.cache/co

labfold --nv /shared/software/singularity/images/alphafold-colabfold_1.5.2-rpbs.

sif colabfold_batch $1 out_dir --num-seeds 1 --num-recycle 1 --msa-mode mmseqs2_

uniref_env --model-type alphafold2_multimer_v3 --templates --rank multimer --pai

r-mode unpaired_paired --num-models 5 --use-dropout --save-recycles

@murail une idée ?

J’ai l’impression que le fichier de sequence est vide.

@juliend Pourrait tu montrer la commande sbatch complete, ainsi que le fichier .csv associé.

Ca ce n’est pas bon en tout ca:

Ca veut dire que tu veux 15 GPU.
Il faut mettre

#SBATCH --gres=gpu:1

Oui c’est une erreur de recopiage. Je corrige…
J’ai donc vérifié mon fichier de séquence et je n’ai pas vu de problème.
Je l’ai quand même re-généré dans le doute et ça a, semble t’il, réglé le problème.
Le problème venait donc bien de là, même si je ne comprends pas bien pourquoi…
En tous cas merci à vous 2 pour votre aide !