Can't run Alphafold jobs on node 15, 17 or 18

juliend · December 13, 2023, 9:58am

Hello,

I can’t run jobs on the GPU nodes 15, 17 or 18. Node 15 has the status ‘mixed’ and when I launch a job on it, it gets eventually cancelled with : ‘srun: error: gpu-node15: task 0: Exited with exit code 1’
Nodes 17 or 18 have the status ‘Iddle’, they should thus be free to use, however, my jobs are being immediately cancelled with the same message.
Thanks for your help.

Julien

rey · December 13, 2023, 3:29pm

Bonjour,

Vous utilisez quelles spécifications avec --gres ?

J.

juliend · December 13, 2023, 3:48pm

Bonjour,

#SBATCH --gres=gpu:15

#SBATCH --nodelist=gpu-node15

#SBATCH --gres=gpu:a100_1g.20gb:1

Merci,

Julien

rey · December 13, 2023, 3:53pm

Avez-vous essayé avec les autres partitions a100_2g.20gb, a100_4g.39gb ou a100_7g.79gb pour voir ?

J.

juliend · December 13, 2023, 4:03pm

Bonjour,

Je viens d’essayer sur les noeuds 15 et 18 avec a100_4g.39gb et ça ne marche pas mieux.

Cordialement

juliend · December 13, 2023, 4:04pm

Voici le message complet :

File “/opt/conda/bin/colabfold_batch”, line 8, in

sys.exit(main())

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 1757, in main

queries, is_complex = get_queries(args.input, args.sort_queries_by)

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 607, in get_queries

(sequences, headers) = parse_fasta(input_path.read_text())

File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 572, in parse_fasta

sequences[index] += line

IndexError: list index out of range

srun: error: gpu-node18: task 0: Exited with exit code 1

rey · December 13, 2023, 4:06pm

C’est quelle version de colabfold ? Quel module ?

juliend · December 13, 2023, 4:10pm

C’est ça :
srun singularity run --bind /shared/banks/alphafold2/2022-12-13/:/root/.cache/co

labfold --nv /shared/software/singularity/images/alphafold-colabfold_1.5.2-rpbs.

sif colabfold_batch $1 out_dir --num-seeds 1 --num-recycle 1 --msa-mode mmseqs2_

uniref_env --model-type alphafold2_multimer_v3 --templates --rank multimer --pai

r-mode unpaired_paired --num-models 5 --use-dropout --save-recycles

rey · December 13, 2023, 4:40pm

@murail une idée ?

murail · December 13, 2023, 5:14pm

J’ai l’impression que le fichier de sequence est vide.

@juliend Pourrait tu montrer la commande sbatch complete, ainsi que le fichier .csv associé.

murail · December 13, 2023, 5:15pm

Ca ce n’est pas bon en tout ca:

Ca veut dire que tu veux 15 GPU.
Il faut mettre

#SBATCH --gres=gpu:1

juliend · December 14, 2023, 5:45am

Oui c’est une erreur de recopiage. Je corrige…
J’ai donc vérifié mon fichier de séquence et je n’ai pas vu de problème.
Je l’ai quand même re-généré dans le doute et ça a, semble t’il, réglé le problème.
Le problème venait donc bien de là, même si je ne comprends pas bien pourquoi…
En tous cas merci à vous 2 pour votre aide !