juliend
December 13, 2023, 9:58am
1
Hello,
I can’t run jobs on the GPU nodes 15, 17 or 18. Node 15 has the status ‘mixed’ and when I launch a job on it, it gets eventually cancelled with : ‘srun: error: gpu-node15: task 0: Exited with exit code 1’
Nodes 17 or 18 have the status ‘Iddle’, they should thus be free to use, however, my jobs are being immediately cancelled with the same message.
Thanks for your help.
Julien
rey
December 13, 2023, 3:29pm
2
Bonjour,
Vous utilisez quelles spécifications avec --gres ?
J.
juliend
December 13, 2023, 3:48pm
3
Bonjour,
#SBATCH --gres=gpu:15
#SBATCH --nodelist=gpu-node15
#SBATCH --gres=gpu:a100_1g.20gb:1
Merci,
Julien
rey
December 13, 2023, 3:53pm
4
Avez-vous essayé avec les autres partitions a100_2g.20gb, a100_4g.39gb ou a100_7g.79gb pour voir ?
J.
juliend
December 13, 2023, 4:03pm
5
Bonjour,
Je viens d’essayer sur les noeuds 15 et 18 avec a100_4g.39gb et ça ne marche pas mieux.
Cordialement
juliend
December 13, 2023, 4:04pm
6
Voici le message complet :
File “/opt/conda/bin/colabfold_batch”, line 8, in
sys.exit(main())
File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 1757, in main
queries, is_complex = get_queries(args.input, args.sort_queries_by)
File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 607, in get_queries
(sequences, headers) = parse_fasta(input_path.read_text())
File “/opt/conda/lib/python3.7/site-packages/colabfold/batch.py”, line 572, in parse_fasta
sequences[index] += line
IndexError: list index out of range
srun: error: gpu-node18: task 0: Exited with exit code 1
rey
December 13, 2023, 4:06pm
7
C’est quelle version de colabfold ? Quel module ?
juliend
December 13, 2023, 4:10pm
8
C’est ça :
srun singularity run --bind /shared/banks/alphafold2/2022-12-13/:/root/.cache/co
labfold --nv /shared/software/singularity/images/alphafold-colabfold_1.5.2-rpbs.
sif colabfold_batch $1 out_dir --num-seeds 1 --num-recycle 1 --msa-mode mmseqs2_
uniref_env --model-type alphafold2_multimer_v3 --templates --rank multimer --pai
r-mode unpaired_paired --num-models 5 --use-dropout --save-recycles
murail
December 13, 2023, 5:14pm
10
J’ai l’impression que le fichier de sequence est vide.
@juliend Pourrait tu montrer la commande sbatch complete, ainsi que le fichier .csv
associé.
murail
December 13, 2023, 5:15pm
11
Ca ce n’est pas bon en tout ca:
juliend:
#SBATCH --gres=gpu:15
Ca veut dire que tu veux 15 GPU.
Il faut mettre
#SBATCH --gres=gpu:1
juliend
December 14, 2023, 5:45am
12
Oui c’est une erreur de recopiage. Je corrige…
J’ai donc vérifié mon fichier de séquence et je n’ai pas vu de problème.
Je l’ai quand même re-généré dans le doute et ça a, semble t’il, réglé le problème.
Le problème venait donc bien de là, même si je ne comprends pas bien pourquoi…
En tous cas merci à vous 2 pour votre aide !