Je suis le responsable informatique de l’Institut Jacques Monod.
J’aide Julien Dumont, responsable d’équipe de recherche.
Il a obtenu un compte “dumont” sur le cluster.
Il souhaite faire des calculs AlphaFold en utilisant des cartes GPU
Le job démarre, mais cela dit que le process ne voit pas de GPU.
Comment faire ?
De plus, ce soir, cela bloque plus tot
2023-09-21 19:04:04.049258: W external/org_tensorflow/tensorflow/tsl/platform/default/dso_loader.cc:66] Could not load dynamic library ‘libcuda.so.1’; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64:/.singularity.d/libs
2023-09-21 19:04:04.049299: W external/org_tensorflow/tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:265] failed call to cuInit: UNKNOWN ERROR (303)
Je viens de tester sur le nœud gpu-node15, le job tourne en utilisant le GPU.
Pourriez vous être plus spécifique sur le message d’erreur et indiquer sur quel nœud le job a été lancé svp.
Désolé pour le dérangement. J’avais oublié qu’il fallait faire
sbatch fichier-de-directives
et pas
./fichier-de-directives
Mea culpa !
Avec sbatch, cela semble bien aller.
Autres questions :
1/ est-ce qu’il est nécessaire ou utile de préciser un noeud parmi 15, 16, 17 ou 18, afin d’utiliser une carte A100 ?
On ne peut pas laisser SLURM choisir au mieux ?
2/ comment peut-on voir à quelles partitions (et donc quels noeuds) un utilisateur à accès ?
3/ comment peut-on voir sur un traitement GPU quelle est la taille mémoire maximale consommée ?
Ceci afin de pouvoir utiliser éventuellement d’autres GPU plus anciens et avec des mémoires plus petites.
Nous avons tué les jobs qui étaient dans la queue, désolé aussi pour cela.
1/ Vous pouvez spécifier la carte à utiliser avec : --gres=gpu:a100_80gb_pcie:1
À ce propos, après la mise à jour de slurm qui aura lieu le 2 octobre prochain, cette spécification n’existera plus car les cartes A100 seront divisées en slices. Il faudra mettre quelque-chose qui ressemblera à ça à la place : 3g.20gb.
2/ C’est affiché lors du login : sacctmgr show user $USER withassoc
2/ comment peut-on voir à quelles partitions (et donc quels noeuds) un
utilisateur à accès ?
J’ai vu dans /etc/motd que la commande pour cela est
sacctmgr show user $USER withassoc