Bonjour
Je vous informe qu’on n’arrive pas à lancer des job sur le cluster depuis Jeudi.
le problème c’est que les même fichier et le même script mais des fois peut lancer et des fois non:
est ce que ça est lié au noeud dans lequel nécessite une mise à jour
Cordialement
Zakaria
rey
November 4, 2024, 8:47am
2
Bonjour,
Pouvez-vous me copier / coller le contenu du script sbatch ainsi que la ligne de commande utilisée pour le lancer ?
Merci.
#!/bin/bash
#SBATCH -p ipop-up
##SBATCh -a hfq
#SBATCH -c 6
#SBATCH --gres=gpu:1
#SBATCH --gres-flags=disable-binding
#SBATCH -o hfq_pdb_alpha.out
#SBATCH -e hfq_pdb_alpha.err
#SBATCH --job-name=one_peptide11
with SRA-Toolkit fasterq-dump
srun singularity run --nv /shared/software/singularity/images/openmm-8.1.0-rpbs.sif /bin/bash -c "python bin/launch_sst2_pdb.py -pdb peptide.pdb -time 10000 -temp_time 2 -min_temp 2$
bonjour
vous pouvez tester dans le répertoire suivant
/shared/projects/hfq/slimani/seq11/study1/test_one
rey
November 4, 2024, 8:58am
5
Il y a un problème avec cette ligne :
##SBATCh -a hfq
Mais ce n’est pas très grave dans la mesure où votre account par défaut est déjà hfq.
La ligne suivante ne sert pas, vous pouvez la supprimer :
#SBATCH --gres-flags=disable-binding
Ensuite, je ne comprends pas si la ligne avec srun fait partie du script ou bien si elle est lancée directement dans le shell.
vraiment c’est un problème “anormal” aussi pour moi.
Je vais voir avec Samuel et vous tenir au courant
rey
November 4, 2024, 9:32am
7
D’où la nécessité de bien noter les job id. Avec cela on peut retrouver le noeud sur lequel le job a été lancé. Il faut aussi consulter les logs (hfq_pdb_alpha.err).
Cordialement.
srun: error: gpu-node15: task 0: Exited with exit code 1
donc le noeud 15
rey
November 4, 2024, 11:52am
9
Je ne constate aucune anomalie sur le noeud gpu-node15.
Que disent les logs ?
Bonjour Julien
le problème était avec des format de fichier, on a résolu avec Samuel
merci pour votre collaboration
Zakaria
Bonjour Julien
On n’arrive pas à se connecter continûment au cluster depuis hier soir.
est ce qu’il s’agit d’un problème général ?
Coordialement
Zakaria
rey
November 22, 2024, 10:05am
13
Bonjour,
Oui, quelqu’un a fait une erreur et a lancé des jobs directement sur la console, ce qui la rendue inopérante.
Je l’ai redémarrée.
Cordialement.