Problème pour lancer sur le cluster

Bonjour

Je vous informe qu’on n’arrive pas à lancer des job sur le cluster depuis Jeudi.

le problème c’est que les même fichier et le même script mais des fois peut lancer et des fois non:

est ce que ça est lié au noeud dans lequel nécessite une mise à jour

Cordialement

Zakaria

Bonjour,

Pouvez-vous me copier / coller le contenu du script sbatch ainsi que la ligne de commande utilisée pour le lancer ?

Merci.

#!/bin/bash

#SBATCH -p ipop-up
##SBATCh -a hfq
#SBATCH -c 6
#SBATCH --gres=gpu:1
#SBATCH --gres-flags=disable-binding
#SBATCH -o hfq_pdb_alpha.out
#SBATCH -e hfq_pdb_alpha.err
#SBATCH --job-name=one_peptide11

with SRA-Toolkit fasterq-dump

srun singularity run --nv /shared/software/singularity/images/openmm-8.1.0-rpbs.sif /bin/bash -c "python bin/launch_sst2_pdb.py -pdb peptide.pdb -time 10000 -temp_time 2 -min_temp 2$

bonjour
vous pouvez tester dans le répertoire suivant

/shared/projects/hfq/slimani/seq11/study1/test_one

Il y a un problème avec cette ligne :

##SBATCh -a hfq

Mais ce n’est pas très grave dans la mesure où votre account par défaut est déjà hfq.

La ligne suivante ne sert pas, vous pouvez la supprimer :

#SBATCH --gres-flags=disable-binding

Ensuite, je ne comprends pas si la ligne avec srun fait partie du script ou bien si elle est lancée directement dans le shell.

vraiment c’est un problème “anormal” aussi pour moi.
Je vais voir avec Samuel et vous tenir au courant

D’où la nécessité de bien noter les job id. Avec cela on peut retrouver le noeud sur lequel le job a été lancé. Il faut aussi consulter les logs (hfq_pdb_alpha.err).

Cordialement.

srun: error: gpu-node15: task 0: Exited with exit code 1

donc le noeud 15

Je ne constate aucune anomalie sur le noeud gpu-node15.

Que disent les logs ?

Bonjour Julien

le problème était avec des format de fichier, on a résolu avec Samuel

merci pour votre collaboration

Zakaria

Merci de votre retour.

Cordialement.

Bonjour Julien

On n’arrive pas à se connecter continûment au cluster depuis hier soir.
est ce qu’il s’agit d’un problème général ?

Coordialement

Zakaria

Bonjour,

Oui, quelqu’un a fait une erreur et a lancé des jobs directement sur la console, ce qui la rendue inopérante.

Je l’ai redémarrée.

Cordialement.