Zurück | Archiv

Rechner-Cluster - New file server for home and work directories

Freitag 22.11.2024 12:00 - Montag 25.11.2024 18:00

We are putting a new file server for the home and work directories into operation. For this purpose we will carry out a system maintenance in order to finally synchronise all data over the weekend.

Mi 20.11.2024 09:32

Rechner-Cluster - Lustre 18 Malfunction

Sonntag 17.11.2024 17:00 - unbekannt

Since the power disruption last week, we are facing issues with the lustre 18 filesystem. We are currently working on resolving the issues, however, we cannot estimate when the file system will be fully functional again.

Mo 18.11.2024 12:36

Rechner-Cluster - Power disruption / Stromausfall

Freitag 15.11.2024 17:00 - Samstag 16.11.2024 14:00

At 17:00, there was a brief interruption of the power lines in the Aachen area. The power is available again, however, most of the compute nodes went down consequently. Currently, it is unclear when the service can be resumed. At the moment, critical services are under special care and are, if required, being restored. Um 17:00 Uhr hat es einen kurzzeitigen Stromausfall im Raum Aachen gegeben. Die Stromversorgung besteht wieder, jedoch ist die Mehrzahl der Compute-Knoten infolgedessen ausgefallen. Es ist unklar, wann der Betrieb wieder aufgenommen werden kann. Es wird momentan daran gearbeitet, kritische Dienste zu sichern und wiederherzustellen.

Fr 15.11.2024 18:43

Updates

After restoring critical operational infrastructure services, the HPC service is resumed. However, a large portion of the GPU nodes are unavailable due to the impact of the incurred blackout. Until further notice, these nodes are unavailable. Nachdem die kritische Infrastruktur zum Betrieb der Systeme wiederhergestellt werden konnte, wurde der HPC-Cluster wieder bereitgestellt und freigegeben. Allerdings sind durch die Auswirkungen des Stromausfalls eine größere Zahl GPU-Knoten nicht mehr verfügbar. Wir arbeiten an der Behebung der Probleme, können allerdings noch keine Prognose geben, wann und ob die Systeme wieder verfügbar sein werden.

Fr 15.11.2024 21:06

Der Großteil der ML Systeme (GPUs) konnten heute wieder hochgefahren und in den Batchbetrieb übergeben werden. The majority of the ML systems (GPUs) were restarted today and are back in batch operation.

Sa 16.11.2024 14:04

Rechner-Cluster - Scheduler Hiccup

Donnerstag 14.11.2024 10:45 - Donnerstag 14.11.2024 10:55

Our Slurm workload manager crashed due to an unknown reason. Functionality could be restored at short hand. Further investigations are ongoing.

Do 14.11.2024 10:59

Rechner-Cluster - GPU Malfunction on GPU Login Node

Dienstag 12.11.2024 09:15 - Dienstag 12.11.2024 10:35

Currently, a GPU of the GPU login node login23-g-1 shows an issue. The node is unavailable until the issue is resolved.

Di 12.11.2024 09:29

Updates

The issues could be resolved.

Di 12.11.2024 10:36