We are putting a new file server for the home and work directories into operation. For this purpose we will carry out a system maintenance in order to finally synchronise all data over the weekend.
Since the power disruption last week, we are facing issues with the lustre 18 filesystem. We are currently working on resolving the issues, however, we cannot estimate when the file system will be fully functional again.
At 17:00, there was a brief interruption of the power lines in the Aachen area. The power is available again, however, most of the compute nodes went down consequently. Currently, it is unclear when the service can be resumed. At the moment, critical services are under special care and are, if required, being restored. Um 17:00 Uhr hat es einen kurzzeitigen Stromausfall im Raum Aachen gegeben. Die Stromversorgung besteht wieder, jedoch ist die Mehrzahl der Compute-Knoten infolgedessen ausgefallen. Es ist unklar, wann der Betrieb wieder aufgenommen werden kann. Es wird momentan daran gearbeitet, kritische Dienste zu sichern und wiederherzustellen.
After restoring critical operational infrastructure services, the HPC service is resumed. However, a large portion of the GPU nodes are unavailable due to the impact of the incurred blackout. Until further notice, these nodes are unavailable. Nachdem die kritische Infrastruktur zum Betrieb der Systeme wiederhergestellt werden konnte, wurde der HPC-Cluster wieder bereitgestellt und freigegeben. Allerdings sind durch die Auswirkungen des Stromausfalls eine größere Zahl GPU-Knoten nicht mehr verfügbar. Wir arbeiten an der Behebung der Probleme, können allerdings noch keine Prognose geben, wann und ob die Systeme wieder verfügbar sein werden.
Der Großteil der ML Systeme (GPUs) konnten heute wieder hochgefahren und in den Batchbetrieb übergeben werden. The majority of the ML systems (GPUs) were restarted today and are back in batch operation.
Our Slurm workload manager crashed due to an unknown reason. Functionality could be restored at short hand. Further investigations are ongoing.
Currently, a GPU of the GPU login node login23-g-1 shows an issue. The node is unavailable until the issue is resolved.
The issues could be resolved.