Zurück Archiv

Rechner-Cluster - Neue ssh-Host-Keys generiert

Dienstag 09.01.2018 18:00 - Dienstag 23.01.2018 18:00

Wir haben auf unseren Dialog-Systemen neue ssh-Host-Keys generiert. Die Fingerprints der neuen Keys haben wir auf der Seite https://doc.itc.rwth-aachen.de/x/cYA1Ag veroeffentlicht.

Technische Erläuterung

Rechner-Cluster - Job restrictions on the BULL cluster

Freitag 01.12.2017 10:00 - Donnerstag 01.11.2018 00:00

Due to problems in the BULL InfiniBand Fabric jobs are restricted to one chassis on the BULL cluster. This means, that a) the maximum coresize is restricted to 216 cores b) the maximum number of hosts is restricted to 18 hosts.In both cases, the job will be rejected if these numbers are exceeded. This does NOT affect the NEC cluster or the service integrative hosting!

Technische Erläuterung

Rechner-Cluster - Zugriff auf $HPCWORK langsam

Montag 20.11.2017 07:30 - Dienstag 23.01.2018 12:00

Aktuell ist der Zugriff auf $HPCWORK unter Umstaenden sehr langsam. Der Hersteller wurde benachrichtigt und arbeitet an dem Problem.

Technische Erläuterung

Updates

Um das Problem in den Griff zu kriegen, wurde fuer einen Teil der Systeme ein Batch-Job eingestellt, der das jeweilige System einmal rebootet. Da der Job Vorrang hat, laeuft auf dem jeweiligen System erst dann wieder ein neuer Nutzer-Job an, wenn der Reboot erfolgt ist.
8.12. 9:30 Uhr: Die letzte aufgetretene Log-Meldung, die auf Performance-Probleme in HPCWORK hindeutet, haben wir am 6.12. 17:00 Uhr registriert. Bitte teilen Sie es uns mit, falls Sie trotzdem weiterhin Probleme haben.
Es sind erneut in den vergangenen Wochen Hinweise auf Performance-Probleme auch in den Logs der Server aufgetreten. Wir arbeiten zusammen mit den Herstellern an einer Lösung.
Durch eine Vielzahl an teilweise langwierigen Maßnahmen konnte die Performancestörung nun behoben werden. Unter anderem wurde das Betriebssystem aktualisiert, der Omnipath-Softwarestack aktualisiert sowie auf allen Omnipath-Switchen eine aktualisierte Firmware eingespielt.

Rechner-Cluster - Störung des Batchbetriebs

Dienstag 09.01.2018 18:00 - Mittwoch 10.01.2018 10:00

Nach dem Update des Clusters auf CentOS 7.4 zur Abwehr der aktuten Sicherheitslücken kommt es zu MPI Problemen. Daher musste der Batchbetrieb wieder gestoppt werden. Wir arbeiten an einer Lösung des Problems und hoffen, den Batchbetrieb Morgen wieder freigeben zu können.

Technische Erläuterung

Updates

Die MPI Problematik konnte gelöst werden und der Batchbetrieb wurde wieder freigegeben.

Rechner-Cluster - Prozessorlücken Meltdown und Spectre

Freitag 05.01.2018 16:00 - Dienstag 09.01.2018 18:00

Aufgrund der Sicherheitslücken Meltdown und Spectre werden auf dem RWTH Compute Cluster die folgenden Maßnahmen ergriffen: - Update der Dialogsysteme auf CentOS 7.4 - Das Anlaufen von Batchjobs wird ab sofort verhindertDiese Maßnahmen haben die folgenden Konsequenzen: - Neustart aller Dialogsysteme im Laufe des Nachmittags und Abbruch der laufenden Sitzungen - $HPCWORK ist auf den Dialogsystemen bis auf weiteres nicht mehr verfügbar - Es laufen keine neuen Batchjobs an, laufende Batchjobs können zu Ende rechnenDie Situation wird vor dem Hintergrund der aktuellen Entwicklungen am Anfang der Woche erneut bewertet. Informationen zum weiteren Verlauf werden hier veröffentlicht.

Technische Erläuterung

Updates

Inzwischen liegt ein passender Lustre-Client für CentOS 7.4 vor der gerade auf den Dialogknoten eingespielt wird, so dass $HPCWORK dort zeitnah wieder genutzt werden kann. Morgen früh werden die Batchsysteme auf CentOS 7.4 und den aktuellen Kernel geupdatet und der OPA Stack wird aktualisiert, so dass im Laufe des Dienstags auch der Batchbetrieb inkl. $HPCWORK wieder freigegeben werden kann. Mit diesen Maßnahmen wird die Meltdown Lücke geschlossen und die potenzielle Ausnutzung der Spectre Lücke bestmöglich erschwert.