Zurück Archiv

Rechner-Cluster - Reboot-Job fuer alle Batch-Systeme eingestellt

Dienstag 19.09.2017 15:00 - Sonntag 24.09.2017 16:00

Wir haben aus Wartungsgruenden fuer jeden Batch-Host einen Job eingestellt, der das jeweilige System einmal rebootet. Da der Job Vorrang hat, laeuft auf jedem System erst dann wieder ein neuer Nutzer-Job an, wenn der Reboot erfolgt ist.

Technische Erläuterung

Rechner-Cluster -

Mittwoch 30.08.2017 08:45 - Mittwoch 20.09.2017 13:00

Derzeit sind die Datentransferraten in und aus CLAIX heraus auf etwa 10 Gbits/s limitiert. Beim Hersteller wurde diesbezueglich ein Ticket eroeffnet.

Technische Erläuterung

Updates

Die Limitierung der Bandbreite auf 10Gb/s betrifft aktuell nur das System copy.hpc.itc.rwth-aachen.de. Die Systeme cluster-copy und cluster-copy2 haben höhere Bandbreiten und sind aktuell zu bevorzugen. An möglichen technischen Verbesserungen für das copy System wird bis zur nächsten Systemwartung weiter gearbeitet.

Rechner-Cluster - Schlechte MPI-IO Performance auf $HPCWORK

Mittwoch 05.07.2017 15:30 - Mittwoch 20.09.2017 13:00

Leider werden uns weiterhin Fälle berichtet, in denen das $HPCWORK Dateisystem langsam ist. Der Hersteller wurde darüber informiert und sucht weiter nach einer Lösung

Technische Erläuterung

Updates

Weitere Untersuchungen haben gezeigt, dass sich das Problem auf die Nutzung von MPI-IO eingrenzen lässt. Dieser Umstand wird aktuell weiter untersucht.
Die schlechte Performance bei der Nutzung von MPI-IO konnte bestätigt werden und wir arbeiten zur Zeit an einer Lösung für dieses Problem.
Die berichten Fälle schlechter Performance wurden untersucht und des hat sich gezeigt, dass diese durch viele kleine Dateien verursacht wurden. Eine gute Performance wird nur mit gossen Dateien erreicht.

Rechner-Cluster - Module können nicht geladen werden

Freitag 25.08.2017 17:15 - Montag 28.08.2017 07:30

Aktuell kommt es zu Problemen beim Laden verschiedener Module (z.B.: Matlab) auf dem Cluster. Neue Jobs können unter umständen mit einer Fehlermeldung abbrechen, sofern ein betroffenes Modul innerhalb des Jobs geladen wird.

Technische Erläuterung

Updates

Das Problem wurde gelöst. Es ist somit wieder möglich Module zu laden.