URZ Compute-Server GS1280 "Marvel"

Marvel -- HP GS1280

Aktuelles:

  • ACHTUNG! Abschaltung im März 2011, Server hat nach fast 8 Jahren Betrieb (seit 2003) ein zu schlechtes Nutzen-(Strom)kosten-Verhältnis erreicht.

Rechnersystem-Kurzbeschreibung

Mit der Installation einer GS1280 der Firma HP im Juni 2003 steht den Nutzern unserer Universität ein Mehrprozessor-Hochleistungsrechner mit 64-bit-Befehlsbreite und Parallelisierungsmöglichkeit zur Verfügung. Die Marvel ist für spezielle Anwendungen mit hohen Anforderungen an Compute-Leistungen bestimmt.

Hardware

Architektur: SMP, cache-coherent Non-Uniform Memory Architecture (ccNUMA)
Prozessor (CPU): 32 x Alpha EV7 (21364) - 1150MHz, 64kB-I + 64KB-D L1, 1.75MB L2, MemBW 12.3GB/s, IO-BW 3.2GB/s, 2 FLOP/clk
Hauptspeicher (RAM): 128 Gbytes (4GB/CPU, Latenz 82-250ns, PC800@767MHz 2ctrl*4ch*1.54GB/s/CPU(+1chECC/ctrl))
Festplatten (HD): 26 x 72 GBytes (15000rpm, 72MB/s, U3-SCSI), teilw. über RAID
Netzwerkanschluss: Ethernet, optisch, 1Gbit/s
Stromverbrauch: ca. 10kW
Performance-Daten: 73.6GFLOPs, 12.3GB/s/CPU (1.5 FLOP/Word), I/O=3.2GB/s/CPU (hp), CINT=285, CFP=405 (spec2000), white paper (pdf)

weitere Informationen finden Sie unter: AlphaServer GS1280 (HP),

Systemsoftware, Kommerzielle Software

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh marvel.urz.uni-magdeburg.de (141.44.8.16). Bitte starten Sie Rechen-Jobs nur ueber das Jobsystem OpenPBS (qsub -q normal job.sh). Das Jobsystem dient der Vermeidung von "Out-Of-Memory"-Situationen, die in der Regel zum Crash des Systems führen. Der Speicherverbrauch fuer Nicht-Job-Prozesse ist auf 1GB begrenzt.
Bitte erlaeutern Sie in der .plan-Datei (nedit .plan), was Sie vorhaben, und welche Resourcen Sie benoetigen, damit der Admin und andere User sich mit (finger user) ein Bild ueber die zukuenftige Auslastung des Servers machen koennen. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden. Bitte beachten Sie, dass unsere Computeserver nicht der Aufbewahrung von Daten dienen. Deshalb sind die Plattensysteme nur teilweise mit Redundanz ausgestattet und auf Backups wird zugunsten von Performance und Stabilitaet verzichtet. Sichern Sie bitte selbst Ihre Resultate zeitnah und entfernen Sie angelegte Dateien, um anderen Nutzern genug Speicher fuer deren Rechnungen zur Verfuegung stellen zu koennen. Danke! Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Marvel oder Tel.18408.

Termine/Infos/Planung:

 03.06.03  - Inbetriebnahme der GS1280
 03.06.03  - Installation GNU Programme: (gtar, gmake, bash, ...)
 04.06.03  - Installation Compaq C/C++/Fortran 6.5 (cxx,f77,f90)
 06.06.03  - neuer Tru64-Kernel (reboot)
 17.06.03  - Installation Maple 6.01 (Aufruf: xmaple)
 17.06.03  - Installation NAG FORTRAN MARK19 Library(-L/usr/local/nag/fldau19da -lnag)
 17.06.03  - Installation Fluent, Version 6.0.12, Gambit 2.0.4
 17.06.03  - Installation ANSYS, Version 6.1 (Aufruf: ansys)
 17.06.03  - Installation Matlab 6.5 R13 (Aufruf: matlab13)
 17.06.03  - Installation ABAQUS, Version 6.3-1 (/usr/local/abaqus/6.3-1/exec/abq631)
 26.06.03  - Installation Marc, Vers 2003 (Aufruf: marc2003, /opt/marc2003/mentat2003/..)
 26.06.03  - reboot noetig, neuer swap modus (sonst nur 35GB MEM verfuegbar)
 26.06.03  - defekte Festplatte (/tmp15)
 10.07.03  - Crash (Ursache unbekannt, Kernelfehler nach Speicherueberlauf?)
 11.07.03  - Shutdown wegen Wartung (Hardware)
 18.08.03  - Am 16.08. Systemabsturz durch Power-Fehler in einer CPU
 01.09.03  - Crash: Power-Fehler in Spannungsversorgung fuer RAM
 07.09.03  - Stromabschaltung !!!
 12.09.03  - Austausch der (defekten) Spannungsversorgung
 11.11.03  - Ursache fuer PAM-STAMPs Performance-Probleme aufgedeckt,
             Anzahl System-Calls durch Anwenderprogramme >> 3000/s
 19.03.04  - Crash verursacht durch defekte Festplatte (?)
 30.09.04  - Crash unbekannter Ursache, Firmware updated
 12.11.04  - Crash verursacht durch defekten RAM (?), RAM getauscht
 01.02.05  - Installation gcc/g++ Version 3.4.3-alphaev7-dec-osf5.1
 11.03.05  - Crash verursacht durch defekten RAM (?) oder Kernelbug (?)
 12.03.05  - Kernelfehler erzeugt unregulaeres
             Pagen. Der Fehler ist an HP gemeldet und in Bearbeitung.
 15.06.05  - Workaround (Patch) installiert, nun volle Nutzung moeglich,
             geringe Performance-Einbußen.
 04.07.05  - Neuer Patch getestet, bleibt fehlerhaft, wieder Workaround
 06.07.05  - Mit PatchKit-4 wurde /shlib/libpthread.so ersetzt und
             ansys90 funktioniert nicht mehr (bitte wildfire nutzen)
 19.07.05  - Ausfall der home-disk (Backup vom Vortag)
 29.09.05  - Installation ANSYS, Version 10.0 (Aufruf: ansys)
 17.10.05  - Installation Fluent, Version 6.2.16
 15.11.05  - Installation OpenSSHD (X11-Grafik nun viel schneller!)
 12.04.06  - Installation OpenSSHD-4.3 mit tcp_wrapper (> 500attacks/10min)
 30.05.06  - Crash durch Nutzer-generiertem Out-of-Memory.
             Q: coredump erzeugt Out-of-Memory? dump_cores set to 0.
 14.06.06  - mmaped file vom 31.05.06 trotz 40GB free Mem nicht gecached,
             process idled (12-17%CPU + high Disk-I/O)
 11.04.07  - kein Ansys-11.0 fuer Alpha, wird nicht unterstuetzt
           - kein Abaqus-6.7 fuer Alpha, wird nicht unterstuetzt (6.4=ok)
 01.12.07  - Crash durch Nutzer-generiertem Out-of-Memory.
             see /var/adm/crash/crash-data.13
 03.06.08  - ca. 22:50 Crash
 16.09.08  - Stromabschaltung wegen Kabelarbeiten
 25.09.08  - Crash
 10.10.08  - kein Maple-12 fuer Alpha, wegen Upgrade Zwang kein Maple mehr unterstuetzt 
 25.02.09  - neues Lizenzfile nicht von alten Gambit unterstuetzt, keine neue Alpha-Version
 19.06.09  - Ende HW-Support / temporaere Abschaltung wegen Klimaarbeiten
 22.06.09  - defekter Raid-Controller(?) nach Wiedereinschalten
 28.07.09  - 13min Strom- und Klimaausfall (shutdown)
 11.08.09  - Lesefehler /dev/disk/dsk19c (/tmp1 + /tmp)
 17.09.09  - geplante Stromarbeiten, vergessene Deaktivierung des USV scripts (shutdown)
 19.10.09  - update editor to joe-3.7
 23.10.09  - Ausfall der Netzteilredundanz einer I/O-Unit (drawer5)
 16.11.09  - 40% swap full, extrem slow down, 12GB non-Job process killed
 07.12.09  - 10% swap full, extrem slow down, 25GB non-Job process killed
 07.12.09  - gnu-screen-4.0.3 installed
 18.02.10  - Ausfall dsk19c (/tmp1 + /tmp), + Ausfall dsk20 (oldswap+reserve)
 16.04.10  - ca. 01:43 Ausfall 2tes Netzteil einer I/O-Unit (drawer5)
           - damit ist diese I/O-Unit ausgefallen, eingeschraenkter Weiterbetrieb
 23.06.10  - Plattenausfall dsk16c (/tmp16)
 15.07.10  - Abschaltung wegen Bauarbeiten an Klimaanlage
 20.08.10  - Fr 19:20 bis Mo 9:00, Auslösung Power-Switch PDU-CB3
             dadurch verbliebene I/O-Einheit stromlos (wieder eingeschaltet, reboot)
 15.12.10  - ca. 11:00 crash, reboot
 14.02.11  - Datenloeschung, remote power off (nur SRM bleibt an)
 14.03.11  - Ausfall der Netzteilredundanz einer I/O-Unit (drawer4)
             dabei kurzzeitig USV Ueberlast, daher Strom-Trennung, SRM off
 April 2011 - Aussonderung
 

Probleme:

Uns sind im Laufe der Zeit folgende Probleme hauptsaechlich mit Tru64 aufgefallen.
(a) df -k zeigt bei advfs-Dateisystemen teilweise falsche Werte an, insbesondere nach ominoesen quota_underflow-Warnungen des Systems.
(b) Bei hoher Memory- oder Plattenlast stürzte der Rechner mit verschiedenen Fehlermeldungen (meist Speicherfehler) ab. Seit Mai2005 mit diversen work-arounds und kernel-fixes gegen Tru64-Kernelfehler keine auffaelligen Fehler mehr.
(c) schlechtes Out-of-Memory verhalten (beendet Prozesse zufaellig?), kann durch coredump provoziert werden (test: malloc(20GB) + assert(0)), nach Beenden des Verursachers kein Caching fuer mmap-ed Files (eine Art Swap-Gedaechtnis-Effekt)
Fuer Hilfe und Tips zur Beseitigung dieser Probleme sind wir dankbar (z.B. swapoff/swapon unter Linux). Fuer reibungsfreies Rechnen im Grenzbereich unter Tru64 mussten und muessen wir die Programme immer wieder an unnoetige Tru64-Eigenwilligkeiten anpassen bzw. durch Systemeinstellungen aus dem Weg gehen. Deshalb kann ich Tru64 nicht als HPC-Plattform empfehlen. Zum Vergleich haben wir Systeme mit Solaris, IRIX und Linux.

Weitere HPC-Systeme:

SiCortex SC5832 kautz mit 932 * 4 GB, 8-Wege-QuadOpteron meggie mit 256 GB, wildfire (2002-2008, Compaq mit 16 Alpha-21264 731 MHz und 24GB)

Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 18408 (2011-06-10)