URZ Compute-Server GS1280 "Marvel" |
Marvel -- HP GS1280
Aktuelles:
|
Mit der Installation einer GS1280 der Firma HP im Juni 2003 steht den Nutzern unserer Universität ein Mehrprozessor-Hochleistungsrechner mit 64-bit-Befehlsbreite und Parallelisierungsmöglichkeit zur Verfügung. Die Marvel ist für spezielle Anwendungen mit hohen Anforderungen an Compute-Leistungen bestimmt.
Architektur: | SMP, cache-coherent Non-Uniform Memory Architecture (ccNUMA) |
Prozessor (CPU): | 32 x Alpha EV7 (21364) - 1150MHz, 64kB-I + 64KB-D L1, 1.75MB L2, MemBW 12.3GB/s, IO-BW 3.2GB/s, 2 FLOP/clk |
Hauptspeicher (RAM): | 128 Gbytes (4GB/CPU, Latenz 82-250ns, PC800@767MHz 2ctrl*4ch*1.54GB/s/CPU(+1chECC/ctrl)) |
Festplatten (HD): | 26 x 72 GBytes (15000rpm, 72MB/s, U3-SCSI), teilw. über RAID |
Netzwerkanschluss: | Ethernet, optisch, 1Gbit/s |
Stromverbrauch: | ca. 10kW |
Performance-Daten: | 73.6GFLOPs, 12.3GB/s/CPU (1.5 FLOP/Word), I/O=3.2GB/s/CPU (hp), CINT=285, CFP=405 (spec2000), white paper (pdf) |
weitere Informationen finden Sie unter: AlphaServer GS1280 (HP),
#!/bin/bash
# Bitte benoetigte Resourcen ppn,cput und mem nach unten anpassen!
# ppn=Anzahl_CPUs, walltime=max.real-time hh:mm:ss
# mem=Memory(summed) vmem=vmemlimit(summed)
# output nach job.sh.oNNN
#PBS -l nodes=1:ppn=8
#PBS -l walltime=767:00:00,mem=64gb,vmem=64gb
#PBS -m n
#PBS -j oe
NP=$(grep -c "." $PBS_NODEFILE) # Anzahl Zeilen = nutzbare CPU-Zahl
echo "NP=$NP JobID=$PBS_JOBID";date;pwd
ulimit -v $(( $(ulimit -v) / $NP )) # setze vmem-Limit per mpi-Task
cd $PBS_O_WORKDIR # Verzeichnis wechseln
dmpirun -np $NP ./a.out # auszufuehrende MPI-Datei im $HOME
/usr/local/bin/qstat -f $PBS_JOBID # output PBS-stats
qsub job.sh # Job abschicken (man qsub)
qstat -s # Jobliste anzeigen (man qstat)
qdel JOBNUMMER # Job loeschen (man qdel)
# temporaeres Ausgabefile = /var/spool/PBS/spool/$JOBID.marvel.OU
qsub -I -l mem=4gb,vmem=4gb # interaktive Arbeit mit 4GB RAM
Der Zugang erfolgt aus der UNI-Domain über ssh marvel.urz.uni-magdeburg.de (141.44.8.16). Bitte starten Sie Rechen-Jobs nur ueber das Jobsystem OpenPBS (qsub -q normal job.sh). Das Jobsystem dient der Vermeidung von "Out-Of-Memory"-Situationen, die in der Regel zum Crash des Systems führen. Der Speicherverbrauch fuer Nicht-Job-Prozesse ist auf 1GB begrenzt. Bitte erlaeutern Sie in der .plan-Datei (nedit .plan), was Sie vorhaben, und welche Resourcen Sie benoetigen, damit der Admin und andere User sich mit (finger user) ein Bild ueber die zukuenftige Auslastung des Servers machen koennen. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden. Bitte beachten Sie, dass unsere Computeserver nicht der Aufbewahrung von Daten dienen. Deshalb sind die Plattensysteme nur teilweise mit Redundanz ausgestattet und auf Backups wird zugunsten von Performance und Stabilitaet verzichtet. Sichern Sie bitte selbst Ihre Resultate zeitnah und entfernen Sie angelegte Dateien, um anderen Nutzern genug Speicher fuer deren Rechnungen zur Verfuegung stellen zu koennen. Danke! Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Marvel oder Tel.18408.
03.06.03 - Inbetriebnahme der GS1280 03.06.03 - Installation GNU Programme: (gtar, gmake, bash, ...) 04.06.03 - Installation Compaq C/C++/Fortran 6.5 (cxx,f77,f90) 06.06.03 - neuer Tru64-Kernel (reboot) 17.06.03 - Installation Maple 6.01 (Aufruf: xmaple) 17.06.03 - Installation NAG FORTRAN MARK19 Library(-L/usr/local/nag/fldau19da -lnag) 17.06.03 - Installation Fluent, Version 6.0.12, Gambit 2.0.4 17.06.03 - Installation ANSYS, Version 6.1 (Aufruf: ansys) 17.06.03 - Installation Matlab 6.5 R13 (Aufruf: matlab13) 17.06.03 - Installation ABAQUS, Version 6.3-1 (/usr/local/abaqus/6.3-1/exec/abq631) 26.06.03 - Installation Marc, Vers 2003 (Aufruf: marc2003, /opt/marc2003/mentat2003/..) 26.06.03 - reboot noetig, neuer swap modus (sonst nur 35GB MEM verfuegbar) 26.06.03 - defekte Festplatte (/tmp15) 10.07.03 - Crash (Ursache unbekannt, Kernelfehler nach Speicherueberlauf?) 11.07.03 - Shutdown wegen Wartung (Hardware) 18.08.03 - Am 16.08. Systemabsturz durch Power-Fehler in einer CPU 01.09.03 - Crash: Power-Fehler in Spannungsversorgung fuer RAM 07.09.03 - Stromabschaltung !!! 12.09.03 - Austausch der (defekten) Spannungsversorgung 11.11.03 - Ursache fuer PAM-STAMPs Performance-Probleme aufgedeckt, Anzahl System-Calls durch Anwenderprogramme >> 3000/s 19.03.04 - Crash verursacht durch defekte Festplatte (?) 30.09.04 - Crash unbekannter Ursache, Firmware updated 12.11.04 - Crash verursacht durch defekten RAM (?), RAM getauscht 01.02.05 - Installation gcc/g++ Version 3.4.3-alphaev7-dec-osf5.1 11.03.05 - Crash verursacht durch defekten RAM (?) oder Kernelbug (?) 12.03.05 - Kernelfehler erzeugt unregulaeres Pagen. Der Fehler ist an HP gemeldet und in Bearbeitung. 15.06.05 - Workaround (Patch) installiert, nun volle Nutzung moeglich, geringe Performance-Einbußen. 04.07.05 - Neuer Patch getestet, bleibt fehlerhaft, wieder Workaround 06.07.05 - Mit PatchKit-4 wurde /shlib/libpthread.so ersetzt und ansys90 funktioniert nicht mehr (bitte wildfire nutzen) 19.07.05 - Ausfall der home-disk (Backup vom Vortag) 29.09.05 - Installation ANSYS, Version 10.0 (Aufruf: ansys) 17.10.05 - Installation Fluent, Version 6.2.16 15.11.05 - Installation OpenSSHD (X11-Grafik nun viel schneller!) 12.04.06 - Installation OpenSSHD-4.3 mit tcp_wrapper (> 500attacks/10min) 30.05.06 - Crash durch Nutzer-generiertem Out-of-Memory. Q: coredump erzeugt Out-of-Memory? dump_cores set to 0. 14.06.06 - mmaped file vom 31.05.06 trotz 40GB free Mem nicht gecached, process idled (12-17%CPU + high Disk-I/O) 11.04.07 - kein Ansys-11.0 fuer Alpha, wird nicht unterstuetzt - kein Abaqus-6.7 fuer Alpha, wird nicht unterstuetzt (6.4=ok) 01.12.07 - Crash durch Nutzer-generiertem Out-of-Memory. see /var/adm/crash/crash-data.13 03.06.08 - ca. 22:50 Crash 16.09.08 - Stromabschaltung wegen Kabelarbeiten 25.09.08 - Crash 10.10.08 - kein Maple-12 fuer Alpha, wegen Upgrade Zwang kein Maple mehr unterstuetzt 25.02.09 - neues Lizenzfile nicht von alten Gambit unterstuetzt, keine neue Alpha-Version 19.06.09 - Ende HW-Support / temporaere Abschaltung wegen Klimaarbeiten 22.06.09 - defekter Raid-Controller(?) nach Wiedereinschalten 28.07.09 - 13min Strom- und Klimaausfall (shutdown) 11.08.09 - Lesefehler /dev/disk/dsk19c (/tmp1 + /tmp) 17.09.09 - geplante Stromarbeiten, vergessene Deaktivierung des USV scripts (shutdown) 19.10.09 - update editor to joe-3.7 23.10.09 - Ausfall der Netzteilredundanz einer I/O-Unit (drawer5) 16.11.09 - 40% swap full, extrem slow down, 12GB non-Job process killed 07.12.09 - 10% swap full, extrem slow down, 25GB non-Job process killed 07.12.09 - gnu-screen-4.0.3 installed 18.02.10 - Ausfall dsk19c (/tmp1 + /tmp), + Ausfall dsk20 (oldswap+reserve) 16.04.10 - ca. 01:43 Ausfall 2tes Netzteil einer I/O-Unit (drawer5) - damit ist diese I/O-Unit ausgefallen, eingeschraenkter Weiterbetrieb 23.06.10 - Plattenausfall dsk16c (/tmp16) 15.07.10 - Abschaltung wegen Bauarbeiten an Klimaanlage 20.08.10 - Fr 19:20 bis Mo 9:00, Auslösung Power-Switch PDU-CB3 dadurch verbliebene I/O-Einheit stromlos (wieder eingeschaltet, reboot) 15.12.10 - ca. 11:00 crash, reboot 14.02.11 - Datenloeschung, remote power off (nur SRM bleibt an) 14.03.11 - Ausfall der Netzteilredundanz einer I/O-Unit (drawer4) dabei kurzzeitig USV Ueberlast, daher Strom-Trennung, SRM off April 2011 - Aussonderung
Uns sind im Laufe der Zeit folgende Probleme hauptsaechlich mit Tru64
aufgefallen.
(a) df -k zeigt bei advfs-Dateisystemen teilweise
falsche Werte an, insbesondere nach ominoesen quota_underflow-Warnungen
des Systems.
(b) Bei hoher Memory- oder Plattenlast stürzte der Rechner
mit verschiedenen Fehlermeldungen (meist Speicherfehler) ab.
Seit Mai2005 mit diversen work-arounds und kernel-fixes gegen
Tru64-Kernelfehler keine auffaelligen Fehler mehr.
(c) schlechtes Out-of-Memory verhalten (beendet Prozesse zufaellig?),
kann durch coredump provoziert werden (test: malloc(20GB) + assert(0)),
nach Beenden des Verursachers kein Caching fuer mmap-ed Files
(eine Art Swap-Gedaechtnis-Effekt)
Fuer Hilfe und Tips zur Beseitigung dieser Probleme sind wir dankbar (z.B.
swapoff/swapon unter Linux).
Fuer reibungsfreies Rechnen im Grenzbereich unter Tru64 mussten und muessen
wir die Programme immer wieder an unnoetige Tru64-Eigenwilligkeiten
anpassen bzw. durch Systemeinstellungen aus dem Weg gehen.
Deshalb kann ich Tru64 nicht als HPC-Plattform empfehlen.
Zum Vergleich haben wir Systeme mit Solaris, IRIX und Linux.
SiCortex SC5832 kautz mit 932 * 4 GB, 8-Wege-QuadOpteron meggie mit 256 GB, wildfire (2002-2008, Compaq mit 16 Alpha-21264 731 MHz und 24GB)
Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 18408 (2011-06-10)