Asgard, Compute-Cluster des ITP

ITP Compute-Server Asgard

Asgard -- SiCortex SC072-PDS

Aktuelles (news)
Allgemeines
Hardware (12 Knoten mit MIPS64-6Core, 4GB)
Software (Gentoo Linux)
Zugang/Ansprechpartner
Termine/Infos/Planung
Anwender/Projekte
Probleme

Aktuelles:

Jan09 - Inbetriebnahme und Performance-Tests

Rechnersystem-Kurzbeschreibung

Mit der Inbetriebnahme der SC072-PDS der Firma SiCortex steht den Nutzern ein Entwicklungssystem fuer die "große" 2009 in Betrieb genommenen SC5832 zur Verfügung. Asgard.nat ist ein Compute-Cluster der theoretischen Physik (AG Prof. Jan Wiersig) und wurde im Dezember 2008 beschafft. Er besteht aus einem speziellen Board mit 12 Chips, die jeweils 6 MIPS64-Cores enthalten und mit einem speziellen Netzwerk verbunden sind. Zugang besteht ueber ssh mit PublicKey fuer die Arbeitsgruppen der Theoretisch Physik (ITP) und deren Gaeste. Jobs der Arbeitsgruppe Wiersig werden priorisiert, d.h. andere Jobs werden ggf. abgebrochen und "resubmitted" (in Arbeit). Die Administration erfolgt ueber das URZ (Dr. Joerg Schulenburg URZ-S Tel. 18408 oder vertretungsweise von Dr. Gerald Kasner ITP Tel. 12469). Fragen zum Cluster und Aenderungswuensche, diese Webseite betreffend, richten Sie bitte an Joerg Schulenburg.

Hardware

 Architektur:         distributed memory
 Prozessor (CPU):     12 x MIPS64 x 6 Cores - 700MHz, L1=2*32KB,6ns L2=256kB per Core
 Hauptspeicher (RAM): 48 GB (4 GB/Knoten, 12*2 DDR-2 DIMM 2GB)
                      6*420 MB/s stream, 190ns latency for 256MB random access
 Festplatten (HD):    224 GB NFS Filesystem (ca. 15 MB/s for 2..3 tasks ???)
                      (read /dev/sda = 53MB/s, read file 22MB/s = problem?)
 Netzwerk:            spezielles MPI-Netzwerk (Kautz-Graph)
                      degree M=3, dim N+1=2, nodes V=(M+1)M^N=12
                      max. 16 GB/s MPI-BW, 1.3-2.5us latency MPI_Sendrecv
 Netzwerkanschluss:   1 x Gigabit Ethernet
 Stromverbrauch:      max. 300W (mpi_stress), 240-260W(computing), Idle: 200W (SSP: 52W)
 Performance-Daten:   100.8 GFLOPs peak
                      MPI_Sendrecv 2 Nodes 1550MB/s 1.26us (best=1.21us)
                      MPI_Sendrecv 1 Node   550MB/s 1.20us

two paths at full speed, 0-11 + 1-8-(11)

SC072 Kautzgraph
(b) traffic between 0-11 and 1-8 at 1600MB/s(multi-rail),1070MB/s(64k,one-rail)
(c) traffic between 0-11 and 1-8-11 at 810MB/s(multi-rail),690MB/s(64k,one-rail) = bottleneck DMA-CPU/MEM ?
not shown: traffic between 0-11 (2fold) at 810MB/s(multi-rail),600MB/s(64k,one-rail)
not shown: traffic between 0-11 (2fold) at 810MB/s(multi-rail),600MB/s(64k,one-rail)
not shown: traffic between 0-11 and 5-6 at 1530MB/s(multi-rail),690..1100MB/s(64k,one-rail)

weitere Informationen finden Sie unter: ~~www.SiCortex.com~~ , sowie ~~www.Megware.de~~, Datasheet (ToDo) (PDF)

Systemsoftware, Kommerzielle Software

Gentoo Linux
MPICH2, gnuc, pathscale compiler
128bit long double (1e-34 statt 1e-19(96bit),1e-15(64bit))
scmpi, blas, lapack, blacs, scalapack
joe, ImageMagick-6.3, pngwriter-0.5 (/usr/local)
Jobsystem: slurm
- Kurzbeschreibung jobfile job.sh
- Kurzbeschreibung Job-Kommandos

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh asgard.nat.uni-magdeburg.de (141.44.40.85) mit Public-Key. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden. Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Asgard oder Tel.0391-67-18408.

Termine/Infos/Planung:

 19.12.08  Lieferung + Inbetriebnahme der SC072-PDS
 20.02.09  IP Adresse geaendert, DNS Eintrag
 29.11.09  ca. 17:00 Klimaausfall (power off bis Montag)
 13.01.10  ca. 18:00 Klimaausfall
 13.10.10  Jobsystem angepasst (MaxTime=15-00:01:00,Default=YES)
 04.08.11  neues gcc compiliert (wegen Konflikten wieder entfernt)
 21.06.13 System haengt, reboot 
 15.08.17 CPU-L2-ECC-Problem, Fehler bei CE handling?
          /sys/devices/system/edac/cpu/panic_on_ue = 0 hilft
 18.08.17 Stromausfall durch Abschaltung (statt Bypass) ueberhitzter USV, 
          Klimatisierung der USV durch Nager stillgelegt,

Projekte:

...
MonteCarlo-Simulationen (Phototaxis of Halobacterium salinarum) Nov. 2009 (Link dead 2011)

Probleme:

...

Weitere HPC-Systeme:

SC5832 kautz, GbE Cluster mit 30 Dual-QuadXeon quantum

Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 18408 (2011-08-03)