ITP Compute-Server Asgard

sc072 von aussen
sc072 board

Asgard -- SiCortex SC072-PDS

Aktuelles:

  • Jan09 - Inbetriebnahme und Performance-Tests

Rechnersystem-Kurzbeschreibung

Mit der Inbetriebnahme der SC072-PDS der Firma SiCortex steht den Nutzern ein Entwicklungssystem fuer die "große" 2009 in Betrieb genommenen SC5832 zur Verfügung. Asgard.nat ist ein Compute-Cluster der theoretischen Physik (AG Prof. Jan Wiersig) und wurde im Dezember 2008 beschafft. Er besteht aus einem speziellen Board mit 12 Chips, die jeweils 6 MIPS64-Cores enthalten und mit einem speziellen Netzwerk verbunden sind. Zugang besteht ueber ssh mit PublicKey fuer die Arbeitsgruppen der Theoretisch Physik (ITP) und deren Gaeste. Jobs der Arbeitsgruppe Wiersig werden priorisiert, d.h. andere Jobs werden ggf. abgebrochen und "resubmitted" (in Arbeit). Die Administration erfolgt ueber das URZ (Dr. Joerg Schulenburg URZ-S Tel. 18408 oder vertretungsweise von Dr. Gerald Kasner ITP Tel. 12469). Fragen zum Cluster und Aenderungswuensche, diese Webseite betreffend, richten Sie bitte an Joerg Schulenburg.

Hardware

 Architektur:         distributed memory
 Prozessor (CPU):     12 x MIPS64 x 6 Cores - 700MHz, L1=2*32KB,6ns L2=256kB per Core
 Hauptspeicher (RAM): 48 GB (4 GB/Knoten, 12*2 DDR-2 DIMM 2GB)
                      6*420 MB/s stream, 190ns latency for 256MB random access
 Festplatten (HD):    224 GB NFS Filesystem (ca. 15 MB/s for 2..3 tasks ???)
                      (read /dev/sda = 53MB/s, read file 22MB/s = problem?)
 Netzwerk:            spezielles MPI-Netzwerk (Kautz-Graph)
                      degree M=3, dim N+1=2, nodes V=(M+1)M^N=12
                      max. 16 GB/s MPI-BW, 1.3-2.5us latency MPI_Sendrecv
 Netzwerkanschluss:   1 x Gigabit Ethernet
 Stromverbrauch:      max. 300W (mpi_stress), 240-260W(computing), Idle: 200W (SSP: 52W)
 Performance-Daten:   100.8 GFLOPs peak
                      MPI_Sendrecv 2 Nodes 1550MB/s 1.26us (best=1.21us)
                      MPI_Sendrecv 1 Node   550MB/s 1.20us
M=3 N=2 12-Node-Kautzgraph~two paths at full speed, 0-11 + 1-8-(11)~two paths at half speed, 0-11 + 1-8-11
SC072 Kautzgraph
(b) traffic between 0-11 and 1-8 at 1600MB/s(multi-rail),1070MB/s(64k,one-rail)
(c) traffic between 0-11 and 1-8-11 at 810MB/s(multi-rail),690MB/s(64k,one-rail) = bottleneck DMA-CPU/MEM ?
not shown: traffic between 0-11 (2fold) at 810MB/s(multi-rail),600MB/s(64k,one-rail)
not shown: traffic between 0-11 (2fold) at 810MB/s(multi-rail),600MB/s(64k,one-rail)
not shown: traffic between 0-11 and 5-6 at 1530MB/s(multi-rail),690..1100MB/s(64k,one-rail)

weitere Informationen finden Sie unter: www.SiCortex.com , sowie www.Megware.de, Datasheet (ToDo) (PDF)

Systemsoftware, Kommerzielle Software

Zugang/Ansprechpartner

Der Zugang erfolgt aus der UNI-Domain über ssh asgard.nat.uni-magdeburg.de (141.44.40.85) mit Public-Key. Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen, beachten Sie bitte die Konfigurationshinweise des URZ. Accounts können im Kontaktbüro des Rechenzentrums beantragt werden. Für Fragen und Probleme wenden Sie sich bitte an mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Asgard oder Tel.0391-67-18408.

Termine/Infos/Planung:

 19.12.08  Lieferung + Inbetriebnahme der SC072-PDS
 20.02.09  IP Adresse geaendert, DNS Eintrag
 29.11.09  ca. 17:00 Klimaausfall (power off bis Montag)
 13.01.10  ca. 18:00 Klimaausfall
 13.10.10  Jobsystem angepasst (MaxTime=15-00:01:00,Default=YES)
 04.08.11  neues gcc compiliert (wegen Konflikten wieder entfernt)
 21.06.13 System haengt, reboot 
 15.08.17 CPU-L2-ECC-Problem, Fehler bei CE handling?
          /sys/devices/system/edac/cpu/panic_on_ue = 0 hilft
 18.08.17 Stromausfall durch Abschaltung (statt Bypass) ueberhitzter USV, 
          Klimatisierung der USV durch Nager stillgelegt, 

Projekte:

Probleme:

...

Weitere HPC-Systeme:

SC5832 kautz, GbE Cluster mit 30 Dual-QuadXeon quantum

Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 18408 (2011-08-03)