URZ HPC-Cluster Neumann


Neumann - 100 Teraflop Infiniband-Cluster

Aktuelles:

  • Mar2016 - Aufnahme Normalbetrieb, Problembeseitigungen
  • ToDo: background-jobs, Application-Checkpointing
  • Mai2016 - Please dont use your home for big data! This will create problems on the login node. Always use /scratch/tmp/${USER}${SOME_NUMBER} for big data and remove files after usage. Please limit yourself to 8GB at home.

Rechnersystem-Kurzbeschreibung

Mit der Installation des Haswell-Systems der Firma Clustervision im November/Dezember 2015 steht den Nutzern unserer Universität ein Mehrprozessor-Hochleistungscluster mit Parallelisierungsmöglichkeit (SMP/MPI) zur Verfügung. Der Neumann-Cluster ist für spezielle Anwendungen mit hohen Anforderungen an Compute-Leistungen bestimmt. Sie löst die älteren HPC-Systeme (kautz 6core-MIPS 972*4GB, meggie 32core-amd64 1*256GB) ab. Durch die hohe Netzwerkbandbreite and ausreichend Hauptspeicher ist insbesondere die Berechnung sehr grosser Probleme auf diesem Cluster effizienter möglich.

Hardware

Architektur: uniform distributed memory, 172 infiniband-connected 16core-ccNuma-nodes 256 GB/node, 2 GPU-nodes 4 cards/node
Prozessor (CPU): 2 x Xeon E5-2630v3 (Haswell) 2.4GHz L2=8x256KB L3=20MB Boost_AVX=2.6GHz Boost_single=3.2GHz 256-bit-Vector-support (AVX2) 16 FLOP/clock, 610 GFLOP/node (64bit), 4 memory-channels/CPU je 14.9 GB/s
CoProzessor (GPU): GeForce GTX 980 ca. 4TFLOP(32bit) 156GFLOP(64bit) 4GB RAM onboard, 224 GB/s, 4 cards/node, 2(lx)+1(win) Nodes (versus 1.2TFLOP(32bit)/node und 119GB/s der Haswell-CPUs)
Board: ASUSTeK RS720Q-E8-RS12 1.xx (4 boards per 2HE-chassis)
Hauptspeicher (RAM): 256 Gbytes, 16*16GB-DDR4 ECC Micron, DDR4-1866MHz=14.9GB/s, 4 channels/CPU, 2 DIMMs/Channel, Memory-Bandwidth 119 GB/s/Node
Festplatten (HD): diskless nodes, BeeGFS 4 Nodes je 2*(10+2 RAID6) * 4TB ca. 290TB, 8GB/s, 80*105 IOPs * 4KB, meta: 4*32KIOPs * 4KB
Netzwerkanschluss: Gigabit-Ethernet (management), QDR-Infiniband (40Gb/s, peak=4GB/s)
Stromverbrauch: 58kW (idle: 16kW)
Performance-Daten: MemStream: 119 GB/s/node, 20.5 TB/s
MPI: 3.15 GB/s/node (alltoall uniform, but see problems)
Peak = 103 TFLOPs (40 FLOP/Word, 1.7 GF/W)

Systemsoftware, Anwender-Software