Aktuelles:
AllgemeinesQuantum.nat ist ein Compute-Cluster der theoretischen Physik (AG Prof. Jan Wiersig) beschafft im September 2008. Er besteht aus 30 PowerEdge 1950 Servern die mit 1Gbit Ethernet vernetzt sind. Zugang besteht ueber ssh mit PublicKey fuer die Arbeitsgruppen der Theoretischen Physik (ITP) und deren Gaeste. Jobs der Arbeitsgruppe Wiersig werden priorisiert, d.h. andere Jobs werden ggf. abgebrochen und "resubmitted" (in Arbeit). Die Administration erfolgt ueber das URZ (Dr. Joerg Schulenburg URZ-S Tel. 58408 oder vertretungsweise von Dr. Gerald Kasner ITP Tel. 12469). Fragen zum Cluster und Aenderungswuensche, diese Webseite betreffend, richten Sie bitte an Joerg Schulenburg. 2014-12 wurde das System von CentOS5 und OpenPBS auf SL7 und Slurm umgebaut. |
ssh -X quantum.nat.uni-magdeburg.de # login to master via ssh-key sinfo # get cluster health info squeue # get job queue info module avail # show available software modules module list # show loaded software modules (default: mpi/openmpi-x86_64) module load mpi/openmpi-x86_64 # laeded by default (not needed) mpicc -O3 -o mpiprog mpiprog.c # compile mpi program qsub jobscript # send job to the jobsystem jobscript: #!/bin/sh # 3*6 tasks on 3 nodes 800MB/node shared nodes #SBATCH --nodes=2 #SBATCH --ntasks-per-node=6 #SBATCH --mem=800 #SBATCH --time 48:00:00 # -share erlaubt anderen Jobs, Knoten zu teilen (vs. --exclusive) #SBATCH --share module load mpi/openmpi-x86_64 # see "module av" for available modules mpiexec --bind-to-core ./mpiprog sbatch jobscript # send job to queue, output to slurm-$JobID.out sbatch -N2 -n4 jobscript # start 4 tasks on 2 nodes (2 per node) squeue -l # Jobliste anzeigen scancel JOBNUMMER # Job loeschen # please adapt the CPU needs to your memory needs (CPUs=memory/4GB) # if you dont need much memory, let a minimum of one CPU per node free for # those users, which need a lot of memory (for example ppn=7) # for maximum overall efficiency of the cluster, thanks # contact Joerg Schulenburg Tel. 58408 for help
- 240 cores, 2.9TFLOP, 960GB memory, 13TB scratch disk, 2*30Gbit/s network - overview: - 30 nodes: Dell PowerEdge 1950 (240..300W 3GHz, 235..270W 2GHz 1HE) CPUs= 2*Quad-Xeon E5450 3GHz L1=2*32kB(1ns,15GB/s) L2=2x6MB 1333FSB TDP=80W Memory= 32GB 667MHz FBD (8x4GB dual rank DIMMs, Intel 5000X Chipset) benchmarks: 30*8random=8GB/s,238ns(1GB) 30*8stream=185GB/s Storage= 2*250GB 7k2rpm 3.5inch SATA HD RAID striped (r=158MB/s) Network= 2*1GbE - master: CPU=Quad-Xeon E5405-2.00GHz Memory=8GB disk=6*1TB 7k2-SATA 220W - UPS for master node (1kW) - Storage: 13TB scratch-disk (summed bandwith = 4.5GB/s) 30 * 424GB at node0xx:/scratch (w=110MB/s r=158MB/s ext3r=154MB/s) 5TB (5+1)RAID5 on master via PERC 6/i PCIx8 SAS RAID 256MB 300MB/s sda=1.8TB r=277MB/s sdb=1.8TB sdc=1.2TB 1.7TB home space on master:/home (via GbE-NFS w=88..91MB/s r=51MB/s) 2.8TB work space on master:/tmp1 (ext3 w=185MB/s r=263MB/s) - Network: eth0: 1GE 192.168.42.0/24 ssh,NFS 192.168.44.0/24 ipmi eth1: 1GE 192.168.43.0/24 mpich2 theor.peak=30*100MB/s=3GB/s MPI_Sendrecv: (30: 30*60MB/s(32KB), 45us, 30*8: 1400MB/s 118us)
Logfiles: - /var/torque/server_logs/YYYYMMDD - /var/log/messages
11.09.08 - Lieferung 72 Kartons 22.09.08 - zweite Nachfrage wann Aufbau 01.10.08 - Systemconfig abgefragt (Sonderwunsch CentOS wird erfuellt) 06.10.08 - Server Aufbau HW 17.10.08 - Installation (5 Wochen!) xx.10.08 - Instabilitaeten IPMI+COM1 umgangen. Cluster einsatzbereit. MPI-Bug getriggert, fix durch par-tec 04.11.08 - crash aller nodes durch urandom-test 14.11.08 - node003 hanging because of Out-Of-Memory 16.12.08 - stabil mit BIOS.ext.ser.com=COM2 (workaround) (nach 2Monaten!) 16.12.08 - node006 SAS-Controller defekt (Austausch) 25.01.09 - node006 disk controller ausgefallen (?) 14.03.09 - node006 wieder defekt? 28.07.09 - 11:00 13min Stromausfall 31.08.09 - node017-node020 down, External Serial Connector war COM1 11.03.10 - Bioseinstellungen verbessert (fix IPMI/serial_console/IRQ3 problem) node006 reconfiguriert 15.07.10 - Teilabschaltung node01-28 wegen Klimaarbeiten 06.08.10 - Absturz Node011, ExtSerCon war noch auf COM1 gestellt 14.09.10 - node005 hanging because of Out-Of-Memory, bad OOM-kills 10.05.11 - 22:00 Shutdown wegen Klimaausfall, ab 30.05. Sparbetrieb wegen Klimareparatur 01.06.11 - shutdown wegen Klimaausfall 03.06.11 - Knoten physisch abgeschaltet, da Netzteile immernoch heiss 14.06.11 - Klima-Teilbetrieb, Knoten eingeschaltet 04.07.11 - mpich2 aus EPEL installiert 08.07.11 - Status: 5 blaue Anzeige LEDs defekt (17%), 2 Nodes mit ECC-Warnung 18.10.11 - set parastation.psd.rl_core=0 (writing no mpi-core-files, parallel writing of big core-files caused excessive nfs load) 08.12.11 - Abschaltung der Knoten wegen Klima-Reparatur 14.12.11 - epel-mpich2 auf Knoten installiert (PATH-konflikte) 16.12.11 - install/update openmpi, wrapperscripte ergaenzt 20.04.12 - Bios-Update n001-030 2.3.1 zu 2.7.0 (fix sporadische DIMM-Error-Meldungen!?) - korrigierbare ECC-Fehler node026 (wandert mit DIMM slot7 zu slot8) - memtest86+-4.20 fehlerfrei 04.05.12 - Austausch defektes Memorymodul node026 05.05.12 - Ausfall 670W-Netzteil node024 09.07.12 - Netzteil node024 getauscht (+defektes rueckgesendet) 18.07.12 - Stromausfall (eine Phase, node1-8,25-30,master) 25.07.12 - Stromausfall (2 Phasen, Last umverteilt, Messung Stromzange 4*8A=7kW) Teilabschaltung bis Upgrade Hauptsicherungen 63 zu 100A 29.10.12 - Austausch Hauptsicherung 63A zu 100A, alle Knoten hochgefahren 20.01.13 - probleme durch volles /var, nach "yum clean all" wieder ok 26.04.13 - Ausfall node006.MegaRAID am 21.04. 22:11, reset (Jobs hingen in Queue) 26.08.13 15:41-15:53 uniweiter Stromausfall + Netzwerkstoerung, Nodes off/on 04.09.14 - reboot master, USV resettet (reset error) 09.09.14 - node023 system+ipmi hanging, IERR CPU1, hard off/on node030 Ausfall 4GB-DIMM7 + reboot ((8-2)*4GB=24GB) 18.12.14 - Neuinstallation Scientific Linux 7 + Jobmanager Slurm 14.11 18.12.14 - neuer kernel 3.10.0 (leider ohne blcr support) 01.06.15 - Ausfall Dell-GbSwitch 1 (48port 1Gb), Kabel auf Switch 2 gewechselt 30.07.15 - Sicherung F39 ausgeloest (eine Phase), Master + Node22(?)-30 off 13.08.15 - reboot master (Ursache unklar), slurmctld startet nicht autostart problem slurmctld am 21.08.15 behoben (see 07.04.16) 21.08.15 - def. 4GB DIMMs node01 nach node30 getauscht node01: wieder OK (32GB) node30: sockel dimm7 defekt und dimm8 defekt = 32GB-2*4GB = 24GB 24.08.15 - reboot master (Ursache unklar, Gewitter?), nfs-server startet nicht 27.08.15 14:00 reboot master (Ursache unklar), nfs-server startet nicht soft-reboot ok, nfs-problem behoben? 14.01.16 14:00 reboot master (Ursache unklar), nfs-server startet nicht 11.02.16 13:58 reboot master (Ursache unklar), monitoring+alarm reboots 25.02.16 14:00 reboot master (14d-USV-selftest?), Jobs laufen nach 2min weiter 10.03.16 13:55 reboot master (14d-USV-selftest!), Jobs OK 24.03.16 13:46 reboot master, Jobs OK, set cluster to DRAIN 07.04.16 7y-bad-USV-APC +14d-selftest caused reboots, USV removed 17.02.17 reconfigure slurm to avoid swap-use by bad cgroup-config
Bei der Installation im Oktober 2008 traten folgende Probleme auf: Die mpich-Bibliothek hatte einen Bug (Deadlock wurde von ParTec behoben) und das System ist vermutlich in Folge eines Firmwarebugs im BMC zur Fernsteuerung ueber IPMI im Zusammenspiel mit einem Bug im seriellen Treiber des Linuxkernels instabil, d.h. es stuerzte bei starker Belastung nach gewisser Zeit mit mit Kernel Oops ab (Kernel Panic mit uart_put_char+0x42/0x64 oder _stext+0x7ffff000/0x1000, oder serial8250: too much work for irq3). Letzteres Problem liess sich durch Umkonfigurierung des "Externel Serial Connectors" von COM1 auf COM2 im BIOS oder deaktivieren von agetty fuer ttyS1 umgehen.
typische Fehlerlogs: init Id "co" respawning too fast: disabled for 5 minutes login: FAILED LOGIN 3 FROM (null) FOR , User not known to the underlying ... pam_unix(login:auth): authentication failure; logname=LOGIN uid=0 euid=0 tty=ttyS1 ruser= rhost= Funktionierende Einstellung (Work Around): Serial Communication ....... On with Console Redirection via COM2 External Serial Connector .. COM2 Failsafe Baud Rate ......... 57600 Remote Terminal Type ....... VT100/VT220 Redirection After Boot ..... Enabled2014-12 bei der Neukonfigurierung faellt auf, dass immernoch gelegentlich Zeichen via IPMI verloren gehen. Selbst bei niedrigster Uebertragungsrate von 9600bd verschluckt sich die IPMI-Console schon im BIOS und muss neu gestartet werden.
Out-of-Memory-Probleme (OOM), kernel-2.6.18 haengt u.U.: Workarround (tested +buffer+cache+/dev/shm) for rc.local Jul2011: echo 100 > /proc/sys/vm/overcommit_ratio # full memory can be used echo 2 > /proc/sys/vm/overcommit_memory # no overcommit memory!
- blaue LEDs nach 3 Jahren dauerleuchten nur noch 0-20% Helligkeit, 7 von 60 Totalausfaelle (60 gruene LEDs ohne merkbare Probleme)
SC072-PDS asgard, GbE Cluster mit 30 Dual-QuadXeon quantum, SC5832 kautz, ISUT-Cluster comp2_mb