Oscar 6.1: neue Version, neue Probleme

Vor einiger Zeit habe ich ja mal über das Cluster Framework Oscar geschrieben. Dieses funktionierte zwar sehr stabil, wenn es mal lief, jedoch bis dahin musste noch viel umgebogen und gewürgt werden.
Nun aber, in der kürzlich erschienen neusten Version 6.1 hat sich sehr viel davon geändert. Neue Funktionen habe ich bisher keine entdeckt, auch der Installationsprozess wurde nicht angepasst, aber nun funktioniert auch fast alles!
Denn als ich es kürzlich in der neusten Version neu installieren wollte, ist mir ein weiterer Fehler aufgefallen:

ERROR: Unable to copy „/usr/share/syslinux/pxelinux.0“ file to /tftpboot. at /usr/bin/setup_pxe line 221
ERROR: at /usr/lib/perl5/vendor_perl/5.8.8/OSCAR/GUI_MAC.pm line 847

Dieser tritt auf, weil ein Pfad falsch definiert wurde, sobald der Button „Setup Network Boot“ gedrückt wird.
Die Lösung liegt im Script, hier muss der Pfad von /usr/lib geändert werden, da sonst die passenden Dateien nicht kopiert werden können:

if(($ARCH eq "i386") || ($ARCH eq "x86_64")) {
     # GV: We should use OS_Setting here
     switch ($os->{'distro'}) {
         case "centos" {
             $pxelinux_dir = "/usr/lib/syslinux";
             $pxelinux_bin = "pxelinux.0";
}

Als zweite Anpassung: Unter CentOS sind die iptables standardmässig aktiviert. In der alten Version hat eine Stelle des Scriptes diese wohl deaktiviert, in der neusten hat man dies aber scheinbar vergessen. Also wenn man nicht andauernd TFTP Errors und Timeouts will, dann:

/etc/init.d/iptables stop

Und danach läuft werden, wie man es schon kennt, die Nodes über das Netzwerk installiert und neu gestartet. Und spätistens hier zeigt sich auch noch der letzte Fehler: SELinux! Altbekannt, wenn man SELinux nicht über die Konsole deaktiviert, so bootet der Node in eine Kernel Panic:

Kernel panic – not syncing: Attempted to kill init!

Also verwenden wir die Lösung wie hier schon einmal beschrieben und alles ist gut!

Danach habe ich mir diese MPI-Scripts kopiert, um mal ein paar Tests zu fahren und auch gleich eine Datei machine.file mit folgendem Inhalt angelegt:

lcc107
lcc108
lcc109
lcc110

Und schon können die ersten Tests los gehen, zum Beispiel mit:

mpirun -np 16 -machinefile machine.file benchmark/osu_multi_lat

Klappt alles, so sieht ein mögliches Ergebnis so aus:

# OSU MPI Multi Latency Test v3.1.1
# Size            Latency (us)
1                        23.41
2                        21.49
4                        17.20
8                        17.61
16                       19.04
32                       16.75
64                       18.12
128                      19.66
256                      20.41
512                      18.62
1024                     19.01
2048                     19.29
4096                     22.02
8192                     27.53
16384                    53.55
32768                    94.08
65536                   170.05
131072                  324.41
262144                  705.19
524288                 1686.10
1048576                3560.08
2097152                7685.79
4194304               15477.91

Und dass der Cluster auch wirklich läuft, sieht man anhand der folgenden Grafik. In Rot die benötigte Zeit zur Berechnung von gegebenen Grössen welcher ein Node alleine braucht und in Blau das selbe für den gesamten Cluster:

Ein Kommentar bei „Oscar 6.1: neue Version, neue Probleme

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.