IBM Power9 CPU – Ideal für KI

Der Stand der Dinge im Cognitive Computing

KI ist inzwischen nicht nur in aller Munde, sondern auch kaum noch wegzudenken. Von der Spracherkennung bis zur Wirkstoff-Forschung in der Pharmabranche gibt es kaum ein Gebiet der Informatik oder der Wissenschaft, in dem der Einsatz selbstlernender Systeme nicht zumindest schon versucht worden wäre. Im Bereich der technischen Informatik bringt die Ausbreitung von Deep Learning eine noch nie gesehene Priorität für massive Parallelität und damit den Aufstieg der Beschleunigerkarten, sei es in Form von FPGAs oder GPUs. Durch dieses Verteilen des Rechnens über mehrere Systemkomponenten steigen die Anforderungen an die Bandbreite und Latenz der Interfaces im System. IBM hat früh erkannt, dass die eigene Power-Architektur mit ihrer traditionell hohen Speicherbandbreite eine gute Ausgangsbasis bietet und wagt nun, nach einem ersten Herantasten mit GPU-Systemen, einen großen Versuch, mit Power9 Marktanteile im KI-Bereich zu erobern.

Power9: Fokus auf Machine Learning

Mit dem Rollout der Power9 Produktpalette setzt IBM konsequent den mit Power8 begonnenen Weg hybrider Systeme aus CPU und GPU fort. Besonders die Märkte für Cloud-Server, HPC und künstliche Intelligenz sollen bedient werden. Grundlage der neuen Systeme ist der Power9 Prozessor, der erstmals die neue Version 3 der Power ISA umsetzt und damit volle Unterstützung für die Einbindung von Beschleunigerkarten bietet.

Features des Power9

Die teils in Böblingen entwickelten Chips werden nun im 14nm FinFET (Feldeffekttransistor) Prozess gefertigt, was im Vergleich zu Power8 erhebliche Energieeinsparungen ermöglicht. Die Rechenleistung pro Sockel wurde mit nun bis zu 24 Kernen bei bis zu 4GHz deutlich gesteigert.
IBMs Vektorerweiterung AltiVec bekommt mit der neuen Prozessorgeneration erstmals die Fassung VSX-3. Damit erhalten die SMT4-Cores mit vierfachem Multithreading je zwei Quad Precision Pipelines, welche 128-bit Gleitkommaberechnungen nach IEEE 754 ausführen können. Wie schon seit Power6 gewohnt, können die Kerne auch mit einer Hardwareimplementierung für Dezimalberechnungen aufwarten, die nun in verbesserter Form vorliegt. Sämtlichen 128-bit Formaten gemein ist ein erheblicher Leistungsvorsprung gegenüber dem Einsatz von Bibliotheken.

Die üppigen Caches und die Unterstützung von gepuffertem DDR4-Arbeitsspeicher bringen niedrige Latenzen und hohe Bandbreite. Mit NVLink V.2 werden Nvidia-Grafikkarten noch enger ins System integriert und können auf den gemeinsam mit den Prozessoren genutzten Arbeitsspeicher verzögerungsarm zugreifen.
Um Wartezeiten durch Routineaufgaben wie Komprimierung und Kryptographie zu vermeiden, sind auf dem Prozessor entsprechende Beschleuniger integriert.

Das IBM System AC922: KI-Server

Der Accelerated Compute Server 922 wurde von IBM speziell als Enterprise-Plattform für KI-Anwendungen entwickelt. Besondere Zielsetzung von IBM war es, die Diskrepanz zwischen theoretischer Maximalleistung und tatsächlicher Performance zu minimieren. Mit Anpassungen des Linuxkernels in Verbindung mit schnellen Interfaces wie NVLink 2.0 und PCIe 4.0 mit CAPI-Unterstützung werden die Latenzen zwischen den Systemkomponenten reduziert. Zwei Power9 Prozessoren mit je bis zu 22 Kernen können auf bis zu sechs Tesla V100 Beschleunigerkarten zugreifen, die sich mit den Prozessoren bis zu 2048GB DDR4-Speicher teilen.

Workloads greifen zunehmend auf mehrere Nodes zu, so dass eine effiziente Skalierung mit der Nodezahl von großer Wichtigkeit ist. Aus diesem Grund bietet das System Dual-Port Infiniband mit einer erheblich erhöhten Bandbreite. Besonders bei großen Datenblöcken über 2048 Bytes lässt sich der Durchsatz von System zu System so im Vergleich zu Infiniband über PCIe 3.0 etwa verdoppeln.
Softwareseitig hilft IBM Programmierern mit dem PowerAI Toolkit für Deep Learning, doch auch die Hardware an sich vereinfacht die Erstellung von GPU-beschleunigten Anwendungen durch die Cache-Kohärenz zwischen Prozessoren und Nvidia-GPUs. Dank den gemeinsam von GPU und CPU genutzten Arbeitsspeicher entfallen viele Erwägungen der Datenlokalität, das bringt eine echte Vereinfachung.

Benchmark

Als Demonstration der Leistungsfähigkeit des System AC922 hat IBM die bekannten Image-Recognition-Networks Chainer und Caffe gewählt. Um die Vorzüge des Systems besonders herauszustellen, wurden große Datensätze verwendet.

Das Testszenario bestand aus einem Power- und einem Xeon- basierten System mit identischer GPU-Ausstattung. Berechnet wurde ein GoogleNet Convolutional Neural Network Model auf einen ImageNet Datensatz. Da die Ebenen des neuronalen Netzes über NVLink schnell mit den GPUs geteilt werden können, wobei der Arbeitsspeicher als L4-Cache fungiert, ergab sich bei den besonders umfangreichen Daten ein deutlicher Leistungsvorteil für das Power-System. IBM reklamiert die 3,7 -fache Leistung für Chainer und die 3,8 -fache Leistung für Caffe.

IBM Power und KI: Ausblick

Bei der Entwicklung neuer Power-Systeme kooperiert IBM unter dem Dach der 2013 gegründeten OpenPOWER-Foundation mit diversen Partnern aus der Industrie, so zum Beispiel mit Google, Mellanox, Redhat, Ubuntu (Canonical), Xilinx und Nvidia. In naher Zukunft ist deshalb nicht nur mit diversen großen AC922 Installationen wie dem 125 PetaFLOPS schnellen Sierra zu rechnen, sondern auch mit weiteren Systemen von IBMs OEM-Partnern. Server mit größerer Bauhöhe und mehr PCIe 4.0 Slots werden auch Raum zur Integration von XILINX FPGAs bieten, was für manche Anwendungen noch mehr Rechenleistung als ein GPU-System bieten kann. Die Verfügbarkeit von NVLink und PCIe 4.0, das bei Intel und AMD kaum vor 2019 zu erwarten sein dürfte, stellt derzeit ein erhebliches Kaufargument für Power-Systeme dar.

Wir bieten auch IBM Power 9 Wartung: IBM Wartung

Von | 2018-03-30T13:48:33+00:00 März 30th, 2018|Allgemein|0 Kommentare

Hinterlassen Sie einen Kommentar