IBM sagt, dass es seit Mai einen „KI-Supercomputer“ betreibt, sich aber jetzt entschieden hat, es der Welt zu sagen

IBM sagt, dass es seit Mai einen „KI-Supercomputer“ betreibt, sich aber jetzt entschieden hat, es der Welt zu sagen

Quellknoten: 1950471

IBM ist der neueste Technologieriese, der seinen eigenen „KI-Supercomputer“ vorstellt, der aus einer Reihe virtueller Maschinen besteht, die in der IBM Cloud laufen.

Das als Vela bekannte System, das nach Angaben des Unternehmens seit Mai letzten Jahres online ist, wird als IBMs erster KI-optimierter, Cloud-nativer Supercomputer angepriesen, der mit dem Ziel entwickelt wurde, große KI-Modelle zu entwickeln und zu trainieren.

Bevor sich jemand beeilt, sich für den Zugang anzumelden, gab IBM an, dass die Plattform derzeit der Nutzung durch die IBM Research Community vorbehalten ist. Tatsächlich ist Vela seit Mai 2022 zur „Anlaufumgebung“ des Unternehmens für Forscher geworden, die fortschrittliche KI-Fähigkeiten entwickeln, einschließlich der Arbeit an Grundlagenmodellen, hieß es.

IBM gibt an, dass es sich für diese Architektur entschieden hat, weil sie dem Unternehmen mehr Flexibilität bei der Skalierung nach Bedarf und auch die Möglichkeit gibt, eine ähnliche Infrastruktur in jedem IBM Cloud-Rechenzentrum auf der ganzen Welt bereitzustellen.

Aber Vela läuft nicht auf irgendeiner alten Standard-IBM-Cloud-Knotenhardware; Jedes ist ein Twin-Socket-System mit skalierbaren Xeon-Prozessoren der 2. Generation, die mit 1.5 TB DRAM und vier 3.2-TB-NVMe-Flash-Laufwerken sowie acht 80-GB-Nvidia-A100-GPUs konfiguriert sind, wobei letztere über NVLink und NVSwitch verbunden sind.

Dadurch nähert sich die Vela-Infrastruktur eher einer HPC-Site (High Performance Compute) als einer typischen Cloud-Infrastruktur, obwohl IBM darauf besteht, dass sie einen anderen Weg einschlägt, da „herkömmliche Supercomputer nicht für KI entwickelt wurden“.

Bemerkenswert ist auch, dass IBM sich dafür entschieden hat, x86-Prozessoren anstelle seiner eigenen Power 10-Chips zu verwenden, zumal diese waren angepriesen von Big Blue als ideal geeignet für speicherintensive Workloads wie KI-Inferenzen mit großen Modellen.

Die Knoten sind über mehrere 100-Gbit/s-Netzwerkschnittstellen miteinander verbunden, die in einer zweistufigen Clos-Struktur angeordnet sind, die so konzipiert ist, dass es mehrere Pfade für Daten gibt, um Redundanz bereitzustellen.

IBM erklärt jedoch in einem Blogbeitrag seine Gründe für die Entscheidung für eine Cloud-native Architektur, die sich darauf konzentriert, die Zeit, die zum Erstellen und Bereitstellen großer KI-Modelle erforderlich ist, so weit wie möglich zu verkürzen.

„Bauen wir unser System vor Ort unter Verwendung des traditionellen Supercomputing-Modells oder bauen wir dieses System in die Cloud ein und bauen im Wesentlichen einen Supercomputer, der auch eine Cloud ist?“ fragt der Blog.

IBM behauptet, dass es durch die Übernahme des letzteren Ansatzes einen gewissen Kompromiss bei der Leistung eingegangen ist, aber erheblich an Produktivität gewonnen hat. Dies hängt von der Fähigkeit ab, alle erforderlichen Ressourcen über Software zu konfigurieren und Zugriff auf Dienste zu haben, die in der breiteren IBM Cloud verfügbar sind, beispielsweise das Laden von Datensätzen in den Cloud Object Store von IBM, anstatt eine dedizierte Speicherinfrastruktur aufbauen zu müssen.

Big Blue sagte auch, dass es sich dafür entschieden hat, alle Knoten in Vela als virtuelle Maschinen und nicht als Bare-Metal-Instanzen zu betreiben, da dies die Bereitstellung und erneute Bereitstellung der Infrastruktur mit verschiedenen Software-Stacks, die von verschiedenen KI-Benutzern benötigt werden, vereinfacht.

„VMs würden es unserem Support-Team erleichtern, KI-Cluster dynamisch und flexibel zu skalieren und Ressourcen innerhalb weniger Minuten zwischen Workloads verschiedener Art zu verschieben“, erklärt IBMs Blog.

Das Unternehmen behauptet jedoch, einen Weg gefunden zu haben, die Leistung zu optimieren und den Overhead der Virtualisierung auf weniger als 5 Prozent zu minimieren, was nahezu der Bare-Metal-Leistung entspricht.

Dazu gehörte die Konfiguration des Bare-Metal-Hosts für die Virtualisierung mit Unterstützung für Virtual Machine Extensions (VMX), Single-Root-IO-Virtualisierung (SR-IOV) und Huge Pages, neben anderen nicht näher spezifizierten Hardware- und Softwarekonfigurationen.

Weitere Einzelheiten zur Vela-Infrastruktur finden Sie unter Blog von IBM.

IBM ist nicht das einzige Unternehmen, das die Cloud zum Hosten eines KI-Supercomputers nutzt. Letztes Jahr Microsoft stellte eine eigene Plattform vor unter Verwendung der Azure-Infrastruktur in Kombination mit den GPU-Beschleunigern, dem Netzwerk-Kit und der AI Enterprise-Softwaresuite von Nvidia. Es wurde erwartet, dass Azure-Kunden darauf zugreifen können, es wurde jedoch kein Zeitrahmen angegeben.

Andere Unternehmen, die KI-Supercomputer gebaut haben, aber dem traditionellen Weg der lokalen Infrastruktur folgen, sind unter anderem Meta und Tesla🇧🇷 🇧🇷

Zeitstempel:

Mehr von Das Register