IBM spune că rulează „supercomputer AI” din mai, dar a ales acum să spună lumii

IBM spune că rulează „supercomputer AI” din mai, dar a ales acum să spună lumii

Nodul sursă: 1950471

IBM este cel mai recent gigant tehnologic care și-a dezvăluit propriul „supercomputer AI”, acesta compus dintr-o mulțime de mașini virtuale care rulează în IBM Cloud.

Sistemul cunoscut sub numele de Vela, despre care compania susține că este online din luna mai a anului trecut, este prezentat drept primul supercomputer IBM optimizat pentru AI, nativ pentru cloud, creat cu scopul de a dezvolta și antrena modele AI la scară largă.

Înainte ca cineva să se grăbească să se înscrie pentru acces, IBM a declarat că platforma este în prezent rezervată pentru utilizare de către comunitatea IBM Research. De fapt, Vela a devenit „mediul de plecare” al companiei pentru cercetătorii care creează capabilități avansate de inteligență artificială din mai 2022, inclusiv munca la modele de fundație, se spune.

IBM declară că a ales această arhitectură deoarece oferă companiei o mai mare flexibilitate de a se extinde după cum este necesar și, de asemenea, capacitatea de a implementa o infrastructură similară în orice centru de date IBM Cloud din întreaga lume.

Dar Vela nu rulează pe niciun hardware standard vechi IBM Cloud nod; fiecare este un sistem cu două socluri cu procesoare scalabile Xeon de a doua generație configurate cu 2 TB de DRAM și patru unități flash NVMe de 1.5 TB, plus opt GPU-uri Nvidia A3.2 de 80 GB, acestea din urmă conectate prin NVLink și NVSwitch.

Acest lucru face ca infrastructura Vela să fie mai aproape de cea a unui site de calcul de înaltă performanță (HPC) decât infrastructura cloud obișnuită, în ciuda insistenței IBM că urma o cale diferită, deoarece „supercalculatoarele tradiționale nu au fost proiectate pentru AI”.

De asemenea, este de remarcat faptul că IBM a ales să folosească procesoare x86 mai degrabă decât propriile cipuri Power 10, mai ales că acestea erau promovat de Big Blue ca fiind ideal pentru sarcinile de lucru care necesită multă memorie, cum ar fi inferențele AI pentru modele mari.

Nodurile sunt interconectate folosind mai multe interfețe de rețea de 100 Gbps aranjate într-o structură Clos pe două nivele, care este proiectată astfel încât să existe mai multe căi pentru date pentru a oferi redundanță.

Cu toate acestea, IBM explică într-o postare pe blog motivele pentru care a optat pentru o arhitectură nativă în cloud, care se concentrează pe reducerea timpului necesar pentru a construi și a implementa modele AI la scară largă, cât mai mult posibil.

„Ne construim sistemul on-premises, folosind modelul tradițional de supercomputing, sau construim acest sistem în cloud, în esență construind un supercomputer care este și un nor?” întreabă blogul.

IBM susține că, adoptând această din urmă abordare, a compromis oarecum în ceea ce privește performanța, dar a câștigat considerabil în productivitate. Acest lucru se reduce la capacitatea de a configura toate resursele necesare prin intermediul software-ului, precum și la accesul la serviciile disponibile pe IBM Cloud mai larg, cu exemplul încărcării seturilor de date în Cloud Object Store de la IBM în loc să fie nevoie să construiască o infrastructură de stocare dedicată.

Big Blue a mai spus că a optat să opereze toate nodurile din Vela ca mașini virtuale, mai degrabă decât ca instanțe bare metal, deoarece acest lucru a simplificat furnizarea și reprovizionarea infrastructurii cu diferite stive de software necesare diferiților utilizatori de AI.

„Machinele virtuale ar face mai ușor pentru echipa noastră de asistență să scaleze în mod flexibil clusterele AI în mod dinamic și să schimbe resursele între sarcini de lucru de diferite tipuri în câteva minute”, explică blogul IBM.

Dar compania susține că a găsit o modalitate de a optimiza performanța și de a minimiza costul general de virtualizare la mai puțin de 5%, aproape de performanța bare metal.

Aceasta a inclus configurarea gazdei bare metal pentru virtualizare cu suport pentru Virtual Machine Extensions (VMX), virtualizare IO cu rădăcină unică (SR-IOV) și pagini uriașe, printre alte configurații hardware și software nespecificate.

Mai multe detalii despre infrastructura Vela pot fi găsite pe Blogul IBM.

IBM nu este singura companie care folosește cloud-ul pentru a găzdui un supercomputer AI. Anul trecut, Microsoft și-a dezvăluit propria platformă folosind infrastructura Azure combinată cu acceleratoarele GPU de la Nvidia, kitul de rețea și suita sa de software AI Enterprise. Acesta era de așteptat să fie disponibil pentru accesul clienților Azure, dar nu a fost specificat un interval de timp.

Alte companii care au construit supercomputere AI, dar urmând traseul tradițional al infrastructurii locale, includ meta și Tesla🇧🇷 🇧🇷

Timestamp-ul:

Mai mult de la Registrul