IBM twierdzi, że od maja prowadzi „superkomputer AI”, ale zdecydował się powiedzieć o tym światu teraz

IBM twierdzi, że od maja prowadzi „superkomputer AI”, ale zdecydował się powiedzieć o tym światu teraz

Węzeł źródłowy: 1950471

IBM jest najnowszym gigantem technologicznym, który zaprezentował swój własny „superkomputer AI”, składający się z wielu maszyn wirtualnych działających w chmurze IBM Cloud.

System znany jako Vela, który, jak twierdzi firma, jest dostępny online od maja zeszłego roku, jest reklamowany jako pierwszy superkomputer IBM zoptymalizowany pod kątem sztucznej inteligencji, natywny w chmurze, stworzony w celu opracowywania i szkolenia wielkoskalowych modeli sztucznej inteligencji.

Zanim ktokolwiek pośpieszy się, aby zarejestrować się w celu uzyskania dostępu, IBM oświadczył, że platforma jest obecnie zarezerwowana do użytku przez społeczność IBM Research. Od maja 2022 roku Vela stała się „środowiskiem podstawowym” firmy dla badaczy tworzących zaawansowane możliwości sztucznej inteligencji, w tym prace nad modelami podstawowymi.

IBM twierdzi, że wybrał tę architekturę, ponieważ zapewnia ona firmie większą elastyczność skalowania zgodnie z wymaganiami, a także możliwość wdrażania podobnej infrastruktury w dowolnym centrum danych IBM Cloud na całym świecie.

Ale Vela nie działa na żadnym starym, standardowym węźle IBM Cloud; każdy to dwugniazdowy system z procesorami Xeon Scalable drugiej generacji skonfigurowanymi z 2 TB pamięci DRAM i czterema dyskami flash NVMe o pojemności 1.5 TB oraz ośmioma procesorami graficznymi Nvidia A3.2 o pojemności 80 GB, które są połączone przez NVLink i NVSwitch.

To sprawia, że ​​infrastruktura Vela jest bliższa infrastrukturze wysokowydajnego ośrodka obliczeniowego (HPC) niż typowa infrastruktura chmurowa, pomimo nalegań IBM, że idzie inną drogą, ponieważ „tradycyjne superkomputery nie zostały zaprojektowane dla sztucznej inteligencji”.

Warto również zauważyć, że IBM zdecydował się na użycie procesorów x86 zamiast własnych układów Power 10, zwłaszcza że były one reklamowany przez Big Blue jako idealnie nadające się do obciążeń intensywnie korzystających z pamięci, takich jak wnioskowanie AI w dużych modelach.

Węzły są ze sobą połączone za pomocą wielu interfejsów sieciowych o przepustowości 100 Gb/s rozmieszczonych w dwupoziomowej strukturze Clos, która została zaprojektowana tak, aby istniało wiele ścieżek danych w celu zapewnienia redundancji.

Jednak IBM wyjaśnia w poście na blogu powody, dla których zdecydował się na architekturę natywną dla chmury, która koncentruje się na maksymalnym skróceniu czasu potrzebnego do zbudowania i wdrożenia wielkoskalowych modeli AI.

„Czy budujemy nasz system lokalnie, korzystając z tradycyjnego modelu superkomputerów, czy też budujemy ten system w chmurze, w istocie budując superkomputer, który jest również chmurą?” pyta blog.

IBM twierdzi, że przyjmując to drugie podejście, nieco obniżył wydajność, ale znacznie zyskał na produktywności. Sprowadza się to do możliwości konfigurowania wszystkich niezbędnych zasobów za pomocą oprogramowania, a także posiadania dostępu do usług dostępnych w szerszym IBM Cloud, na przykładzie ładowania zestawów danych do IBM Cloud Object Store zamiast konieczności budowania dedykowanej infrastruktury pamięci masowej.

Big Blue powiedział również, że zdecydował się obsługiwać wszystkie węzły w Vela jako maszyny wirtualne, a nie fizyczne instancje, ponieważ ułatwiło to udostępnianie i ponowne udostępnianie infrastruktury za pomocą różnych stosów oprogramowania wymaganych przez różnych użytkowników sztucznej inteligencji.

„Maszyny wirtualne ułatwiłyby naszemu zespołowi wsparcia elastyczne, dynamiczne skalowanie klastrów AI i przenoszenie zasobów między różnego rodzaju obciążeniami w ciągu kilku minut”, wyjaśnia blog IBM.

Firma twierdzi jednak, że znalazła sposób na optymalizację wydajności i zminimalizowanie kosztów związanych z wirtualizacją do mniej niż 5 procent, co jest zbliżone do wydajności samego komputera.

Obejmowało to skonfigurowanie hosta bez systemu do wirtualizacji z obsługą rozszerzeń maszyn wirtualnych (VMX), wirtualizacji pojedynczego głównego wejścia/wyjścia (SR-IOV) i ogromnych stron, a także innych nieokreślonych konfiguracji sprzętu i oprogramowania.

Więcej informacji na temat infrastruktury Vela można znaleźć na stronie blogu IBM.

IBM nie jest jedyną firmą korzystającą z chmury do hostowania superkomputera AI. Microsoftu w zeszłym roku zaprezentował własną platformę przy użyciu infrastruktury Azure połączonej z akceleratorami GPU firmy Nvidia, zestawem sieciowym i pakietem oprogramowania AI Enterprise. Oczekiwano, że będzie to dostępne dla klientów platformy Azure, ale nie określono żadnych ram czasowych.

Inne firmy, które budują superkomputery AI, ale podążają tradycyjną drogą infrastruktury lokalnej, obejmują Meta i Tesla. ®

Znak czasu:

Więcej z Rejestr