IBM mengatakan telah menjalankan 'superkomputer AI' sejak Mei tetapi sekarang memilih untuk memberi tahu dunia

IBM mengatakan telah menjalankan 'superkomputer AI' sejak Mei tetapi sekarang memilih untuk memberi tahu dunia

Node Sumber: 1950471

IBM adalah raksasa teknologi terbaru yang mengungkap "superkomputer AI" miliknya sendiri, yang terdiri dari sekumpulan mesin virtual yang berjalan di dalam IBM Cloud.

Sistem yang dikenal sebagai Vela, yang diklaim perusahaan telah online sejak Mei tahun lalu, disebut-sebut sebagai superkomputer cloud-native IBM pertama yang dioptimalkan untuk AI, dibuat dengan tujuan untuk mengembangkan dan melatih model AI skala besar.

Sebelum ada yang bergegas mendaftar untuk akses, IBM menyatakan bahwa platform tersebut saat ini disediakan untuk digunakan oleh komunitas Riset IBM. Faktanya, Vela telah menjadi "lingkungan masuk" perusahaan bagi para peneliti yang menciptakan kemampuan AI tingkat lanjut sejak Mei 2022, termasuk mengerjakan model dasar, katanya.

IBM menyatakan bahwa mereka memilih arsitektur ini karena memberi perusahaan fleksibilitas yang lebih besar untuk meningkatkan sesuai kebutuhan, dan juga kemampuan untuk menyebarkan infrastruktur serupa ke pusat data IBM Cloud mana pun di seluruh dunia.

Tetapi Vela tidak berjalan pada perangkat keras node IBM Cloud standar lama mana pun; masing-masing adalah sistem soket ganda dengan prosesor Xeon Scalable Generasi ke-2 yang dikonfigurasi dengan DRAM 1.5 TB, dan empat flash drive NVMe 3.2 TB, ditambah delapan GPU Nvidia A80 100 GB, yang terakhir dihubungkan oleh NVLink dan NVSwitch.

Hal ini membuat infrastruktur Vela lebih mirip dengan situs komputasi kinerja tinggi (HPC) daripada infrastruktur cloud pada umumnya, meskipun IBM bersikeras bahwa itu mengambil jalur yang berbeda karena "superkomputer tradisional tidak dirancang untuk AI".

Perlu dicatat juga bahwa IBM memilih untuk menggunakan prosesor x86 daripada chip Power 10-nya sendiri, terutama karena ini adalah disebut-sebut oleh Big Blue sebagai ideal untuk beban kerja intensif memori seperti inferensi AI model besar.

Node saling terhubung menggunakan beberapa antarmuka jaringan 100Gbps yang diatur dalam struktur Clos dua tingkat, yang dirancang sedemikian rupa sehingga ada beberapa jalur data untuk menyediakan redundansi.

Namun, IBM menjelaskan dalam posting blog alasannya memilih arsitektur cloud-native, yang berpusat pada pengurangan waktu yang diperlukan untuk membangun dan menerapkan model AI skala besar sebanyak mungkin.

“Apakah kita membangun sistem di lokasi, menggunakan model superkomputer tradisional, atau apakah kita membangun sistem ini ke dalam cloud, yang intinya membangun superkomputer yang juga merupakan cloud?” blog bertanya.

IBM mengklaim bahwa dengan mengadopsi pendekatan yang terakhir, ia telah sedikit berkompromi pada kinerja, tetapi memperoleh banyak produktivitas. Hal ini bermuara pada kemampuan untuk mengonfigurasi semua sumber daya yang diperlukan melalui perangkat lunak, serta memiliki akses ke layanan yang tersedia di Cloud IBM yang lebih luas, dengan contoh memuat kumpulan data ke Cloud Object Store IBM alih-alih harus membangun infrastruktur penyimpanan khusus.

Big Blue juga mengatakan memilih untuk mengoperasikan semua node di Vela sebagai mesin virtual daripada contoh logam kosong karena ini membuatnya lebih mudah untuk menyediakan dan menyediakan kembali infrastruktur dengan tumpukan perangkat lunak berbeda yang diperlukan oleh pengguna AI yang berbeda.

“VM akan memudahkan tim dukungan kami untuk secara fleksibel menskalakan klaster AI secara dinamis dan mengalihkan sumber daya di antara berbagai jenis beban kerja dalam hitungan menit,” jelas blog IBM.

Tetapi perusahaan mengklaim bahwa mereka menemukan cara untuk mengoptimalkan kinerja dan meminimalkan overhead virtualisasi hingga kurang dari 5 persen, mendekati kinerja bare metal.

Ini termasuk mengonfigurasi host bare metal untuk virtualisasi dengan dukungan untuk Virtual Machine Extensions (VMX), virtualisasi IO root tunggal (SR-IOV) dan halaman besar, di antara konfigurasi perangkat keras dan perangkat lunak yang tidak ditentukan.

Rincian lebih lanjut dari infrastruktur Vela dapat ditemukan di blog IBM.

IBM bukan satu-satunya perusahaan yang menggunakan cloud untuk menghosting superkomputer AI. Tahun lalu, Microsoft meluncurkan platformnya sendiri menggunakan infrastruktur Azure yang dikombinasikan dengan akselerator GPU Nvidia, kit jaringan, dan rangkaian perangkat lunak AI Enterprise-nya. Ini diharapkan tersedia untuk diakses oleh pelanggan Azure, tetapi tidak ada kerangka waktu yang ditentukan.

Perusahaan lain yang telah membangun superkomputer AI, tetapi mengikuti jalur infrastruktur lokal tradisional, antara lain meta dan Tesla. ®

Stempel Waktu:

Lebih dari Pendaftaran