IBM заявляет, что использует «суперкомпьютер с искусственным интеллектом» с мая, но решила рассказать об этом миру сейчас

IBM заявляет, что использует «суперкомпьютер с искусственным интеллектом» с мая, но решила рассказать об этом миру сейчас

Исходный узел: 1950471

IBM — последний технологический гигант, представивший собственный «суперкомпьютер с искусственным интеллектом», состоящий из набора виртуальных машин, работающих в IBM Cloud.

Система, известная как Vela, которая, по утверждению компании, работает в сети с мая прошлого года, рекламируется как первый оптимизированный для ИИ облачный суперкомпьютер IBM, созданный с целью разработки и обучения крупномасштабных моделей ИИ.

Прежде чем кто-либо поспешит подписаться на доступ, IBM заявила, что платформа в настоящее время зарезервирована для использования исследовательским сообществом IBM. Фактически, с мая 2022 года Vela стала «средой для работы» компании для исследователей, создающих передовые возможности искусственного интеллекта, включая работу над базовыми моделями.

IBM заявляет, что выбрала эту архитектуру, потому что она дает компании большую гибкость для масштабирования по мере необходимости, а также возможность развертывания аналогичной инфраструктуры в любом центре обработки данных IBM Cloud по всему миру.

Но Vela не работает ни на одном старом стандартном оборудовании узла IBM Cloud; каждая представляет собой двухпроцессорную систему с масштабируемыми процессорами Xeon 2-го поколения, оснащенными 1.5 ТБ DRAM, четырьмя флэш-накопителями NVMe емкостью 3.2 ТБ, а также восемью графическими процессорами Nvidia A80 емкостью 100 ГБ, последние подключены через NVLink и NVSwitch.

Это делает инфраструктуру Vela ближе к инфраструктуре высокопроизводительных вычислений (HPC), чем к типичной облачной инфраструктуре, несмотря на то, что IBM настаивает на том, что она идет другим путем, поскольку «традиционные суперкомпьютеры не были предназначены для ИИ».

Примечательно также, что IBM предпочла использовать процессоры x86, а не собственные чипы Power 10, тем более что они рекламируется Big Blue как идеально подходящее для рабочих нагрузок с интенсивным использованием памяти, таких как вывод больших моделей ИИ.

Узлы связаны между собой несколькими сетевыми интерфейсами 100 Гбит/с, организованными в двухуровневую структуру Clos, которая разработана таким образом, чтобы обеспечить избыточность данных несколькими путями.

Тем не менее, IBM объясняет в своем блоге причины выбора облачной архитектуры, которая направлена ​​на максимальное сокращение времени, необходимого для создания и развертывания крупномасштабных моделей ИИ.

«Мы строим нашу систему локально, используя традиционную модель суперкомпьютеров, или мы строим эту систему в облаке, по сути создавая суперкомпьютер, который также является облаком?» — спрашивает блог.

IBM утверждает, что, приняв последний подход, она несколько снизила производительность, но значительно повысила производительность. Это сводится к возможности настроить все необходимые ресурсы с помощью программного обеспечения, а также к доступу к службам, доступным в более широком IBM Cloud, на примере загрузки наборов данных в IBM Cloud Object Store вместо необходимости создавать выделенную инфраструктуру хранения.

Big Blue также заявила, что решила использовать все узлы в Vela как виртуальные машины, а не как экземпляры с «голым железом», поскольку это упростило предоставление и повторное предоставление инфраструктуры с различными программными стеками, требуемыми разными пользователями ИИ.

«Виртуальные машины упростили бы для нашей группы поддержки гибкое динамическое масштабирование кластеров ИИ и переключение ресурсов между рабочими нагрузками различных типов за считанные минуты», — поясняется в блоге IBM.

Но компания утверждает, что нашла способ оптимизировать производительность и минимизировать накладные расходы на виртуализацию до уровня менее 5 процентов, что близко к производительности «голого железа».

Это включало настройку «голого» хоста для виртуализации с поддержкой расширений виртуальной машины (VMX), виртуализацию ввода-вывода с одним корнем (SR-IOV) и огромные страницы, а также другие неуказанные аппаратные и программные конфигурации.

Дополнительную информацию об инфраструктуре Vela можно найти на блог IBM.

IBM — не единственная компания, использующая облако для размещения суперкомпьютера с искусственным интеллектом. В прошлом году Майкрософт представила собственную платформу используя инфраструктуру Azure в сочетании с ускорителями графического процессора Nvidia, сетевым комплектом и программным пакетом AI Enterprise. Ожидалось, что это будет доступно для клиентов Azure, но сроки не были указаны.

Другие компании, которые создавали суперкомпьютеры с искусственным интеллектом, но следовали традиционному маршруту локальной инфраструктуры, включают Мета и Tesla, ®

Отметка времени:

Больше от Регистр