IBM cho biết họ đã chạy 'siêu máy tính AI' từ tháng XNUMX nhưng chọn bây giờ để nói với thế giới

IBM cho biết họ đã chạy 'siêu máy tính AI' từ tháng XNUMX nhưng chọn bây giờ để nói với thế giới

Nút nguồn: 1950471

IBM là gã khổng lồ công nghệ mới nhất tiết lộ “siêu máy tính AI” của riêng mình, siêu máy tính này bao gồm một loạt các máy ảo chạy trong Đám mây của IBM.

Hệ thống có tên Vela, mà công ty tuyên bố đã trực tuyến từ tháng XNUMX năm ngoái, được quảng cáo là siêu máy tính dựa trên đám mây, được tối ưu hóa cho AI đầu tiên của IBM, được tạo ra với mục đích phát triển và đào tạo các mô hình AI quy mô lớn.

Trước khi bất kỳ ai vội vàng đăng ký quyền truy cập, IBM đã tuyên bố rằng nền tảng này hiện được dành riêng cho cộng đồng Nghiên cứu của IBM sử dụng. Trên thực tế, Vela đã trở thành “môi trường tiếp cận” của công ty dành cho các nhà nghiên cứu tạo ra các khả năng AI tiên tiến kể từ tháng 2022 năm XNUMX, bao gồm cả công việc trên các mô hình nền tảng.

IBM tuyên bố rằng họ chọn kiến ​​trúc này vì nó giúp công ty linh hoạt hơn trong việc mở rộng quy mô theo yêu cầu cũng như khả năng triển khai cơ sở hạ tầng tương tự vào bất kỳ trung tâm dữ liệu Đám mây nào của IBM trên toàn cầu.

Nhưng Vela không chạy trên bất kỳ phần cứng nút Đám mây IBM tiêu chuẩn cũ nào; mỗi cái là một hệ thống hai ổ cắm với bộ xử lý Xeon có thể mở rộng thế hệ thứ 2 được định cấu hình với 1.5 TB DRAM và bốn ổ đĩa flash NVMe 3.2 TB, cùng với tám GPU Nvidia A80 100 GB, GPU sau được kết nối bởi NVLink và NVSwitch.

Điều này làm cho cơ sở hạ tầng Vela gần với cơ sở hạ tầng của một trang web điện toán hiệu năng cao (HPC) hơn là cơ sở hạ tầng đám mây điển hình, mặc dù IBM khăng khăng rằng họ đang đi theo một con đường khác vì “các siêu máy tính truyền thống không được thiết kế cho AI”.

Điều đáng chú ý là IBM đã chọn sử dụng bộ vi xử lý x86 thay vì chip Power 10 của riêng mình, đặc biệt là khi chúng chào hàng bởi Big Blue là lý tưởng cho các khối lượng công việc sử dụng nhiều bộ nhớ như suy luận AI mô hình lớn.

Các nút được kết nối với nhau bằng nhiều giao diện mạng 100Gbps được sắp xếp theo cấu trúc Clos hai cấp, được thiết kế sao cho có nhiều đường dẫn dữ liệu để cung cấp dự phòng.

Tuy nhiên, IBM giải thích trong một bài đăng trên blog lý do chọn kiến ​​trúc dựa trên đám mây, tập trung vào việc cắt giảm thời gian cần thiết để xây dựng và triển khai các mô hình AI quy mô lớn nhiều nhất có thể.

“Chúng tôi xây dựng hệ thống tại chỗ, sử dụng mô hình siêu máy tính truyền thống hay chúng tôi xây dựng hệ thống này trên đám mây, về bản chất là xây dựng một siêu máy tính cũng là một đám mây?” blog hỏi.

IBM tuyên bố rằng bằng cách áp dụng cách tiếp cận thứ hai, nó đã ảnh hưởng phần nào đến hiệu suất, nhưng lại tăng đáng kể về năng suất. Điều này phụ thuộc vào khả năng định cấu hình tất cả các tài nguyên cần thiết thông qua phần mềm, cũng như có quyền truy cập vào các dịch vụ có sẵn trên Đám mây IBM rộng lớn hơn, với ví dụ về tải tập dữ liệu lên Cửa hàng Đối tượng Đám mây của IBM thay vì phải xây dựng cơ sở hạ tầng lưu trữ chuyên dụng.

Big Blue cũng cho biết họ đã chọn vận hành tất cả các nút trong Vela dưới dạng máy ảo thay vì các phiên bản kim loại trần vì điều này giúp việc cung cấp và cung cấp lại cơ sở hạ tầng với các ngăn xếp phần mềm khác nhau theo yêu cầu của những người dùng AI khác nhau trở nên đơn giản hơn.

“Máy ảo sẽ giúp nhóm hỗ trợ của chúng tôi dễ dàng mở rộng linh hoạt các cụm AI một cách linh hoạt và chuyển tài nguyên giữa các loại khối lượng công việc khác nhau chỉ trong vài phút,” blog của IBM giải thích.

Nhưng công ty tuyên bố rằng họ đã tìm ra cách để tối ưu hóa hiệu suất và giảm thiểu chi phí ảo hóa xuống dưới 5%, gần bằng hiệu suất kim loại trần.

Điều này bao gồm định cấu hình máy chủ kim loại trần để ảo hóa với sự hỗ trợ cho Phần mở rộng máy ảo (VMX), ảo hóa IO gốc đơn (SR-IOV) và các trang lớn, cùng với các cấu hình phần cứng và phần mềm không xác định khác.

Thông tin chi tiết về cơ sở hạ tầng Vela có thể được tìm thấy trên blog của IBM.

IBM không phải là công ty duy nhất sử dụng đám mây để lưu trữ siêu máy tính AI. Năm ngoái,Microsoft tiết lộ nền tảng của riêng mình sử dụng cơ sở hạ tầng Azure kết hợp với bộ tăng tốc GPU, bộ công cụ mạng và bộ phần mềm AI Enterprise của Nvidia. Điều này dự kiến ​​sẽ khả dụng cho khách hàng Azure truy cập, nhưng không có khung thời gian nào được chỉ định.

Các công ty khác đang xây dựng siêu máy tính AI, nhưng đi theo lộ trình cơ sở hạ tầng tại chỗ truyền thống, bao gồm Siêu dữ liệuTesla. ®

Dấu thời gian:

Thêm từ Đăng ký