GDDR6 mang lại hiệu suất cho suy luận AI/ML

Được xuất bản lại bởi Plato

Người theo dõi: 0

OPINION

Tốc độ thông lượng bộ nhớ và độ trễ thấp là rất quan trọng khi quá trình suy luận chuyển từ trung tâm dữ liệu sang biên mạng.

AI/ML đang phát triển với tốc độ chóng mặt. Không một tuần nào trôi qua mà không có một số phát triển mới và thú vị trong lĩnh vực này, và các ứng dụng như ChatGPT đã đưa khả năng sáng tạo AI lên hàng đầu trong sự chú ý của công chúng.

AI/ML thực sự là hai ứng dụng: đào tạo và suy luận. Mỗi giải pháp đều phụ thuộc vào hiệu suất bộ nhớ và mỗi giải pháp có một bộ yêu cầu riêng giúp đưa ra lựa chọn giải pháp bộ nhớ tốt nhất.

Với việc đào tạo, băng thông và dung lượng bộ nhớ là những yêu cầu quan trọng. Điều này đặc biệt đúng với quy mô và độ phức tạp của các mô hình dữ liệu mạng thần kinh đang tăng trưởng với tốc độ 10 lần mỗi năm. Độ chính xác của mạng thần kinh phụ thuộc vào chất lượng và số lượng mẫu trong tập dữ liệu huấn luyện, điều này có nghĩa là cần lượng dữ liệu khổng lồ cũng như băng thông và dung lượng bộ nhớ.

Với giá trị được tạo ra thông qua đào tạo, có động lực mạnh mẽ để hoàn thành quá trình đào tạo càng nhanh càng tốt. Khi các ứng dụng đào tạo chạy trong các trung tâm dữ liệu ngày càng bị hạn chế về năng lượng và không gian, các giải pháp mang lại hiệu quả sử dụng năng lượng và kích thước nhỏ hơn sẽ được ưa chuộng. Với tất cả những yêu cầu này, HBM3 là giải pháp bộ nhớ lý tưởng cho phần cứng đào tạo AI. Nó cung cấp khả năng băng thông và dung lượng tuyệt vời.

Đầu ra của quá trình huấn luyện mạng nơ-ron là một mô hình suy luận có thể được triển khai rộng rãi. Với mô hình này, một thiết bị suy luận có thể xử lý và giải thích các đầu vào nằm ngoài giới hạn của dữ liệu huấn luyện. Đối với suy luận, tốc độ thông lượng bộ nhớ và độ trễ thấp là rất quan trọng, đặc biệt khi cần hành động theo thời gian thực. Với ngày càng nhiều suy luận AI chuyển từ trung tâm dữ liệu sang biên mạng, các tính năng bộ nhớ này càng trở nên quan trọng hơn.

Các nhà thiết kế có một số lựa chọn bộ nhớ cho suy luận AI/ML, nhưng xét về thông số quan trọng của băng thông, bộ nhớ GDDR6 thực sự tỏa sáng. Với tốc độ dữ liệu 24 Gigabit mỗi giây (Gb/s) và giao diện rộng 32 bit, thiết bị GDDR6 có thể cung cấp băng thông bộ nhớ 96 Gigabyte mỗi giây (GB/s), cao hơn gấp đôi so với bất kỳ DDR hoặc DDR thay thế nào. Giải pháp LPDDR Bộ nhớ GDDR6 cung cấp sự kết hợp tuyệt vời giữa tốc độ, băng thông và hiệu suất độ trễ cho suy luận AI/ML, đặc biệt là suy luận ở biên.

Hệ thống con giao diện bộ nhớ Rambus GDDR6 cung cấp hiệu suất 24 Gb/s và được xây dựng trên nền tảng hơn 30 năm chuyên môn về tính toàn vẹn tín hiệu tốc độ cao và tính toàn vẹn nguồn (SI/PI), rất quan trọng để vận hành GDDR6 ở tốc độ cao. Nó bao gồm PHY và bộ điều khiển kỹ thuật số – cung cấp hệ thống con giao diện bộ nhớ GDDR6 hoàn chỉnh.

Hãy tham gia cùng tôi tại hội thảo trực tuyến Rambus tháng này về “Suy luận AI/ML hiệu suất cao với bộ nhớ 24G GDDR6” để khám phá cách GDDR6 hỗ trợ các yêu cầu về bộ nhớ và hiệu suất của khối lượng công việc suy luận AI/ML, đồng thời tìm hiểu về một số cân nhắc chính về thiết kế và triển khai của các hệ thống con giao diện bộ nhớ GDDR6.

Tài nguyên: