Kết nối dưới ánh đèn sân khấu khi số lượng lõi tăng tốc

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong quá trình tiến tới các hệ thống có khả năng cao hơn, nhanh hơn, nhỏ hơn và tiêu thụ điện năng thấp hơn, Định luật Moore đã mang lại cho phần mềm một chuyến đi miễn phí trong hơn 30 năm hoặc lâu hơn hoàn toàn dựa trên sự phát triển của quá trình bán dẫn. Phần cứng điện toán mang lại các số liệu hiệu suất/diện tích/công suất được cải thiện hàng năm, cho phép phần mềm mở rộng về độ phức tạp và cung cấp nhiều khả năng hơn mà không gặp nhược điểm. Sau đó, những chiến thắng dễ dàng trở nên ít dễ dàng hơn. Các quy trình tiên tiến hơn tiếp tục cung cấp số lượng cổng cao hơn trên một đơn vị diện tích nhưng mức tăng về hiệu suất và sức mạnh bắt đầu không tăng. Vì kỳ vọng của chúng tôi về sự đổi mới không ngừng nghỉ nên những tiến bộ về kiến trúc phần cứng đã trở nên quan trọng hơn trong việc khắc phục sự chậm trễ.

Kết nối dưới ánh đèn sân khấu

Trình điều khiển để tăng số lượng lõi

Bước đầu tiên theo hướng này đã sử dụng CPU đa lõi để tăng tốc tổng thông lượng bằng cách phân luồng hoặc ảo hóa kết hợp các tác vụ đồng thời trên các lõi, giảm năng lượng khi cần bằng cách chạy không tải hoặc tắt nguồn các lõi không hoạt động. Đa lõi là tiêu chuẩn ngày nay và xu hướng nhiều lõi (thậm chí nhiều CPU hơn trên một chip) đã được thể hiện rõ trong các tùy chọn phiên bản máy chủ có sẵn trên nền tảng đám mây của AWS, Azure, Alibaba và các nền tảng khác.

Kiến trúc đa/nhiều lõi là một bước tiến, nhưng tính song song thông qua các cụm CPU còn ở mức thô và có các giới hạn về hiệu năng cũng như sức mạnh riêng, nhờ vào định luật Amdahl. Các kiến trúc trở nên không đồng nhất hơn, bổ sung thêm các bộ tăng tốc cho hình ảnh, âm thanh và các nhu cầu chuyên biệt khác. Các trình tăng tốc AI cũng đã thúc đẩy tính song song chi tiết hơn, chuyển sang mảng tâm thu và các kỹ thuật dành riêng cho miền khác. Điều này đã hoạt động khá tốt cho đến khi ChatGPT xuất hiện với 175 tỷ thông số, trong đó GPT-3 phát triển thành GPT-4 với 100 nghìn tỷ thông số – mức độ phức tạp hơn nhiều so với các hệ thống AI ngày nay – buộc phải có nhiều tính năng tăng tốc chuyên dụng hơn trong bộ tăng tốc AI.

Ở một khía cạnh khác, các hệ thống đa cảm biến trong các ứng dụng ô tô hiện đang được tích hợp vào các SoC đơn lẻ để cải thiện nhận thức về môi trường và cải thiện PPA. Ở đây, các cấp độ tự chủ mới trong ô tô phụ thuộc vào việc kết hợp đầu vào từ nhiều loại cảm biến trong một thiết bị duy nhất, trong các hệ thống con được sao chép bằng 2X, 4X hoặc 8X.

Theo Michał Siwinski (CMO tại Arteris), việc lấy mẫu trong hơn một tháng thảo luận với nhiều nhóm thiết kế trên nhiều ứng dụng cho thấy các nhóm đó đang tích cực chuyển sang số lượng lõi cao hơn để đáp ứng các mục tiêu về năng lực, hiệu suất và sức mạnh. Anh ấy nói với tôi rằng họ cũng thấy xu hướng này đang tăng tốc. Những tiến bộ về quy trình vẫn hỗ trợ số lượng cổng SoC, nhưng trách nhiệm đáp ứng các mục tiêu về hiệu suất và sức mạnh giờ đây nằm trong tay các kiến trúc sư.

Nhiều lõi hơn, nhiều kết nối hơn

Nhiều lõi hơn trên chip đồng nghĩa với việc có nhiều kết nối dữ liệu hơn giữa các lõi đó. Trong bộ tăng tốc giữa các phần tử xử lý lân cận, tới bộ đệm cục bộ, tới bộ tăng tốc dành cho ma trận thưa thớt và xử lý chuyên dụng khác. Thêm kết nối phân cấp giữa các ô tăng tốc và bus cấp hệ thống. Thêm kết nối để lưu trữ trọng lượng trên chip, giải nén, phát sóng, thu thập và nén lại. Thêm kết nối HBM để làm việc với bộ đệm. Thêm một động cơ nhiệt hạch nếu cần thiết.

Cụm điều khiển dựa trên CPU phải kết nối với từng hệ thống con được sao chép đó và với tất cả các chức năng thông thường – codec, quản lý bộ nhớ, đảo an toàn và gốc tin cậy nếu thích hợp, UCIe nếu triển khai nhiều chiplet, PCIe cho I/O băng thông cao và Ethernet hoặc cáp quang để kết nối mạng.

Đó là rất nhiều mối liên kết với nhau, gây ra hậu quả trực tiếp cho khả năng tiếp thị của sản phẩm. Trong các quy trình dưới 16nm, cơ sở hạ tầng NoC hiện đóng góp 10-12% diện tích. Điều quan trọng hơn nữa là nó là đường cao tốc liên lạc giữa các lõi, nó có thể có tác động đáng kể đến hiệu suất và sức mạnh. Có mối nguy hiểm thực sự là việc triển khai dưới mức tối ưu sẽ lãng phí hiệu suất kiến trúc và mức tăng sức mạnh dự kiến, hoặc tệ hơn nữa là dẫn đến nhiều vòng lặp thiết kế lại hội tụ. Tuy nhiên, việc tìm ra cách triển khai tốt trong sơ đồ tầng SoC phức tạp vẫn phụ thuộc vào việc tối ưu hóa thử và sai chậm trong lịch trình thiết kế vốn đã chặt chẽ. Chúng tôi cần chuyển sang thiết kế NoC nhận thức về mặt vật lý, để đảm bảo hiệu suất đầy đủ và hỗ trợ sức mạnh từ các hệ thống phân cấp NoC phức tạp và chúng tôi cần thực hiện những tối ưu hóa này nhanh hơn.

Các thiết kế NoC nhận thức về mặt vật lý giúp định luật Moore đi đúng hướng

Định luật Moore có thể chưa chết nhưng những tiến bộ về hiệu suất và sức mạnh ngày nay đến từ kiến trúc và kết nối NoC chứ không phải từ quy trình. Kiến trúc đang thúc đẩy nhiều lõi máy gia tốc hơn, nhiều máy gia tốc hơn bên trong máy gia tốc và nhiều bản sao hệ thống con trên chip hơn. Tất cả đều làm tăng độ phức tạp của kết nối trên chip. Khi các thiết kế tăng số lượng lõi và chuyển sang xử lý hình học ở 16nm trở xuống, nhiều kết nối NoC trải rộng trên SoC và các hệ thống phụ của nó chỉ có thể hỗ trợ toàn bộ tiềm năng của các thiết kế phức tạp này nếu được triển khai tối ưu trước các hạn chế về vật lý và thời gian – thông qua mạng nhận thức vật lý về thiết kế chip.

Nếu cũng lo lắng về những xu hướng này, bạn có thể muốn tìm hiểu thêm về công nghệ Arteris FlexNoC 5 IP nhấp vào ĐÂY .

Chia sẻ bài đăng này qua: