Interkoneksi di Bawah Sorotan saat Hitungan Inti Dipercepat

Interkoneksi di Bawah Sorotan saat Hitungan Inti Dipercepat

Node Sumber: 2569830

Dalam perjalanan menuju sistem tenaga yang lebih mumpuni, lebih cepat, lebih kecil, dan lebih rendah, Hukum Moore memberikan kebebasan bagi perangkat lunak selama lebih dari 30 tahun atau lebih murni pada evolusi proses semikonduktor. Perangkat keras komputasi menghasilkan metrik kinerja/area/daya yang lebih baik setiap tahunnya, memungkinkan perangkat lunak berkembang dalam kompleksitas dan memberikan lebih banyak kemampuan tanpa kerugian. Kemudian kemenangan mudah menjadi tidak mudah. Proses yang lebih canggih terus menghasilkan jumlah gerbang yang lebih tinggi per satuan luas, namun peningkatan kinerja dan daya mulai menurun. Karena ekspektasi kami terhadap inovasi tidak berhenti, kemajuan arsitektur perangkat keras menjadi lebih penting dalam mengatasi kekurangan tersebut.

Interkoneksi Di Bawah Sorotan

Pendorong untuk meningkatkan jumlah inti

Langkah awal dalam arah ini adalah dengan menggunakan CPU multi-core untuk mempercepat total throughput dengan melakukan threading atau memvirtualisasikan campuran tugas-tugas bersamaan di seluruh core, mengurangi daya sesuai kebutuhan dengan menghentikan atau mematikan core yang tidak aktif. Multi-core adalah standar saat ini dan tren banyak-core (bahkan lebih banyak CPU dalam satu chip) sudah terlihat dalam opsi instans server yang tersedia di platform cloud dari AWS, Azure, Alibaba, dan lainnya.

Arsitektur multi-/banyak inti merupakan sebuah langkah maju, namun paralelisme melalui cluster CPU bersifat kasar dan memiliki batas kinerja dan daya tersendiri, berkat hukum Amdahl. Arsitektur menjadi lebih heterogen, menambahkan akselerator untuk gambar, audio, dan kebutuhan khusus lainnya. Akselerator AI juga telah mendorong paralelisme halus, beralih ke susunan sistolik dan teknik khusus domain lainnya. Hal ini berfungsi cukup baik hingga ChatGPT muncul dengan 175 miliar parameter, dan GPT-3 berevolusi menjadi GPT-4 dengan 100 triliun parameter  – jauh lebih kompleks daripada sistem AI saat ini – yang memaksa adanya fitur akselerasi yang lebih terspesialisasi dalam akselerator AI.

Di sisi lain, sistem multi-sensor dalam aplikasi otomotif kini terintegrasi ke dalam SoC tunggal untuk meningkatkan kesadaran lingkungan dan meningkatkan PPA. Di sini, tingkat otonomi baru dalam otomotif bergantung pada penggabungan input dari beberapa jenis sensor dalam satu perangkat, dalam subsistem yang direplikasi 2X, 4X, atau 8X.

Menurut Michał Siwinski (CMO di Arteris), pengambilan sampel diskusi selama sebulan dengan beberapa tim desain di berbagai aplikasi menunjukkan bahwa tim tersebut secara aktif beralih ke jumlah inti yang lebih tinggi untuk memenuhi sasaran kemampuan, kinerja, dan kekuatan. Dia memberi tahu saya bahwa mereka juga melihat tren ini semakin cepat. Kemajuan proses masih membantu penghitungan gerbang SoC, namun tanggung jawab untuk memenuhi sasaran kinerja dan daya kini berada di tangan para arsitek.

Lebih banyak inti, lebih banyak interkoneksi

Semakin banyak inti dalam sebuah chip berarti semakin banyak koneksi data antar inti tersebut. Dalam akselerator antara elemen pemrosesan yang berdekatan, ke cache lokal, ke akselerator untuk matriks renggang, dan penanganan khusus lainnya. Tambahkan konektivitas hierarki antara petak akselerator dan bus tingkat sistem. Tambahkan konektivitas untuk penyimpanan berat pada chip, dekompresi, penyiaran, pengumpulan, dan kompresi ulang. Tambahkan konektivitas HBM untuk cache yang berfungsi. Tambahkan mesin fusi jika diperlukan.

Cluster kontrol berbasis CPU harus terhubung ke masing-masing subsistem yang direplikasi dan ke semua fungsi biasa – codec, manajemen memori, pulau keamanan dan root of trust jika sesuai, UCIe jika implementasi multi-chiplet, PCIe untuk I/O bandwidth tinggi , dan Ethernet atau fiber untuk jaringan.

Ada banyak sekali keterhubungan yang mempunyai konsekuensi langsung terhadap daya jual produk. Dalam proses di bawah 16nm, infrastruktur NoC kini berkontribusi 10-12% di area tersebut. Yang lebih penting lagi, sebagai jalan raya komunikasi antar inti, hal ini dapat berdampak signifikan terhadap kinerja dan daya. Ada bahaya nyata bahwa implementasi yang kurang optimal akan menyia-nyiakan kinerja arsitektur dan perolehan daya yang diharapkan, atau lebih buruk lagi, mengakibatkan banyak putaran desain ulang yang menyatu. Namun menemukan implementasi yang baik dalam denah lantai SoC yang kompleks masih bergantung pada optimasi coba-coba yang lambat dalam jadwal desain yang sudah ketat. Kita perlu melakukan lompatan ke desain NoC yang sadar secara fisik, untuk menjamin kinerja penuh dan dukungan daya dari hierarki NoC yang kompleks dan kita perlu membuat pengoptimalan ini lebih cepat.

Desain NoC yang sadar secara fisik menjaga hukum Moore tetap pada jalurnya

Hukum Moore mungkin belum mati, namun kemajuan dalam kinerja dan kekuatan saat ini berasal dari arsitektur dan interkoneksi NoC, bukan dari proses. Arsitektur mendorong lebih banyak inti akselerator, lebih banyak akselerator di dalam akselerator, dan lebih banyak replikasi subsistem dalam chip. Semua meningkatkan kompleksitas interkoneksi on-chip. Ketika desain meningkatkan jumlah inti dan beralih ke geometri proses pada 16nm ke bawah, banyaknya interkoneksi NoC yang mencakup SoC dan sub-sistemnya hanya dapat mendukung potensi penuh dari desain kompleks ini jika diterapkan secara optimal terhadap batasan fisik dan waktu – melalui jaringan yang sadar secara fisik pada desain chip.

Jika Anda juga mengkhawatirkan tren ini, Anda mungkin ingin mempelajari lebih lanjut tentang teknologi IP Arteris FlexNoC 5 SINI.

Bagikan postingan ini melalui:

Stempel Waktu:

Lebih dari Semiwiki