Penghalang Lama untuk Melaksanakan Penggerak Otonom L4/L5 dan Inferensi AI Generatif di Edge - Semiwiki

Penghalang Lama untuk Menggerakan Otonom L4/L5 dan Inferensi AI Generatif yang Layak – Semiwiki

Node Sumber: 2934975

Dua teknologi algoritmik berbasis perangkat lunak terbaru –– pengemudian otonom (ADAS/AD) dan AI generatif (GenAI) –– membuat komunitas teknik semikonduktor tetap terjaga.

Sementara ADAS di Level 2 dan Level 3 berada di jalur yang tepat, AD di Level 4 dan 5 jauh dari kenyataan sehingga menyebabkan penurunan antusiasme modal ventura dan uang. Saat ini, GenAI mendapat perhatian, dan para VC dengan penuh semangat menginvestasikan miliaran dolar.

Kedua teknologi tersebut didasarkan pada algoritma yang modern dan kompleks. Pemrosesan pelatihan dan inferensi mereka memiliki beberapa atribut yang sama, beberapa bersifat penting, yang lainnya penting namun tidak esensial: Lihat tabel I.

Inferensi AI Generatif di Edge
Keterangan Tabel I: Pelatihan dan inferensi algoritma memiliki beberapa kesamaan, namun tidak semua atribut penting. Sumber: VSORA

Kemajuan perangkat lunak yang luar biasa dalam teknologi ini hingga saat ini belum ditiru oleh kemajuan perangkat keras algoritmik untuk mempercepat pelaksanaannya. Misalnya, prosesor algoritmik canggih tidak memiliki kinerja untuk menjawab kueri ChatGPT-4 dalam satu atau dua detik dengan biaya ¢2 per kueri, tolok ukur yang ditetapkan oleh penelusuran Google, atau untuk memproses data dalam jumlah besar. dikumpulkan oleh sensor AD dalam waktu kurang dari 20 milidetik.

Hingga startup Perancis VSORA menginvestasikan kekuatan otaknya untuk mengatasi hambatan memori yang dikenal sebagai dinding memori.

Dinding Memori

Dinding memori CPU pertama kali dijelaskan oleh Wulf dan McKee pada tahun 1994. Sejak saat itu, akses memori telah menjadi penghambat kinerja komputasi. Kemajuan dalam kinerja prosesor belum tercermin dalam kemajuan akses memori, sehingga menyebabkan prosesor menunggu lebih lama lagi untuk data dikirimkan oleh memori. Pada akhirnya, efisiensi prosesor turun jauh di bawah pemanfaatan 100%.

Untuk mengatasi masalah ini, industri semikonduktor menciptakan struktur memori hierarki multi-level dengan beberapa tingkat cache di dekat prosesor yang mengurangi jumlah lalu lintas dengan memori utama dan eksternal yang lebih lambat.

Kinerja prosesor AD dan GenAI lebih bergantung pada bandwidth memori yang lebar dibandingkan jenis perangkat komputasi lainnya.

VSORA, yang didirikan pada tahun 2015 untuk menargetkan aplikasi 5G, menemukan arsitektur yang dipatenkan yang meruntuhkan struktur memori hierarkis menjadi bandwidth tinggi yang besar, memori berpasangan erat (TCM) yang diakses dalam satu siklus clock.

Dari perspektif inti prosesor, TCM terlihat dan bertindak seperti lautan register dalam jumlah MByte versus kByte register fisik sebenarnya. Kemampuan untuk mengakses sel memori apa pun di TMC dalam satu siklus menghasilkan kecepatan eksekusi tinggi, latensi rendah, dan konsumsi daya rendah. Ini juga membutuhkan lebih sedikit area silikon. Memuat data baru dari memori eksternal ke TCM saat data saat ini diproses tidak mempengaruhi throughput sistem. Pada dasarnya, arsitektur memungkinkan pemanfaatan 80+% unit pemrosesan melalui desainnya. Namun, ada kemungkinan untuk menambahkan cache dan memori scratchpad jika perancang sistem menginginkannya. Lihat gambar 1.

Mengemudi Otonom dan Inferensi AI Generatif di Edge
Gambar 1 keterangan: Struktur memori hierarki tradisional padat dan rumit. Pendekatan VSORA disederhanakan dan hierarkis.

Melalui struktur memori seperti register yang diterapkan di hampir semua memori di semua aplikasi, keuntungan dari pendekatan memori VSORA tidak dapat dilebih-lebihkan. Biasanya, prosesor GenAI mutakhir memberikan efisiensi persentase satu digit. Misalnya, prosesor GenAI dengan throughput nominal satu Petaflops dengan kinerja nominal tetapi efisiensi kurang dari 5% memberikan kinerja yang dapat digunakan kurang dari 50 Teraflops. Sebaliknya, arsitektur VSORA mencapai efisiensi lebih dari 10 kali lipat.

Akselerator Algoritma VSORA

VSORA memperkenalkan dua kelas akselerator algoritmik –– keluarga Tyr untuk aplikasi AD dan keluarga Jotunn untuk akselerasi GenAI. Keduanya memberikan throughput luar biasa, latensi minimal, konsumsi daya rendah dalam jejak silikon kecil.

Dengan performa nominal hingga tiga Petaflop, mereka memiliki efisiensi implementasi tipikal sebesar 50-80% apa pun jenis algoritmenya, dan konsumsi daya puncak sebesar 30 Watt/Petaflops. Ini adalah atribut luar biasa yang belum dilaporkan oleh akselerator AI kompetitif mana pun.

Tyr dan Jotunn sepenuhnya dapat diprogram dan mengintegrasikan kemampuan AI dan DSP, meskipun dalam jumlah yang berbeda, dan mendukung pemilihan aritmatika langsung dari 8-bit hingga 64-bit baik berbasis integer atau floating-point. Kemampuan programnya mengakomodasi berbagai algoritma, menjadikannya agnostik algoritma. Beberapa jenis ketersebaran yang berbeda juga didukung.

Atribut prosesor VSORA mendorong mereka menjadi yang terdepan dalam lanskap pemrosesan algoritmik yang kompetitif.

Perangkat Lunak Pendukung VSORA

VSORA merancang platform kompilasi/validasi unik yang disesuaikan dengan arsitektur perangkat kerasnya untuk memastikan perangkat SoC yang kompleks dan berkinerja tinggi memiliki banyak dukungan perangkat lunak.

Dimaksudkan untuk menempatkan perancang algoritmik di kokpit, serangkaian tingkat verifikasi/validasi hierarki –– ESL, hybrid, RTL, dan gerbang –– memberikan umpan balik tombol kepada insinyur algoritmik sebagai respons terhadap eksplorasi ruang angkasa desain. Hal ini membantunya memilih kompromi terbaik antara kinerja, latensi, kekuatan, dan area. Kode pemrograman yang ditulis pada abstraksi tingkat tinggi dapat dipetakan dengan menargetkan inti pemrosesan yang berbeda secara transparan kepada pengguna.

Antarmuka antar inti dapat diimplementasikan dalam silikon yang sama, antar chip pada PCB yang sama, atau melalui koneksi IP. Sinkronisasi antar inti dikelola secara otomatis pada waktu kompilasi dan tidak memerlukan pengoperasian perangkat lunak waktu nyata.

Penghalang Jalan menuju Mengemudi Otonom L4/L5 dan Inferensi AI Generatif di Edge

Solusi yang berhasil juga harus mencakup kemampuan program di lapangan. Algoritma berkembang dengan cepat, didorong oleh ide-ide baru yang ketinggalan jaman dalam semalam. Kemampuan untuk meningkatkan algoritma di lapangan merupakan keuntungan yang patut dicatat.

Meskipun perusahaan-perusahaan berskala besar telah membangun kumpulan komputasi besar dengan banyak prosesor berperforma tertinggi untuk menangani algoritme perangkat lunak tingkat lanjut, pendekatan ini hanya praktis untuk pelatihan, bukan untuk inferensi di edge.

Pelatihan biasanya didasarkan pada aritmatika floating-point 32-bit atau 64-bit yang menghasilkan volume data yang besar. Ini tidak menerapkan latensi yang ketat dan mentoleransi konsumsi daya yang tinggi serta biaya yang besar.

Inferensi di edge biasanya dilakukan pada aritmatika floating-point 8-bit yang menghasilkan jumlah data yang lebih sedikit, namun memerlukan latensi tanpa kompromi, konsumsi energi rendah, dan biaya rendah.

Dampak Konsumsi Energi terhadap Latensi dan Efisiensi

Konsumsi daya pada IC CMOS didominasi oleh pergerakan data, bukan pemrosesan data.

Sebuah studi di Universitas Stanford yang dipimpin oleh Profesor Mark Horowitz menunjukkan bahwa konsumsi daya akses memori menghabiskan energi lebih besar daripada perhitungan logika digital dasar. Lihat tabel II.

Mengemudi Otonom dan Inferensi AI Generatif di Edge
Tabel II Keterangan: Penjumlah dan pengali menghilang dari kurang dari satu Picojoule saat menggunakan aritmatika integer menjadi beberapa Picojoule saat memproses aritmatika floating point. Energi yang dihabiskan untuk mengakses data dalam cache melonjak satu tingkat menjadi 20-100 PicoJoule dan hingga tiga tingkat menjadi lebih dari 1,000 PicoJoule ketika data diakses dalam DRAM. Sumber: Universitas Stanford.

Akselerator AD dan GenAI adalah contoh utama perangkat yang didominasi oleh pergerakan data yang memberikan tantangan dalam membatasi konsumsi daya.

Kesimpulan

Inferensi AD dan GenAI menimbulkan tantangan yang tidak sepele untuk mencapai keberhasilan implementasi. VSORA dapat memberikan solusi perangkat keras dan perangkat lunak pendukung yang komprehensif untuk memenuhi semua persyaratan penting untuk menangani akselerasi AD L4/L5 dan GenAI seperti GPT-4 dengan biaya yang layak secara komersial.

Detail lebih lanjut tentang VSORA dan Tyr dan Jotunn-nya dapat ditemukan di www.vsora.com.

Tentang Lauro Rizzatti

Lauro Rizzzatti adalah penasihat bisnis VSORA, perusahaan rintisan inovatif yang menawarkan solusi IP silikon dan chip silikon, serta konsultan verifikasi terkenal dan pakar industri dalam emulasi perangkat keras. Sebelumnya, beliau menjabat berbagai posisi di bidang manajemen, pemasaran produk, pemasaran teknis, dan teknik.

Baca Juga:

Soitec Merekayasa Masa Depan Industri Semikonduktor

ISO 21434 untuk Pengembangan SoC yang Sadar Keamanan Siber

Pemeliharaan Prediktif dalam Konteks Keselamatan Fungsional Otomotif

Bagikan postingan ini melalui:

Stempel Waktu:

Lebih dari Semiwiki