RISC-V 64 bit IP untuk Kinerja Tinggi - Semiwiki

RISC-V 64 bit IP untuk Kinerja Tinggi – Semiwiki

Node Sumber: 2855188

RISC-V sebagai Arsitektur Set Instruksi (ISA) telah berkembang pesat dalam kepentingan dan relevansi komersial sejak dirilis ke komunitas terbuka pada tahun 2015, menarik banyak vendor IP yang kini menyediakan berbagai inti RTL. Roger Espasa, CEO dan Pendiri Semidinamika, telah mempresentasikan di acara RISC-V tentang bagaimana IP mereka disesuaikan untuk tantangan komputasi yang memerlukan bandwidth tinggi dan inti berkinerja tinggi dengan unit vektor. Semidynamics didirikan pada tahun 2016, memiliki kantor pusat di Barcelona, ​​​​dan telah memiliki pelanggan di AS dan Asia dengan menawarkan dua IP RISC-V yang dapat disesuaikan:

  • Avipado – RISCV64GCV pesanan, mendukung AXI dan CHI
  • Atrevido – RISCV64GC rusak, mendukung AXI dan CHI

CPU pada umumnya memiliki beberapa inti besar dan cache yang besar, membuatnya mudah untuk diprogram, meskipun kinerjanya tidak tinggi.

Sebaliknya, GPU memiliki banyak inti kecil yang memberikan kinerja tinggi untuk kode paralel, namun lebih sulit untuk diprogram dan menambahkan latensi komunikasi melalui bus PCIe ketika data perlu diteruskan bolak-balik antara CPU dan GPU.

CPU, GPU min
CPU, perbandingan GPU

Pendekatan di Espasa adalah dengan menggunakan inti RISC-V yang terhubung ke inti komputasi yang memudahkan pemrograman, kinerja lebih tinggi untuk kode paralel, dan menawarkan latensi komunikasi nol. CPU plus unit vektor memberikan yang terbaik dari kedua dunia.

CPU RISC-V plus unit Vektor, performa lebih tinggi
CPU ditambah unit Vektor

Spesifikasi RISC-V mendokumentasikan 32 register vektor, dan Anda dapat menambahkan sejumlah inti vektor, bersama dengan koneksi ke cache Anda di dalam unit vektor.

Satuan Vektor min
Unit Vektor

Dengan Semidynamics IP Anda dapat menyesuaikan jumlah Inti Vektor: 4, 8, 16, 32. Cara lain untuk melihatnya adalah dengan mencatat bahwa 4 Inti Vektor adalah 256-bit, hingga 32 Inti Vektor yaitu 2,048-bit.

Pengguna IP juga memilih tipe datanya: FP64, FP32, FP16, BF16, INT64, INT32, INT16, INT8. Untuk aplikasi AI mereka dapat memilih tipe data FP16, BF16, sedangkan aplikasi HPC dapat memilih FP64, FP32.

Kustomisasi ketiga adalah Panjang Register Vektor, dimana untuk performa lebih besar dan daya lebih rendah Anda dapat membuat register vektor lebih besar dari satuan vektor.

Berikut diagram blok Atrevideo 423-V8:

Atrevido min
Unit Vektor Atrevido 423 + V8

Unit vektor sepenuhnya rusak, yang merupakan hal unik di antara vendor IP RISC-V. Kombinasi unit vektor ditambah unit Gazzillion mampu mengalirkan data lebih dari 60 Bytes/siklus.

Kinerja Vektor + Trilyun, Byte/Siklus
Bandwidth Tinggi: Vektor + Trilyun

Garis ungu menunjukkan kinerja Baca dan di L1 Cache 20-60 byte/siklus, mesin lain menunjukkan penurunan bandwidth yang cepat setelah meninggalkan L1 Cache, sementara pendekatan ini terus berjalan, dengan mendatar di 56. Bahkan masuk ke memori DDR menunjukkan bandwidth 40. Dengan clock rate 1.0GHz yang menghasilkan bandwidth 40 GB/s.

Pelanggan IP bahkan dapat menambahkan kode RTL mereka sendiri yang terhubung ke Unit Vektor untuk keperluan mereka sendiri.

Performa perkalian matriks penting dalam beban kerja AI, dan pada Unit Vektor OOO V8 terdapat puncak sebesar 16 FP64 FLOPS/siklus, dan puncak sebesar 99% untuk ukuran matriks >= 400. Untuk ukuran matriks kecil 24×24 performanya adalah 7 FP64 FLOPS/siklus, atau 50% dari puncak. Perkalian matriks untuk FP16 menggunakan Unit Vektor dengan 8 inti vektor memiliki puncak 64 FP16 FLOPS/siklus, dan 99% puncak untuk M >= 600.

Tolok ukur deteksi objek real-time yang disebut YOLO (You Only Look Once) dijalankan pada platform Atrevido 423-V8, dan menunjukkan kinerja per inti vektor 58% lebih tinggi dibandingkan pesaing. Hasil ini untuk video dengan 24 lapisan. 5.56 Gops/frame dan sekitar 9M parameter.

kinerja YOLO
Perbandingan YOLO

Kesimpulan

Memilih vendor IP RISC-V adalah tugas yang rumit, jadi mengetahui tentang vendor seperti Semidynamics dapat membantu Anda lebih memahami bagaimana pendekatan yang disesuaikan dapat menjalankan beban kerja spesifik Anda dengan paling efisien. Dengan Semidynamics Anda dapat memilih antara pilihan arsitektur seperti in-order atau out-of-order, dengan atau tanpa unit vektor. Angka-angka yang dilaporkan dari vendor IP ini tampak menjanjikan, dan saya menantikan pengumuman mereka di masa mendatang.

Related Videos

Bagikan postingan ini melalui:

Stempel Waktu:

Lebih dari Semiwiki