Inferensi LLM Pada GPU (Intel)

Diterbitkan Ulang Oleh Plato

Followers: 0

Makalah teknis berjudul “Solusi inferensi LLM yang Efisien pada GPU Intel” diterbitkan oleh para peneliti di Intel Corporation.

Abstrak:

“Model Bahasa Besar (LLM) berbasis transformator telah banyak digunakan di banyak bidang, dan efisiensi inferensi LLM menjadi topik hangat dalam aplikasi nyata. Namun, LLM biasanya dirancang secara rumit dalam struktur model dengan operasi besar-besaran dan melakukan inferensi dalam mode regresi otomatis, sehingga merancang sistem dengan efisiensi tinggi merupakan tugas yang menantang.
Dalam makalah ini, kami mengusulkan solusi inferensi LLM yang efisien dengan latensi rendah dan throughput tinggi. Pertama, kami menyederhanakan lapisan dekoder LLM dengan menggabungkan pergerakan data dan operasi berbasis elemen untuk mengurangi frekuensi akses memori dan menurunkan latensi sistem. Kami juga mengusulkan kebijakan cache KV segmen untuk menyimpan kunci/nilai token permintaan dan respons dalam memori fisik terpisah untuk manajemen memori perangkat yang efektif, membantu memperbesar ukuran batch runtime dan meningkatkan throughput sistem. Kernel Scaled-Dot-Product-Attention yang disesuaikan dirancang agar sesuai dengan kebijakan fusi kami berdasarkan solusi cache KV segmen. Kami menerapkan solusi inferensi LLM pada GPU Intel dan mempublikasikannya secara publik. Dibandingkan dengan implementasi standar HuggingFace, solusi yang diusulkan mencapai latensi token hingga 7x lebih rendah dan throughput 27x lebih tinggi untuk beberapa LLM populer pada GPU Intel.”

Cari makalah teknis di sini. Diterbitkan Desember 2023 (pracetak).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu, dan Jinghui Gu. “Solusi inferensi LLM yang efisien pada GPU Intel.” arXiv pracetak arXiv:2401.05391 (2023).

Bacaan Terkait
Inferensi LLM Pada CPU (Intel)
Makalah teknis berjudul “Inferensi LLM Efisien pada CPU” diterbitkan oleh para peneliti di Intel.
AI Berlomba Menuju Keunggulan
Inferensi dan beberapa pelatihan didorong ke perangkat yang lebih kecil seiring penyebaran AI ke aplikasi baru.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://semiengineering.com/llm-inference-on-gpus-intel/

Stempel Waktu: Februari 2, 2024

Stempel Waktu: Juni 3, 2023

Diterbitkan Ulang Oleh Plato

Abstrak:

Lebih dari Semi Teknik

Bersiap Untuk Ikatan Hibrid

Perubahan Besar Di Depan Teknologi Photomask

Dimana Daya Dihabiskan Dalam HBM

From Lab To Fab: Meningkatkan Tekanan Untuk Menggabungkan Proses IC

Bagian Penelitian: 24 Jan

Saluran Terselubung Antara CPU dan FPGA Dengan Memodulasi Penggunaan Jaringan Distribusi Daya

Bit Penelitian: 24 Juli

Bagian Penelitian: 1 Agustus

Ulasan Blog: 3 Mei

Efisiensi Superkomputer Tertinggal Peningkatan Kinerja

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun