GPU'larda Yüksek Lisans Çıkarımı (Intel)

GPU'larda Yüksek Lisans Çıkarımı (Intel)

Kaynak Düğüm: 3095494

Intel Corporation'daki araştırmacılar tarafından "Intel GPU'da Verimli LLM çıkarım çözümü" başlıklı teknik bir makale yayınlandı.

Özet:

“Transformatör tabanlı Büyük Dil Modelleri (LLM'ler) birçok alanda yaygın olarak kullanılmaktadır ve LLM çıkarımının verimliliği gerçek uygulamalarda sıcak bir konu haline gelmektedir. Bununla birlikte, LLM'ler genellikle model yapısında devasa operasyonlarla karmaşık bir şekilde tasarlanmakta ve otomatik gerileme modunda çıkarım gerçekleştirmektedir, bu da yüksek verimliliğe sahip bir sistem tasarlamayı zorlu bir görev haline getirmektedir.
Bu yazıda, düşük gecikme süresi ve yüksek verim ile etkili bir LLM çıkarım çözümü öneriyoruz. İlk olarak, bellek erişim frekansını azaltmak ve sistem gecikmesini azaltmak için veri hareketini ve öğe bazında işlemleri birleştirerek LLM kod çözücü katmanını basitleştiriyoruz. Ayrıca, etkili cihaz belleği yönetimi için istek ve yanıt belirteçlerinin anahtarını/değerini ayrı fiziksel bellekte tutmak amacıyla bir segment KV önbellek politikası öneriyoruz; bu, çalışma zamanı toplu boyutunu büyütmeye ve sistem verimini artırmaya yardımcı oluyor. Özelleştirilmiş bir Scaled-Dot-Product-Attention çekirdeği, segment KV önbellek çözümüne dayanan füzyon politikamıza uyacak şekilde tasarlanmıştır. Yüksek Lisans çıkarım çözümümüzü Intel GPU'da uyguluyor ve herkese açık olarak yayınlıyoruz. Standart HuggingFace uygulamasıyla karşılaştırıldığında önerilen çözüm, Intel GPU'daki bazı popüler LLM'ler için 7 kata kadar daha düşük token gecikmesi ve 27 kat daha yüksek verim sağlıyor."

Bul teknik kağıt burada. Aralık 2023'te yayınlandı (ön baskı).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu ve Jinghui Gu. “Intel GPU'da verimli LLM çıkarım çözümü.” arXiv ön baskısı arXiv:2401.05391 (2023).

İlgili Okuma
CPU'larda Yüksek Lisans Çıkarımı (Intel)
Intel'deki araştırmacılar tarafından "CPU'larda Verimli LLM Çıkarımı" başlıklı teknik bir makale yayınlandı.
Yapay Zeka Sınıra Kadar Yarışıyor
Yapay zeka yeni uygulamalara yayıldıkça çıkarım yapma ve bazı eğitimler daha küçük cihazlara aktarılıyor.

Zaman Damgası:

Den fazla Yarı Mühendislik