GPU'larda Yüksek Lisans Çıkarımı (Intel)

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Intel Corporation'daki araştırmacılar tarafından "Intel GPU'da Verimli LLM çıkarım çözümü" başlıklı teknik bir makale yayınlandı.

Özet:

“Transformatör tabanlı Büyük Dil Modelleri (LLM'ler) birçok alanda yaygın olarak kullanılmaktadır ve LLM çıkarımının verimliliği gerçek uygulamalarda sıcak bir konu haline gelmektedir. Bununla birlikte, LLM'ler genellikle model yapısında devasa operasyonlarla karmaşık bir şekilde tasarlanmakta ve otomatik gerileme modunda çıkarım gerçekleştirmektedir, bu da yüksek verimliliğe sahip bir sistem tasarlamayı zorlu bir görev haline getirmektedir.
Bu yazıda, düşük gecikme süresi ve yüksek verim ile etkili bir LLM çıkarım çözümü öneriyoruz. İlk olarak, bellek erişim frekansını azaltmak ve sistem gecikmesini azaltmak için veri hareketini ve öğe bazında işlemleri birleştirerek LLM kod çözücü katmanını basitleştiriyoruz. Ayrıca, etkili cihaz belleği yönetimi için istek ve yanıt belirteçlerinin anahtarını/değerini ayrı fiziksel bellekte tutmak amacıyla bir segment KV önbellek politikası öneriyoruz; bu, çalışma zamanı toplu boyutunu büyütmeye ve sistem verimini artırmaya yardımcı oluyor. Özelleştirilmiş bir Scaled-Dot-Product-Attention çekirdeği, segment KV önbellek çözümüne dayanan füzyon politikamıza uyacak şekilde tasarlanmıştır. Yüksek Lisans çıkarım çözümümüzü Intel GPU'da uyguluyor ve herkese açık olarak yayınlıyoruz. Standart HuggingFace uygulamasıyla karşılaştırıldığında önerilen çözüm, Intel GPU'daki bazı popüler LLM'ler için 7 kata kadar daha düşük token gecikmesi ve 27 kat daha yüksek verim sağlıyor."

Bul teknik kağıt burada. Aralık 2023'te yayınlandı (ön baskı).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu ve Jinghui Gu. “Intel GPU'da verimli LLM çıkarım çözümü.” arXiv ön baskısı arXiv:2401.05391 (2023).

İlgili Okuma
CPU'larda Yüksek Lisans Çıkarımı (Intel)
Intel'deki araştırmacılar tarafından "CPU'larda Verimli LLM Çıkarımı" başlıklı teknik bir makale yayınlandı.
Yapay Zeka Sınıra Kadar Yarışıyor
Yapay zeka yeni uygulamalara yayıldıkça çıkarım yapma ve bazı eğitimler daha küçük cihazlara aktarılıyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://semiengineering.com/llm-inference-on-gpus-intel/

Zaman Damgası: Şubat 2, 2024

Zaman Damgası: Temmuz 5, 2023

GPU'larda Yüksek Lisans Çıkarımı (Intel)

Plato tarafından yeniden yayınlandı

Özet:

Den fazla Yarı Mühendislik

UCIe IP ile Bilinen İyi Kalıptan Bilinen İyi Sisteme

Bir RISC-V Mimarisinde Veri Gizliliğini Sağlayan SW-HW Güvenlik Açıklarını Tespit Eden EDA Aracı

İzlenmesi Gereken 3 Önemli Otomotiv Teknolojisi İlerlemesi

28nm'de Bellek İçi Hesaplama İçin FeFET Çok Düzeyli Hücreler

Pasif SiN Dalga Kılavuzlarına Işık Bağlantısı ile Desenli Si Fotonik Platformunda Büyütülmüş III–V Lazer

Araştırma Bitleri: 24 Ocak

Toplam Bilgi İşlemi Kollayın: Yarının İş Yükleri İçin Mühendislik

Dinamik Bellek Yönetimi ve Azaltılmış Parçalanma ile Dizin Tabanlı Çok Çekirdekli BDD Paketi

Güvenli Memristor Hesaplama Sistemleri Tasarlama Yöntemlerinin İncelenmesi

Düşük LPDDR4x DRAM Yoğunluğu — Edge AI İçin En İyi Seçim

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap