Συμπεράσματα LLM για GPU (Intel)

Συμπεράσματα LLM για GPU (Intel)

Κόμβος πηγής: 3095494

Μια τεχνική εργασία με τίτλο «Αποτελεσματική λύση LLM inference on Intel GPU» δημοσιεύτηκε από ερευνητές της Intel Corporation.

Περίληψη:

«Τα μοντέλα μεγάλων γλωσσών (LLM) που βασίζονται σε μετασχηματιστές έχουν χρησιμοποιηθεί ευρέως σε πολλούς τομείς και η αποτελεσματικότητα των συμπερασμάτων LLM γίνεται καυτό θέμα σε πραγματικές εφαρμογές. Ωστόσο, τα LLM συνήθως σχεδιάζονται περίπλοκα στη δομή του μοντέλου με τεράστιες λειτουργίες και εκτελούν συμπεράσματα στη λειτουργία αυτόματης παλινδρόμησης, καθιστώντας ένα δύσκολο έργο τον σχεδιασμό ενός συστήματος με υψηλή απόδοση.
Σε αυτό το άρθρο, προτείνουμε μια αποτελεσματική λύση συμπερασμάτων LLM με χαμηλή καθυστέρηση και υψηλή απόδοση. Πρώτον, απλοποιούμε το επίπεδο αποκωδικοποιητή LLM συνδυάζοντας λειτουργίες κίνησης δεδομένων και στοιχείων για τη μείωση της συχνότητας πρόσβασης στη μνήμη και τη χαμηλότερη καθυστέρηση του συστήματος. Προτείνουμε επίσης μια πολιτική προσωρινής μνήμης τμήματος KV για τη διατήρηση του κλειδιού/τιμής των διακριτικών αιτήματος και απόκρισης σε ξεχωριστή φυσική μνήμη για αποτελεσματική διαχείριση της μνήμης της συσκευής, βοηθώντας στη μεγέθυνση του μεγέθους της παρτίδας χρόνου εκτέλεσης και στη βελτίωση της απόδοσης του συστήματος. Ένας προσαρμοσμένος πυρήνας Scaled-Dot-Product-Attention έχει σχεδιαστεί για να ταιριάζει με την πολιτική σύντηξης που βασίζεται στη λύση προσωρινής μνήμης τμήματος KV. Εφαρμόζουμε τη λύση συμπερασμάτων LLM στη GPU Intel και τη δημοσιεύουμε δημόσια. Σε σύγκριση με την τυπική εφαρμογή HuggingFace, η προτεινόμενη λύση επιτυγχάνει έως και 7 φορές χαμηλότερο λανθάνοντα χρόνο και 27 φορές υψηλότερη απόδοση για ορισμένα δημοφιλή LLM σε Intel GPU."

Βρείτε το τεχνικό χαρτί εδώ. Δημοσιεύθηκε Δεκέμβριος 2023 (προεκτύπωση).

Wu, Hui, Yi Gan, Feng Yuan, Jing Ma, Wei Zhu, Yutao Xu, Hong Zhu, Yuhua Zhu, Xiaoli Liu και Jinghui Gu. "Αποτελεσματική λύση συμπερασμάτων LLM σε Intel GPU." arXiv προεκτύπωση arXiv:2401.05391 (2023).

Σχετική ανάγνωση
Συμπεράσματα LLM σε CPU (Intel)
Ένα τεχνικό έγγραφο με τίτλο «Efficient LLM Inference on CPUs» δημοσιεύτηκε από ερευνητές της Intel.
Το AI Races To The Edge
Η εξαγωγή συμπερασμάτων και κάποια εκπαίδευση προωθούνται σε μικρότερες συσκευές καθώς η τεχνητή νοημοσύνη εξαπλώνεται σε νέες εφαρμογές.

Σφραγίδα ώρας:

Περισσότερα από Ημι Μηχανική