Ενσωμάτωση CiM για επιτάχυνση συμπερασμάτων ML

Ενσωμάτωση CiM για επιτάχυνση συμπερασμάτων ML

Κόμβος πηγής: 3064987

Μια τεχνική εργασία με τίτλο «WWW: What, When, Where to Compute-in-Memory» δημοσιεύτηκε από ερευνητές στο Πανεπιστήμιο Purdue.

Περίληψη:

«Το Compute-in-Memory (CiM) έχει αναδειχθεί ως μια συναρπαστική λύση για την ελάφρυνση του υψηλού κόστους μετακίνησης δεδομένων στις μηχανές von Neumann. Το CiM μπορεί να εκτελέσει μαζικά παράλληλες λειτουργίες πολλαπλασιασμού γενικού πίνακα (GEMM) στη μνήμη, τον κυρίαρχο υπολογισμό στο συμπέρασμα της Μηχανικής Μάθησης (ML). Ωστόσο, η επαναχρησιμοποίηση της μνήμης για υπολογισμούς θέτει βασικά ερωτήματα σχετικά με: 1) Ποιος τύπος CiM να χρησιμοποιηθεί: Δεδομένης της πληθώρας αναλογικών και ψηφιακών CiM, απαιτείται ο προσδιορισμός της καταλληλότητάς τους από την άποψη του συστήματος. 2) Πότε να χρησιμοποιήσετε το CiM: Το συμπέρασμα ML περιλαμβάνει φόρτους εργασίας με ποικίλες απαιτήσεις μνήμης και υπολογισμού, γεγονός που καθιστά δύσκολο τον προσδιορισμό του πότε το CiM είναι πιο ωφέλιμο από τους τυπικούς πυρήνες επεξεργασίας. 3) Πού να ενσωματωθεί το CiM: Κάθε επίπεδο μνήμης έχει διαφορετικό εύρος ζώνης και χωρητικότητα, γεγονός που επηρεάζει τη μετακίνηση δεδομένων και τα πλεονεκτήματα τοποθεσίας της ενοποίησης CiM.
Σε αυτό το άρθρο, διερευνούμε απαντήσεις σε αυτές τις ερωτήσεις σχετικά με την ενσωμάτωση CiM για την επιτάχυνση συμπερασμάτων ML. Χρησιμοποιούμε το Timeloop-Accelergy για την πρώιμη αξιολόγηση σε επίπεδο συστήματος των πρωτοτύπων CiM, συμπεριλαμβανομένων τόσο των αναλογικών όσο και των ψηφιακών αρχέγονων. Ενσωματώνουμε το CiM σε διαφορετικά επίπεδα μνήμης cache σε μια αρχιτεκτονική βασικής γραμμής τύπου Nvidia A100 και προσαρμόζουμε τη ροή δεδομένων για διάφορους φόρτους εργασίας ML. Τα πειράματά μας δείχνουν ότι οι αρχιτεκτονικές CiM βελτιώνουν την ενεργειακή απόδοση, επιτυγχάνοντας έως και 0.12 φορές χαμηλότερη ενέργεια από την καθιερωμένη γραμμή βάσης με ακρίβεια INT-8 και έως και 4 φορές κέρδη απόδοσης με παρεμβολή βάρους και αντιγραφή. Η προτεινόμενη εργασία παρέχει πληροφορίες σχετικά με τον τύπο CiM που θα χρησιμοποιηθεί και πότε και πού να ενσωματωθεί βέλτιστα στην ιεραρχία της κρυφής μνήμης για την επιτάχυνση GEMM.

Βρείτε το τεχνικό χαρτί εδώ. Δημοσιεύθηκε Δεκέμβριος 2023 (προεκτύπωση).

Sharma, Tanvi, Mustafa Ali, Indranil Chakraborty και Kaushik Roy. "WWW: Τι, πότε, πού να υπολογιστεί στη μνήμη." arXiv προεκτύπωση arXiv:2312.15896 (2023).

Σχετική ανάγνωση
Αύξηση της ενεργειακής απόδοσης AI με υπολογιστές στη μνήμη
Πώς να επεξεργαστείτε φόρτους εργασίας zettascale και να παραμείνετε εντός ενός σταθερού προϋπολογισμού ισχύος.
Μοντελοποίηση Υπολογισμός στη μνήμη με βιολογική απόδοση
Η γενετική τεχνητή νοημοσύνη αναγκάζει τους κατασκευαστές τσιπ να χρησιμοποιούν υπολογιστικούς πόρους πιο έξυπνα.
SRAM σε AI: Το μέλλον της μνήμης
Γιατί το SRAM θεωρείται κρίσιμο στοιχείο στις νέες και παραδοσιακές αρχιτεκτονικές υπολογιστών.

Σφραγίδα ώρας:

Περισσότερα από Ημι Μηχανική