AI At The Edge No Longer Means Dumbed-Down AI

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Μια πτυχή της γνώσης σχετικά με την τεχνητή νοημοσύνη ήταν ότι όλη η καινοτομία ξεκινά από τις μεγάλες μηχανές εκμάθησης/εκπαίδευσης μηχανών στο cloud. Κάποια από αυτή την καινοτομία μπορεί τελικά να μεταναστεύσει σε μειωμένη/περιορισμένη μορφή στην άκρη. Εν μέρει αυτό αντανακλούσε τη νέα του τομέα. Ίσως επίσης εν μέρει αντανακλούσε την ανάγκη για προσυσκευασμένες μοναδικές λύσεις για γραφικά στοιχεία IoT. Όπου οι σχεδιαστές ήθελαν τα έξυπνα στα προϊόντα τους αλλά δεν ήταν έτοιμοι να γίνουν ειδικοί στο σχεδιασμό ML. Αλλά τώρα αυτοί οι σχεδιαστές προλαβαίνουν. Διαβάζουν τα ίδια δελτία τύπου και την ίδια έρευνα που κάνουμε όλοι, όπως και οι ανταγωνιστές τους. Θέλουν να επωφεληθούν από τις ίδιες προόδους, τηρώντας παράλληλα τους περιορισμούς ισχύος και κόστους.

AI στο Edge No Longer Means Dumbed-Down AI

Αναγνώριση προσώπου

Διαφοροποίηση AI στην άκρη

Όλα έχουν να κάνουν με τη διαφοροποίηση μέσα σε ένα αποδεκτό πλαίσιο κόστους/ισχύς. Αυτό είναι δύσκολο να επιτευχθεί από προσυσκευασμένες λύσεις. Οι ανταγωνιστές έχουν τελικά πρόσβαση στις ίδιες λύσεις. Αυτό που πραγματικά θέλετε είναι ένα σύνολο επιλογών αλγορίθμου που μοντελοποιούνται στον επεξεργαστή ως αποκλειστικοί επιταχυντές έτοιμοι να χρησιμοποιηθούν, με δυνατότητα να στρώσετε τη δική σας προστιθέμενη αξία βάσει λογισμικού. Μπορεί να νομίζετε ότι δεν μπορείτε να κάνετε πολλά εδώ, εκτός από κάποιους διαχειριστές και συντονισμούς. Οι καιροί έχουν αλλάξει. Η CEVA παρουσίασε πρόσφατα τον ενσωματωμένο επεξεργαστή AI NeuPro-M που επιτρέπει τη βελτιστοποίηση χρησιμοποιώντας ορισμένες από τις πιο πρόσφατες προόδους ML, βαθιά στο σχεδιασμό αλγορίθμων.

Εντάξει, περισσότερος έλεγχος του αλγορίθμου, αλλά προς ποιον σκοπό; Θέλετε να βελτιστοποιήσετε την απόδοση ανά watt, αλλά η τυπική μέτρηση - TOPS/W - είναι πολύ χονδροειδής. Οι εφαρμογές απεικόνισης θα πρέπει να μετρώνται με καρέ ανά δευτερόλεπτο (fps) ανά watt. Για εφαρμογές ασφαλείας, για ασφάλεια αυτοκινήτου ή αποφυγή σύγκρουσης με drone, οι χρόνοι αναγνώρισης ανά καρέ είναι πολύ πιο σχετικοί από τις μη επεξεργασμένες λειτουργίες ανά δευτερόλεπτο. Έτσι, μια πλατφόρμα όπως το NeuPro-M που μπορεί να αποδώσει έως και χιλιάδες fps/W κατ' αρχήν θα χειριστεί ρεαλιστικούς ρυθμούς fps 30-60 καρέ ανά δευτερόλεπτο σε πολύ χαμηλή ισχύ. Αυτή είναι μια πραγματική πρόοδος στις παραδοσιακές προσυσκευασμένες λύσεις τεχνητής νοημοσύνης.

Κάνοντας το δυνατό

Οι απόλυτοι αλγόριθμοι δημιουργούνται πληκτρολογώντας τα χαρακτηριστικά για τα οποία έχετε διαβάσει, ξεκινώντας με ένα ευρύ φάσμα επιλογών κβαντισμού. Το ίδιο ισχύει για την ποικιλομορφία τύπων δεδομένων στην ενεργοποίηση και τα βάρη σε μια σειρά μεγεθών bit. Η μονάδα νευρικού πολλαπλασιαστή (NMU) υποστηρίζει βέλτιστα πολλαπλές επιλογές πλάτους bit για ενεργοποίηση και βάρη όπως 8×2 ή 16×4 και θα υποστηρίζει επίσης παραλλαγές όπως 8×10.

Ο επεξεργαστής υποστηρίζει Winograd Transforms ή αποτελεσματικές περιελίξεις, παρέχοντας έως και 2 φορές κέρδος απόδοσης και μειωμένη ισχύ με περιορισμένη υποβάθμιση ακρίβειας. Προσθέστε τον κινητήρα αραιότητας στο μοντέλο για επιτάχυνση έως και 4Χ ανάλογα με την ποσότητα μηδενικών τιμών (είτε σε δεδομένα είτε σε βάρη). Εδώ, η μονάδα πολλαπλασιαστή νευρώνων υποστηρίζει επίσης μια σειρά τύπων δεδομένων, σταθερά από 2×2 έως 16×16, και κινητής υποδιαστολής (και Bfloat) από 16×16 έως 32×32.

Η λογική ροής παρέχει επιλογές για κλιμάκωση σταθερού σημείου, ενεργοποίηση και συγκέντρωση. Ο διανυσματικός επεξεργαστής σάς επιτρέπει να προσθέσετε τα δικά σας προσαρμοσμένα επίπεδα στο μοντέλο. "Λοιπόν, όλοι το υποστηρίζουν αυτό", μπορείτε να σκεφτείτε, αλλά δείτε παρακάτω σχετικά με την απόδοση. Υπάρχει επίσης ένα σύνολο χαρακτηριστικών AI επόμενης γενιάς, συμπεριλαμβανομένων μετασχηματιστών όρασης, συνέλιξης 3D, υποστήριξης RNN και αποσύνθεσης μήτρας.

Πολλές επιλογές αλγορίθμων, όλες που υποστηρίζονται από μια βελτιστοποίηση δικτύου για την ενσωματωμένη λύση σας μέσω του πλαισίου CDNN για την πλήρη εκμετάλλευση της ισχύος των αλγορίθμων σας ML. Το CDNN είναι ένας συνδυασμός ενός μεταγλωττιστή γραφημάτων εξαγωγής συμπερασμάτων δικτύου και ενός αποκλειστικού πρόσθετου εργαλείου PyTorch. Αυτό το εργαλείο θα κλαδέψει το μοντέλο, προαιρετικά υποστηρίζει τη συμπίεση του μοντέλου μέσω αποσύνθεσης μήτρας και προσθέτει εκ νέου εκπαίδευση με επίγνωση κβαντισμού.

Βελτιστοποίηση απόδοσης

Στα περισσότερα συστήματα τεχνητής νοημοσύνης, ορισμένες από αυτές τις λειτουργίες μπορεί να αντιμετωπίζονται σε εξειδικευμένους κινητήρες, απαιτώντας την εκφόρτωση δεδομένων και τη φόρτωση του μετασχηματισμού όταν ολοκληρωθεί. Αυτό είναι πολύ πρόσθετος λανθάνοντας χρόνος (και ίσως συμβιβασμούς ισχύος), υπονομεύοντας πλήρως την απόδοση στο κατά τα άλλα ισχυρό μοντέλο σας. Το NeuPro-M εξαλείφει αυτό το πρόβλημα με τη σύνδεση όλοι αυτούς τους επιταχυντές απευθείας σε μια κοινόχρηστη κρυφή μνήμη L1. Διατηρώντας πολύ υψηλότερο εύρος ζώνης από αυτό που θα βρείτε στους συμβατικούς επιταχυντές.

Ως εντυπωσιακό παράδειγμα, η μονάδα επεξεργασίας διανυσμάτων, που χρησιμοποιείται συνήθως για τον καθορισμό προσαρμοσμένων επιπέδων, βρίσκεται στο ίδιο επίπεδο με τους άλλους επιταχυντές. Οι αλγόριθμοί σας που εφαρμόζονται στο VPU επωφελούνται από την ίδια επιτάχυνση με το υπόλοιπο μοντέλο. Και πάλι, δεν απαιτείται εκφόρτωση και επαναφόρτωση για την επιτάχυνση προσαρμοσμένων επιπέδων. Επιπλέον, μπορείτε να έχετε έως και 8 από αυτούς τους κινητήρες NPM (όλα τα γκάζια, συν την κρυφή μνήμη NPM L1). Το NeuPro-M προσφέρει επίσης ένα σημαντικό επίπεδο ελεγχόμενης από λογισμικό βελτιστοποίησης εύρους ζώνης μεταξύ της κρυφής μνήμης L2 και της κρυφής μνήμης L1, βελτιστοποιώντας το χειρισμό πλαισίου και ελαχιστοποιώντας την ανάγκη για προσβάσεις DDR.

Φυσικά το NeuPro-M θα ελαχιστοποιήσει επίσης την κίνηση δεδομένων και βάρους. Για δεδομένα, οι επιταχυντές μοιράζονται την ίδια κρυφή μνήμη L1. Ένας κεντρικός επεξεργαστής μπορεί να επικοινωνήσει δεδομένα απευθείας με το NeuPro-M L2, μειώνοντας και πάλι την ανάγκη για μεταφορές DDR. Το NeuPro-M συμπιέζει και αποσυμπιέζει τα βάρη στο τσιπ κατά τη μεταφορά με μνήμη DDR. Μπορεί να κάνει το ίδιο με τις ενεργοποιήσεις.

Η απόδειξη σε επιτάχυνση fps/W

Η CEVA έτρεξε τυπικά σημεία αναφοράς χρησιμοποιώντας έναν συνδυασμό αλγορίθμων μοντελοποιημένων στους επιταχυντές, από εγγενείς έως Winograd, Winograd+Sparsity, Winograd+Sparsity+4×4. Και τα δύο σημεία αναφοράς έδειξαν βελτιώσεις απόδοσης έως και 3X, με ισχύ (fps/W) κατά περίπου 5X για έναν ISP NN. Η λύση NeuPro-M παρείχε μικρότερη επιφάνεια, απόδοση 4Χ, το 1/3 της ισχύος, σε σύγκριση με την προηγούμενη γενιά NeuPro-S.

Υπάρχει μια τάση που βλέπω γενικότερα για την επίτευξη της απόλυτης απόδοσης συνδυάζοντας πολλούς αλγόριθμους. Αυτό είναι που η CEVA κατέστησε τώρα δυνατό με αυτήν την πλατφόρμα. Μπορείτε να διαβάσετε περισσότερα ΕΔΏ.

Μοιραστείτε αυτήν την ανάρτηση μέσω: Πηγή: https://semiwiki.com/artificial-intelligence/306655-ai-at-the-edge-no-longer-means-dumbed-down-ai/

Σφραγίδα ώρας: Ιανουάριος 13, 2022