Η ανάπτυξη νευρωνικών δικτύων απαιτεί άνευ προηγουμένου κλιμάκωση ημιαγωγών

Κόμβος πηγής: 1878456

Η αλήθεια είναι ότι βρισκόμαστε μόλις στην αρχή της επανάστασης της Τεχνητής Νοημοσύνης (AI). Οι δυνατότητες του AI μόλις τώρα αρχίζουν να δείχνουν υποδείξεις για το τι επιφυλάσσει το μέλλον. Για παράδειγμα, τα αυτοκίνητα χρησιμοποιούν μεγάλα πολύπλοκα μοντέλα νευρωνικών δικτύων όχι μόνο για να κατανοήσουν το περιβάλλον τους, αλλά και για να κατευθύνουν και να ελέγχουν τον εαυτό τους. Για οποιαδήποτε εφαρμογή πρέπει να υπάρχουν δεδομένα εκπαίδευσης για τη δημιουργία χρήσιμων δικτύων. Το μέγεθος τόσο της εκπαίδευσης όσο και των λειτουργιών εξαγωγής συμπερασμάτων αυξάνεται ραγδαία καθώς χρήσιμα δεδομένα από τον πραγματικό κόσμο ενσωματώνονται στα μοντέλα. Ας δούμε την ανάπτυξη των μοντέλων τα τελευταία χρόνια για να κατανοήσουμε πώς αυτό οδηγεί τις ανάγκες για επεξεργαστική ισχύ για εκπαίδευση και εξαγωγή συμπερασμάτων.

Ανάπτυξη νευρωνικών δικτύων
Ανάπτυξη νευρωνικών δικτύων

Σε μια παρουσίαση στο Ansys 2021 Ideas Digital Forum, ο Αντιπρόεδρος Μηχανικής στο Cerebras, Dhiraj Mallik, παρείχε κάποια εικόνα για την ανάπτυξη των μοντέλων νευρωνικών δικτύων. Τα τελευταία δύο χρόνια το μέγεθος του μοντέλου έχει αυξηθεί 1000Χ, από BERT Base (110 MB) σε GPT-3 (175 GB). Και στη συνέχεια, υπάρχει το μοντέλο MSFT-1T, με μέγεθος 1 TB. Το μοντέλο GPT-3 – το οποίο είναι ένα ενδιαφέρον θέμα από μόνο του – εκπαιδεύτηκε με συμβατικό υλικό χρησιμοποιώντας 1024 GPU για 4 μήνες. Είναι ένα μοντέλο επεξεργασίας φυσικής γλώσσας (NLP) που χρησιμοποιεί τα περισσότερα από τα δεδομένα κειμένου στο διαδίκτυο και άλλες πηγές. Αναπτύχθηκε από την Open AI, και τώρα αποτελεί τη βάση για το OpenAI Codex, η οποία είναι μια εφαρμογή που μπορεί να γράψει χρήσιμο κώδικα προγραμματισμού σε πολλές γλώσσες από απλές γλωσσικές οδηγίες από τους χρήστες. Το GPT-3 μπορεί να χρησιμοποιηθεί για τη σύνταξη σύντομων άρθρων που η πλειοψηφία των αναγνωστών δεν μπορεί να πει ότι γράφτηκαν από ένα πρόγραμμα τεχνητής νοημοσύνης.

Όπως μπορείτε να δείτε παραπάνω, η λειτουργία 1024 GPU για 4 μήνες δεν είναι εφικτή. Στην ομιλία του με τίτλο «Παράδοση άνευ προηγουμένου AP Acceleration: Beyond του νόμου του Moore», ο Dhiraj επισημαίνει ότι οι προόδους που απαιτούνται για να υποστηριχθεί αυτό το επίπεδο ανάπτυξης ημιαγωγών ξεπερνούν πολύ περισσότερο αυτό που είχαμε συνηθίσει να βλέπουμε με τον νόμο του Moore. Ως απάντηση σε αυτή την αντιληπτή ανάγκη της αγοράς, η Cerebras κυκλοφόρησε τον κινητήρα τεχνητής νοημοσύνης WSE-1, κλίμακας γκοφρέτας το 2019 – 56 φορές μεγαλύτερο από οποιοδήποτε τσιπ που παρήχθη ποτέ. Ενάμιση χρόνο αργότερα ανακοίνωσαν το WSE-2, και πάλι το μεγαλύτερο τσιπ που κατασκευάστηκε με:

  • 6 τρισεκατομμύρια τρανζίστορ
  • 850,000 βελτιστοποιημένοι πυρήνες AI
  • 40 GB RAM
  • Εύρος ζώνης μνήμης 20 petabytes/s
  • Εύρος ζώνης υφάσματος 220 petabytes
  • Κατασκευασμένο με τη διαδικασία N7 της TSMC
  • Μια γκοφρέτα περιέχει 84 μήτρες, το καθένα 550 mm2.

Το σύστημα CS-2 που περικλείει το WSE-2 μπορεί να χωρέσει μοντέλα τεχνητής νοημοσύνης με 120 τρισεκατομμύρια παραμέτρους. Αυτό που είναι ακόμα πιο εντυπωσιακό είναι ότι τα συστήματα CS-2 μπορούν να ενσωματωθούν σε συμπλέγματα 192 μονάδων για να παρέχουν σχεδόν γραμμικά κέρδη απόδοσης. Η Cerebras έχει αναπτύξει ένα υποσύστημα μνήμης που αναλύει τη μνήμη και τους υπολογισμούς για να παρέχει καλύτερη κλίμακα και βελτιωμένη απόδοση για εξαιρετικά μεγάλα μοντέλα. Η Cerebras έχει επίσης αναπτύξει βελτιστοποιήσεις για την αραιότητα στα προπονητικά σετ, που εξοικονομεί χρόνο και δύναμη.

Η παρουσίαση του Dhiraj περιλαμβάνει περισσότερες λεπτομέρειες σχετικά με τις δυνατότητές τους, ειδικά στον τομέα της αποτελεσματικής κλιμάκωσης με μεγαλύτερα μοντέλα για τη διατήρηση της απόδοσης και της χωρητικότητας. Από την άποψη του ημιαγωγού, είναι επίσης ενδιαφέρον να δούμε πώς η Cerebras ανέλυσε την πτώση υπερύθρων, την ηλεκτρομετανάστευση και την σήμανση ESD σε ένα σχέδιο που είναι 2 τάξεις μεγέθους μεγαλύτερο από οτιδήποτε άλλο έχει επιχειρήσει ποτέ η βιομηχανία ημιαγωγών. Ο Dhiraj μιλάει για το πώς σε κάθε επίπεδο της σχεδίασης – πλακίδιο, μπλοκ και πλήρης γκοφρέτα – η Cerebras χρησιμοποίησε το Ansys RedHawk-SC σε πολλαπλούς επεξεργαστές για στατική και δυναμική απόρριψη υπερύθρων. Το RedHawk-SC χρησιμοποιήθηκε επίσης για ελέγχους ηλεκτρομετανάστευσης ισχύος και ηλεκτρομετανάστευσης σήματος. Ομοίως, χρησιμοποίησαν το Ansys Pathfinder για ελέγχους αντίστασης ESD και πυκνότητας ρεύματος.

Με ένα κομμάτι πυριτίου τόσο μεγάλο στα 7 nm, οι αποφάσεις του εργαλείου είναι κυριολεκτικά "κάνουν ή σπάνε". Η κατασκευή πυριτίου αυτού του διασπαστικού απαιτεί πολλές πολύ καλά μελετημένες επιλογές στη διαδικασία ανάπτυξης και η απαράμιλλη χωρητικότητα είναι φυσικά πρωταρχικό μέλημα. Ωστόσο, όπως δείχνει ξεκάθαρα η παρουσίαση του Dhiraj, το επίπεδο αυξημένης επεξεργαστικής ισχύος του CS-2 είναι απαραίτητο για τη διαχείριση του ρυθμού ανάπτυξης που βλέπουμε στα μοντέλα AI/ML. Αναμφίβολα θα δούμε καινοτομίες που ξεπερνούν τη φαντασία μας σήμερα στον τομέα της τεχνητής νοημοσύνης. Ακριβώς όπως ο ιστός και το cloud έχουν αλλάξει την τεχνολογία και ακόμη και την κοινωνία, μπορούμε να περιμένουμε ότι η ανάπτυξη νέας τεχνολογίας AI θα αλλάξει τον κόσμο μας με δραματικούς τρόπους. Εάν ενδιαφέρεστε να μάθετε περισσότερα για το πυρίτιο Cerebras, ρίξτε μια ματιά στην παρουσίαση του Dhiraj στο Ansys IDEAS Digital Forum στο www.ansys.com/ideas.

Μοιραστείτε αυτήν την ανάρτηση μέσω: Πηγή: https://semiwiki.com/eda/303587-neural-network-growth-requires-unprecedented-semiconductor-scaling/

Σφραγίδα ώρας:

Περισσότερα από Semiwiki