Πίσω από το OpenAI Codex: 5 συναρπαστικές προκλήσεις σχετικά με το Building Codex που δεν γνωρίζατε
Ορισμένες προκλήσεις μηχανικής και μοντελοποίησης ML που συναντώνται κατά την κατασκευή του Codex.
πηγή: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/
Πριν από μερικές εβδομάδες, το OpenAI εξέπληξε τον κόσμο της τεχνητής νοημοσύνης (AI) με την κυκλοφορία του Codex, ενός τεράστιου μοντέλου που μπορεί να μεταφράσει τη φυσική γλώσσα σε κώδικα. Το Codex μπορεί να δημιουργήσει αποτελεσματικά από άκρο σε άκρο από βασικές γλωσσικές οδηγίες. Αν δεν με πιστεύετε, πρέπει να δείτε αυτό το βίντεο που μπορεί να θεωρηθεί ένα από τα καλύτερα demo AI όλων των εποχών 😉
Πίστωση βίντεο: OpenAI
Πολλά έχουν γραφτεί για τις δυνατότητες του Codex από την αρχική του κυκλοφορία.
Ωστόσο, με έχουν ιντριγκάρει περισσότερο οι μικρές απαιτήσεις που γίνονται απίστευτα σχετικές για την κατασκευή ενός μοντέλου αυτού του μεγέθους. Βαθιά βουτιά στον Codex, υπάρχουν μερικά ενδιαφέροντα πράγματα που βρήκα και σκέφτηκα ότι θα ήταν καλό να επισημάνω:
1. Το Codex είναι ικανό σε περίπου δώδεκα γλώσσες, αλλά εκπαιδεύτηκε για Python
Το βρήκα απίστευτα διορατικό. Ο αρχικός στόχος του OpenAI ήταν να κάνει τον Codex ικανό στην Python, αλλά αποδεικνύεται ότι το μοντέλο πήρε άλλες γλώσσες κατά τη διάρκεια της διαδικασίας προεκπαίδευσης. Αυτό μιλάει για τις μοναδικές δυνατότητες των μοντέλων προεκπαιδευμένων γλωσσών.
2. Η δοκιμή του Codex ήταν κάτι παραπάνω από δύσκολη
Η κοινότητα της τεχνητής νοημοσύνης έχει μείνει έκπληκτη από την έρευνα πίσω από το Codex, αλλά νομίζω ότι η μηχανική πλευρά ήταν εξίσου εντυπωσιακή. Μια πτυχή που με ενδιέφερε ιδιαίτερα ήταν το μέρος της δοκιμής. Πώς στην πραγματικότητα δοκιμάζετε ζωντανό κώδικα χωρίς να αναλαμβάνετε τεράστιους κινδύνους. Αποδεικνύεται ότι η ομάδα του OpenAI έβαλε έναν τόνο εργασίας για την κατασκευή πολύ εξελιγμένων sandbox για να δοκιμάσει τα αποτελέσματα από το Codex μεμονωμένα.
3. Η αντιστοίχιση της σημασιολογίας με τον κώδικα δεν είναι καθόλου ασήμαντη
Η εκπαίδευση ενός μοντέλου σε όλο τον πηγαίο κώδικα στον κόσμο ακούγεται ωραίο, αλλά δεν είναι καθόλου ασήμαντο. Σε τελική ανάλυση, δεν δημιουργούνται όλοι οι κώδικας ίσοι. Ο κώδικας στο Github μπορεί να είναι ανεπαρκώς τεκμηριωμένος, ενώ τα σημειωματάρια μπορούν να έχουν πλούσιες σημασιολογικές πληροφορίες. Ομοίως, τα αποσπάσματα κώδικα στο Stack Overflow έχουν πλουσιότερα επίπεδα σημασιολογικών πληροφοριών. Η αντιστοίχιση τμημάτων κώδικα στη σημασιολογία της γλώσσας ήταν μια από τις προκλήσεις της κατασκευής του Codex.
4. Το Codex εξακολουθεί να παλεύει με την αποσύνθεση εργασιών
Εάν σκέφτεστε πώς λειτουργούν οι προγραμματιστές, τείνουμε να αναλύουμε ένα πρόβλημα σε μικρότερες εργασίες και να παράγουμε κώδικα για αυτές. Αποδεικνύεται ότι το Codex είναι εξαιρετικό στο τελευταίο, αλλά εξακολουθεί να παλεύει σε εργασίες αποσύνθεσης προβλημάτων. Αυτό δεν πρέπει να προκαλεί έκπληξη αν σκεφτούμε ότι η αποσύνθεση του προβλήματος απαιτεί πολύ περίπλοκες γνωστικές δεξιότητες.
5. Η εποπτεία Fine-Tuning ήταν ένα τεράστιο μέρος του κτιρίου Codex
Ο κώδικας στο διαδίκτυο εμφανίζεται σε όλα τα επίπεδα πληρότητας, τεκμηρίωσης, συντακτικού πλούτου κ.λπ. Η εκπαίδευση ενός μοντέλου σε τόσο διαφορετικά σύνολα κωδικών μπορεί να παράγει αναξιόπιστα αποτελέσματα. Υπό αυτή την έννοια, το OpenAI έπρεπε να υποβληθεί σε μια τεράστια εποπτευόμενη προσπάθεια εξομάλυνσης.
Αυτές είναι μερικές από τις πτυχές του Codex που δεν είναι πολύ γνωστές, αλλά συνέβαλαν σημαντικά στην επιτυχία της πρώτης έκδοσης του μοντέλου. Η επιτυχία του Codex οφείλεται τόσο στην προηγμένη έρευνα ML ως τεράστιες προσπάθειες μηχανικής ML και υποδομής.
Bio: Ο Ιησούς Ροντρίγκεζ είναι επί του παρόντος CTO στο Intotheblock. Είναι τεχνολόγος, εκτελεστικός επενδυτής και σύμβουλος εκκίνησης. Ο Ιησούς ίδρυσε την Tellago, μια βραβευμένη εταιρεία ανάπτυξης λογισμικού που επικεντρώθηκε βοηθώντας τις εταιρείες να γίνουν σπουδαίοι οργανισμοί λογισμικού αξιοποιώντας νέες τάσεις λογισμικού επιχειρήσεων.
Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.
Συγγενεύων:
- "
- &
- σύμβουλος
- AI
- Όλα
- Εφαρμογή
- ΚΑΛΎΤΕΡΟΣ
- χτίζω
- Κτίριο
- κωδικός
- γνωστική
- Κοινός
- κοινότητα
- Εταιρείες
- δόμηση
- Ζευγάρι
- μονάδες
- ΚΟΤ
- ημερομηνία
- επιστημονικά δεδομένα
- βαθιά μάθηση
- Ανάπτυξη
- Διευθυντής
- δωδεκάδα
- Μηχανική
- Εταιρεία
- επιχειρηματικό λογισμικό
- κ.λπ.
- εκτελεστικός
- Εταιρεία
- Όνομα
- GitHub
- καλός
- GPU
- εξαιρετική
- Επισημάνετε
- Πως
- HTTPS
- τεράστιος
- πληροφορίες
- Υποδομή
- Internet
- συνέντευξη
- ενδομπλοκ
- επενδυτής
- απομόνωση
- IT
- Γλώσσα
- Γλώσσες
- ξεκινήσει
- ΜΑΘΑΊΝΩ
- μάθηση
- μεγάλες
- medium
- ML
- μοντέλο
- μοντελοποίηση
- Φυσική γλώσσα
- Νευρικός
- φορητούς υπολογιστές
- ανοίξτε
- ανοικτού κώδικα
- OpenAI
- ΑΛΛΑ
- παίχτης
- Δημοσιεύσεις
- Python
- λόγους
- οπισθοδρόμηση
- απαιτήσεις
- έρευνα
- Αποτελέσματα
- Επιστήμη
- επιστήμονες
- σημασιολογία
- αίσθηση
- δεξιότητες
- small
- λογισμικό
- ανάπτυξη λογισμικού
- εκκίνηση
- ιστορίες
- επιτυχία
- Τεχνολογία
- δοκιμή
- Δοκιμές
- Η Πηγη
- ώρα
- τόνος
- κορυφή
- Εκπαίδευση
- Τάσεις
- Βίντεο
- Δες
- Εργασία
- κόσμος
- X
- YouTube