Heart of the Matter: Demystifying Copying in the Training of LLMs - DATAVERSITY

Heart of the Matter: Demystifying Copying in the Training of LLMs – DATAVERSITY

Κόμβος πηγής: 3093102

Αναλογιζόμενοι τους τελευταίους 15 μήνες, η πρόοδος που σημειώθηκε στη δημιουργία τεχνητής νοημοσύνης και στα μεγάλα γλωσσικά μοντέλα (LLM) μετά την εισαγωγή και τη διαθεσιμότητα του ChatGPT στο κοινό έχει κυριαρχήσει στους τίτλους των εφημερίδων. 

Το δομικό στοιχείο για αυτήν την πρόοδο ήταν η αρχιτεκτονική του μοντέλου Transformer που περιγράφεται από μια ομάδα ερευνητών της Google σε μια εργασία με τίτλο "Η προσοχή είναι το μόνο που χρειάζεστε.» Όπως υποδηλώνει ο τίτλος, ένα βασικό χαρακτηριστικό όλων των μοντέλων Transformer είναι ο μηχανισμός της προσοχής, που ορίζεται στο έγγραφο ως εξής:

«Μια συνάρτηση προσοχής μπορεί να περιγραφεί ως αντιστοίχιση ενός ερωτήματος και ενός συνόλου ζευγών κλειδιών-τιμών σε μια έξοδο, όπου το ερώτημα, τα κλειδιά, οι τιμές και η έξοδος είναι όλα διανύσματα. Η έξοδος υπολογίζεται ως σταθμισμένο άθροισμα των τιμών, όπου το βάρος που εκχωρείται σε κάθε τιμή υπολογίζεται από μια συνάρτηση συμβατότητας του ερωτήματος με το αντίστοιχο κλειδί."

Ένα χαρακτηριστικό των μοντέλων τεχνητής νοημοσύνης που δημιουργούνται είναι η μαζική κατανάλωση εισόδων δεδομένων, οι οποίες θα μπορούσαν να αποτελούνται από κείμενο, εικόνες, αρχεία ήχου, αρχεία βίντεο ή οποιονδήποτε συνδυασμό των εισόδων (μια περίπτωση που συνήθως αναφέρεται ως "πολυτροπική"). Από την άποψη των πνευματικών δικαιωμάτων, ένα σημαντικό ερώτημα (από πολλές σημαντικές ερωτήσεις) που πρέπει να τεθεί είναι εάν το εκπαιδευτικό υλικό διατηρείται στο μεγάλο γλωσσικό μοντέλο (LLM) που παράγεται από διάφορους προμηθευτές LLM. Για να απαντήσουμε σε αυτήν την ερώτηση, πρέπει να κατανοήσουμε πώς επεξεργάζονται τα κειμενικά υλικά. Εστιάζοντας στο κείμενο, αυτό που ακολουθεί είναι μια σύντομη, μη τεχνική περιγραφή ακριβώς αυτής της πτυχής της εκπαίδευσης LLM. 

Οι άνθρωποι επικοινωνούν στη φυσική γλώσσα τοποθετώντας λέξεις σε ακολουθίες. οι κανόνες σχετικά με τη σειρά και τη συγκεκριμένη μορφή μιας λέξης υπαγορεύονται από τη συγκεκριμένη γλώσσα (π.χ. αγγλικά). Ένα ουσιαστικό μέρος της αρχιτεκτονικής για όλα τα συστήματα λογισμικού που επεξεργάζονται κείμενο (και επομένως για όλα τα συστήματα τεχνητής νοημοσύνης που το κάνουν) είναι ο τρόπος αναπαράστασης αυτού του κειμένου, ώστε οι λειτουργίες του συστήματος να μπορούν να εκτελούνται πιο αποτελεσματικά. Επομένως, ένα βασικό βήμα στην επεξεργασία μιας εισαγωγής κειμένου σε γλωσσικά μοντέλα είναι ο διαχωρισμός της εισαγωγής του χρήστη σε ειδικές «λέξεις» που μπορεί να κατανοήσει το σύστημα τεχνητής νοημοσύνης. Αυτές οι ειδικές λέξεις ονομάζονται "tokens". Το στοιχείο που είναι υπεύθυνο για αυτό ονομάζεται "tokenizer". Υπάρχουν πολλοί τύποι tokenizers. Για παράδειγμα, το OpenAI και το Azure OpenAI χρησιμοποιούν μια μέθοδο προσδιορισμού υπολέξεων που ονομάζεται "Byte-Pair Encoding (BPE)" για τα μοντέλα τους που βασίζονται σε Generative Pretrained Transformer (GPT). Το BPE είναι μια μέθοδος που συγχωνεύει τα πιο συχνά εμφανιζόμενα ζεύγη χαρακτήρων ή byte σε ένα μόνο διακριτικό, έως ότου επιτευχθεί ένας ορισμένος αριθμός διακριτικών ή ένα μέγεθος λεξιλογίου. Όσο μεγαλύτερο είναι το μέγεθος του λεξιλογίου, τόσο πιο ποικίλα και εκφραστικά είναι τα κείμενα που μπορεί να δημιουργήσει το μοντέλο.

Μόλις το σύστημα AI αντιστοιχίσει το κείμενο εισαγωγής σε διακριτικά, κωδικοποιεί τα διακριτικά σε αριθμούς και μετατρέπει τις ακολουθίες που επεξεργάστηκε ως διανύσματα που αναφέρονται ως "ενσωματώσεις λέξεων". Ένα διάνυσμα είναι ένα διατεταγμένο σύνολο αριθμών – μπορείτε να το σκεφτείτε ως γραμμή ή στήλη σε έναν πίνακα. Αυτά τα διανύσματα είναι αναπαραστάσεις διακριτικών που διατηρούν την αρχική τους φυσική αναπαράσταση γλώσσας που δόθηκε ως κείμενο. Είναι σημαντικό να κατανοήσουμε τον ρόλο των ενσωματώσεων λέξεων όσον αφορά τα πνευματικά δικαιώματα, επειδή οι ενσωματώσεις σχηματίζουν αναπαραστάσεις (ή κωδικοποιήσεις) ολόκληρων προτάσεων, ή ακόμα και παραγράφων, και επομένως, σε συνδυασμούς διανυσμάτων, ακόμη και ολόκληρα έγγραφα σε διανυσματικό χώρο υψηλών διαστάσεων. Είναι μέσα από αυτές τις ενσωματώσεις που το σύστημα AI συλλαμβάνει και αποθηκεύει το νόημα και τις σχέσεις των λέξεων από τη φυσική γλώσσα. 

Οι ενσωματώσεις χρησιμοποιούνται σχεδόν σε κάθε εργασία που εκτελεί ένα σύστημα παραγωγής τεχνητής νοημοσύνης (π.χ. δημιουργία κειμένου, σύνοψη κειμένου, ταξινόμηση κειμένου, μετάφραση κειμένου, δημιουργία εικόνων, δημιουργία κώδικα κ.λπ.). Οι ενσωματώσεις λέξεων αποθηκεύονται συνήθως σε διανυσματικές βάσεις δεδομένων, αλλά μια λεπτομερής περιγραφή όλων των προσεγγίσεων αποθήκευσης ξεφεύγει από το πεδίο εφαρμογής αυτής της ανάρτησης, καθώς υπάρχει μεγάλη ποικιλία προμηθευτών, διαδικασιών και πρακτικών σε χρήση.

Όπως αναφέρθηκε, σχεδόν όλα τα LLM βασίζονται στην αρχιτεκτονική του Transformer, η οποία επικαλείται τον μηχανισμό προσοχής. Το τελευταίο επιτρέπει στην τεχνολογία AI να βλέπει ολόκληρες προτάσεις, ακόμη και παραγράφους, ως σύνολο και όχι ως απλές ακολουθίες χαρακτήρων. Αυτό επιτρέπει στο λογισμικό να καταγράφει τα διάφορα περιβάλλοντα μέσα στα οποία μπορεί να εμφανιστεί μια λέξη, και καθώς αυτά τα περιβάλλοντα παρέχονται από τα έργα που χρησιμοποιούνται στην εκπαίδευση, συμπεριλαμβανομένων των έργων που προστατεύονται από πνευματικά δικαιώματα, δεν είναι αυθαίρετα. Με αυτόν τον τρόπο διατηρείται στο σύστημα AI η αρχική χρήση των λέξεων, η έκφραση του πρωτότυπου έργου. Μπορεί να αναπαραχθεί και να αναλυθεί και μπορεί να αποτελέσει τη βάση νέων εκφράσεων (οι οποίες, ανάλογα με τις ειδικές συνθήκες, μπορούν να χαρακτηριστούν ως «παράγωγο έργο» στη γλώσσα πνευματικών δικαιωμάτων). 

Οι LLM διατηρούν τις εκφράσεις των πρωτότυπων έργων στα οποία έχουν εκπαιδευτεί. Σχηματίζουν εσωτερικές αναπαραστάσεις του κειμένου σε ειδικά διαμορφωμένους διανυσματικούς χώρους και, έχοντας την κατάλληλη εισαγωγή ως έναυσμα, θα μπορούσαν να αναπαράγουν τα πρωτότυπα έργα που χρησιμοποιήθηκαν στην εκπαίδευσή τους. Τα συστήματα τεχνητής νοημοσύνης αντλούν αιώνια οφέλη από το περιεχόμενο, συμπεριλαμβανομένου του περιεχομένου που προστατεύεται από πνευματικά δικαιώματα, που χρησιμοποιείται για την εκπαίδευση των LLM στα οποία βασίζονται. Τα LLM αναγνωρίζουν το πλαίσιο των λέξεων με βάση την έκφραση των λέξεων στο πρωτότυπο έργο. Και αυτό το πλαίσιο ωφελεί σωρευτικά το σύστημα AI σε χιλιάδες ή εκατομμύρια έργα που προστατεύονται από πνευματικά δικαιώματα που χρησιμοποιούνται στην εκπαίδευση. Αυτά τα πρωτότυπα έργα μπορούν να δημιουργηθούν εκ νέου από το σύστημα τεχνητής νοημοσύνης, επειδή αποθηκεύονται σε διανύσματα – αναπαραστάσεις διανυσματικού χώρου διακριτικών που διατηρούν την αρχική τους αναπαράσταση φυσικής γλώσσας – του έργου που προστατεύεται από πνευματικά δικαιώματα. Από την άποψη των πνευματικών δικαιωμάτων, ο καθορισμός του κατά πόσον το εκπαιδευτικό υλικό διατηρείται στα LLM βρίσκεται στο επίκεντρο του θέματος και είναι σαφές ότι η απάντηση σε αυτό το ερώτημα είναι ναι.

Σφραγίδα ώρας:

Περισσότερα από ΔΕΔΟΜΕΝΟΤΗΤΑ