Αναλογιζόμενοι τους τελευταίους 15 μήνες, η πρόοδος που σημειώθηκε στη δημιουργία τεχνητής νοημοσύνης και στα μεγάλα γλωσσικά μοντέλα (LLM) μετά την εισαγωγή και τη διαθεσιμότητα του ChatGPT στο κοινό έχει κυριαρχήσει στους τίτλους των εφημερίδων.
Το δομικό στοιχείο για αυτήν την πρόοδο ήταν η αρχιτεκτονική του μοντέλου Transformer που περιγράφεται από μια ομάδα ερευνητών της Google σε μια εργασία με τίτλο "Η προσοχή είναι το μόνο που χρειάζεστε.» Όπως υποδηλώνει ο τίτλος, ένα βασικό χαρακτηριστικό όλων των μοντέλων Transformer είναι ο μηχανισμός της προσοχής, που ορίζεται στο έγγραφο ως εξής:
«Μια συνάρτηση προσοχής μπορεί να περιγραφεί ως αντιστοίχιση ενός ερωτήματος και ενός συνόλου ζευγών κλειδιών-τιμών σε μια έξοδο, όπου το ερώτημα, τα κλειδιά, οι τιμές και η έξοδος είναι όλα διανύσματα. Η έξοδος υπολογίζεται ως σταθμισμένο άθροισμα των τιμών, όπου το βάρος που εκχωρείται σε κάθε τιμή υπολογίζεται από μια συνάρτηση συμβατότητας του ερωτήματος με το αντίστοιχο κλειδί."
Ένα χαρακτηριστικό των μοντέλων τεχνητής νοημοσύνης που δημιουργούνται είναι η μαζική κατανάλωση εισόδων δεδομένων, οι οποίες θα μπορούσαν να αποτελούνται από κείμενο, εικόνες, αρχεία ήχου, αρχεία βίντεο ή οποιονδήποτε συνδυασμό των εισόδων (μια περίπτωση που συνήθως αναφέρεται ως "πολυτροπική"). Από την άποψη των πνευματικών δικαιωμάτων, ένα σημαντικό ερώτημα (από πολλές σημαντικές ερωτήσεις) που πρέπει να τεθεί είναι εάν το εκπαιδευτικό υλικό διατηρείται στο μεγάλο γλωσσικό μοντέλο (LLM) που παράγεται από διάφορους προμηθευτές LLM. Για να απαντήσουμε σε αυτήν την ερώτηση, πρέπει να κατανοήσουμε πώς επεξεργάζονται τα κειμενικά υλικά. Εστιάζοντας στο κείμενο, αυτό που ακολουθεί είναι μια σύντομη, μη τεχνική περιγραφή ακριβώς αυτής της πτυχής της εκπαίδευσης LLM.
Οι άνθρωποι επικοινωνούν στη φυσική γλώσσα τοποθετώντας λέξεις σε ακολουθίες. οι κανόνες σχετικά με τη σειρά και τη συγκεκριμένη μορφή μιας λέξης υπαγορεύονται από τη συγκεκριμένη γλώσσα (π.χ. αγγλικά). Ένα ουσιαστικό μέρος της αρχιτεκτονικής για όλα τα συστήματα λογισμικού που επεξεργάζονται κείμενο (και επομένως για όλα τα συστήματα τεχνητής νοημοσύνης που το κάνουν) είναι ο τρόπος αναπαράστασης αυτού του κειμένου, ώστε οι λειτουργίες του συστήματος να μπορούν να εκτελούνται πιο αποτελεσματικά. Επομένως, ένα βασικό βήμα στην επεξεργασία μιας εισαγωγής κειμένου σε γλωσσικά μοντέλα είναι ο διαχωρισμός της εισαγωγής του χρήστη σε ειδικές «λέξεις» που μπορεί να κατανοήσει το σύστημα τεχνητής νοημοσύνης. Αυτές οι ειδικές λέξεις ονομάζονται "tokens". Το στοιχείο που είναι υπεύθυνο για αυτό ονομάζεται "tokenizer". Υπάρχουν πολλοί τύποι tokenizers. Για παράδειγμα, το OpenAI και το Azure OpenAI χρησιμοποιούν μια μέθοδο προσδιορισμού υπολέξεων που ονομάζεται "Byte-Pair Encoding (BPE)" για τα μοντέλα τους που βασίζονται σε Generative Pretrained Transformer (GPT). Το BPE είναι μια μέθοδος που συγχωνεύει τα πιο συχνά εμφανιζόμενα ζεύγη χαρακτήρων ή byte σε ένα μόνο διακριτικό, έως ότου επιτευχθεί ένας ορισμένος αριθμός διακριτικών ή ένα μέγεθος λεξιλογίου. Όσο μεγαλύτερο είναι το μέγεθος του λεξιλογίου, τόσο πιο ποικίλα και εκφραστικά είναι τα κείμενα που μπορεί να δημιουργήσει το μοντέλο.
Μόλις το σύστημα AI αντιστοιχίσει το κείμενο εισαγωγής σε διακριτικά, κωδικοποιεί τα διακριτικά σε αριθμούς και μετατρέπει τις ακολουθίες που επεξεργάστηκε ως διανύσματα που αναφέρονται ως "ενσωματώσεις λέξεων". Ένα διάνυσμα είναι ένα διατεταγμένο σύνολο αριθμών – μπορείτε να το σκεφτείτε ως γραμμή ή στήλη σε έναν πίνακα. Αυτά τα διανύσματα είναι αναπαραστάσεις διακριτικών που διατηρούν την αρχική τους φυσική αναπαράσταση γλώσσας που δόθηκε ως κείμενο. Είναι σημαντικό να κατανοήσουμε τον ρόλο των ενσωματώσεων λέξεων όσον αφορά τα πνευματικά δικαιώματα, επειδή οι ενσωματώσεις σχηματίζουν αναπαραστάσεις (ή κωδικοποιήσεις) ολόκληρων προτάσεων, ή ακόμα και παραγράφων, και επομένως, σε συνδυασμούς διανυσμάτων, ακόμη και ολόκληρα έγγραφα σε διανυσματικό χώρο υψηλών διαστάσεων. Είναι μέσα από αυτές τις ενσωματώσεις που το σύστημα AI συλλαμβάνει και αποθηκεύει το νόημα και τις σχέσεις των λέξεων από τη φυσική γλώσσα.
Οι ενσωματώσεις χρησιμοποιούνται σχεδόν σε κάθε εργασία που εκτελεί ένα σύστημα παραγωγής τεχνητής νοημοσύνης (π.χ. δημιουργία κειμένου, σύνοψη κειμένου, ταξινόμηση κειμένου, μετάφραση κειμένου, δημιουργία εικόνων, δημιουργία κώδικα κ.λπ.). Οι ενσωματώσεις λέξεων αποθηκεύονται συνήθως σε διανυσματικές βάσεις δεδομένων, αλλά μια λεπτομερής περιγραφή όλων των προσεγγίσεων αποθήκευσης ξεφεύγει από το πεδίο εφαρμογής αυτής της ανάρτησης, καθώς υπάρχει μεγάλη ποικιλία προμηθευτών, διαδικασιών και πρακτικών σε χρήση.
Όπως αναφέρθηκε, σχεδόν όλα τα LLM βασίζονται στην αρχιτεκτονική του Transformer, η οποία επικαλείται τον μηχανισμό προσοχής. Το τελευταίο επιτρέπει στην τεχνολογία AI να βλέπει ολόκληρες προτάσεις, ακόμη και παραγράφους, ως σύνολο και όχι ως απλές ακολουθίες χαρακτήρων. Αυτό επιτρέπει στο λογισμικό να καταγράφει τα διάφορα περιβάλλοντα μέσα στα οποία μπορεί να εμφανιστεί μια λέξη, και καθώς αυτά τα περιβάλλοντα παρέχονται από τα έργα που χρησιμοποιούνται στην εκπαίδευση, συμπεριλαμβανομένων των έργων που προστατεύονται από πνευματικά δικαιώματα, δεν είναι αυθαίρετα. Με αυτόν τον τρόπο διατηρείται στο σύστημα AI η αρχική χρήση των λέξεων, η έκφραση του πρωτότυπου έργου. Μπορεί να αναπαραχθεί και να αναλυθεί και μπορεί να αποτελέσει τη βάση νέων εκφράσεων (οι οποίες, ανάλογα με τις ειδικές συνθήκες, μπορούν να χαρακτηριστούν ως «παράγωγο έργο» στη γλώσσα πνευματικών δικαιωμάτων).
Οι LLM διατηρούν τις εκφράσεις των πρωτότυπων έργων στα οποία έχουν εκπαιδευτεί. Σχηματίζουν εσωτερικές αναπαραστάσεις του κειμένου σε ειδικά διαμορφωμένους διανυσματικούς χώρους και, έχοντας την κατάλληλη εισαγωγή ως έναυσμα, θα μπορούσαν να αναπαράγουν τα πρωτότυπα έργα που χρησιμοποιήθηκαν στην εκπαίδευσή τους. Τα συστήματα τεχνητής νοημοσύνης αντλούν αιώνια οφέλη από το περιεχόμενο, συμπεριλαμβανομένου του περιεχομένου που προστατεύεται από πνευματικά δικαιώματα, που χρησιμοποιείται για την εκπαίδευση των LLM στα οποία βασίζονται. Τα LLM αναγνωρίζουν το πλαίσιο των λέξεων με βάση την έκφραση των λέξεων στο πρωτότυπο έργο. Και αυτό το πλαίσιο ωφελεί σωρευτικά το σύστημα AI σε χιλιάδες ή εκατομμύρια έργα που προστατεύονται από πνευματικά δικαιώματα που χρησιμοποιούνται στην εκπαίδευση. Αυτά τα πρωτότυπα έργα μπορούν να δημιουργηθούν εκ νέου από το σύστημα τεχνητής νοημοσύνης, επειδή αποθηκεύονται σε διανύσματα – αναπαραστάσεις διανυσματικού χώρου διακριτικών που διατηρούν την αρχική τους αναπαράσταση φυσικής γλώσσας – του έργου που προστατεύεται από πνευματικά δικαιώματα. Από την άποψη των πνευματικών δικαιωμάτων, ο καθορισμός του κατά πόσον το εκπαιδευτικό υλικό διατηρείται στα LLM βρίσκεται στο επίκεντρο του θέματος και είναι σαφές ότι η απάντηση σε αυτό το ερώτημα είναι ναι.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :έχει
- :είναι
- :δεν
- :που
- 15%
- a
- Σχετικα
- απέναντι
- Ad
- AI
- Μοντέλα AI
- Συστήματα AI
- Όλα
- επιτρέπει
- σχεδόν
- an
- αναλύθηκε
- και
- απάντηση
- κάθε
- προσεγγίσεις
- κατάλληλος
- αυθαίρετος
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- ζητώ
- άποψη
- ανατεθεί
- At
- προσοχή
- ήχου
- διαθεσιμότητα
- Γαλανός
- βασίζονται
- βάση
- BE
- επειδή
- ήταν
- οφέλη
- Πέρα
- Αποκλεισμός
- Κτίριο
- αλλά
- by
- που ονομάζεται
- CAN
- πιάνω
- συλλαμβάνει
- περίπτωση
- ορισμένες
- χαρακτηριστικός
- χαρακτηρίζεται
- χαρακτήρες
- ChatGPT
- περιστάσεις
- ταξινόμηση
- καθαρός
- κωδικός
- Στήλη
- συνδυασμός
- συνδυασμοί
- έρχεται
- επικοινωνούν
- συμβατότητα
- συστατικό
- υπολογίζεται
- κατανάλωση
- περιεχόμενο
- συμφραζόμενα
- πλαίσια
- αντιγραφή
- πνευματική ιδιοκτησία
- Αντίστοιχος
- θα μπορούσε να
- ημερομηνία
- βάσεις δεδομένων
- ΔΕΔΟΜΕΝΟΤΗΤΑ
- ορίζεται
- Σε συνάρτηση
- τάση
- περιγράφεται
- περιγραφή
- λεπτομερής
- καθορίζοντας
- υπαγορεύεται
- διάφορα
- DM
- do
- έγγραφα
- κυριαρχούσε
- e
- κάθε
- αποτελεσματικά
- κωδικοποίησης
- Αγγλικά
- Ολόκληρος
- με τίτλο
- ουσιώδης
- Αιθέρας (ΕΤΗ)
- Even
- Συμβάν
- Κάθε
- ακριβώς
- παράδειγμα
- έκφραση
- εκφράσεις
- εκφραστικός
- Χαρακτηριστικό
- Αρχεία
- εστιάζοντας
- Εξής
- εξής
- Για
- μορφή
- συχνά
- από
- λειτουργία
- λειτουργίες
- παράγουν
- γενεά
- γενετική
- Παραγωγική τεχνητή νοημοσύνη
- δεδομένου
- Έχω
- Τίτλοι
- Καρδιά
- βοήθεια
- Πως
- Πώς να
- HTTPS
- εικόνα
- δημιουργία εικόνας
- εικόνες
- σημαντικό
- in
- Συμπεριλαμβανομένου
- εισαγωγή
- είσοδοι
- εσωτερικός
- σε
- Εισαγωγή
- επικαλείται
- IT
- Κλειδί
- πλήκτρα
- Γλώσσα
- large
- μεγαλύτερος
- llm
- που
- πολοί
- χαρτης
- μαζική
- υλικά
- ύλη
- Ενδέχεται..
- νόημα
- μηχανισμός
- που αναφέρθηκαν
- καταναλωτές
- συγχωνεύεται
- μέθοδος
- εκατομμύρια
- μοντέλο
- μοντέλα
- μήνες
- περισσότερο
- πλέον
- Φυσικό
- Φυσική γλώσσα
- Ανάγκη
- NeurIPS
- Νέα
- Newsletter
- μη τεχνικό
- αριθμός
- αριθμοί
- συμβούν
- που συμβαίνουν
- of
- on
- OpenAI
- or
- πρωτότυπο
- σκιαγραφείται
- παραγωγή
- ζεύγη
- Χαρτί
- μέρος
- Το παρελθόν
- εκτελούνται
- εκτελεί
- Διαρκής
- προοπτική
- διάθεση
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Θέση
- πρακτικά
- πρακτικές
- διατηρούνται
- διαδικασια μας
- επεξεργασία
- Διεργασίες
- μεταποίηση
- Παράγεται
- Πρόοδος
- παρέχεται
- δημόσιο
- απορία
- ερώτηση
- Ερωτήσεις
- μάλλον
- φθάσει
- αναγνωρίζω
- αναφέρεται
- Σχέσεις
- εκπροσωπώ
- αντιπροσώπευση
- ερευνητές
- υπεύθυνος
- διατηρώ
- έκτακτος
- Ρόλος
- ΣΕΙΡΑ
- κανόνες
- έκταση
- ακολουθία
- σειρά
- ενιαίας
- Μέγεθος
- So
- λογισμικό
- Χώρος
- χώρων
- ειδική
- συγκεκριμένες
- Βήμα
- χώρος στο δίσκο
- αποθηκεύονται
- καταστήματα
- Προτείνει
- άθροισμα
- σύστημα
- συστήματα
- τραπέζι
- Έργο
- Τεχνολογία
- κείμενο
- Ταξινόμηση κειμένου
- δημιουργία κειμένου
- κείμενο
- από
- ότι
- Η
- τους
- Εκεί.
- επομένως
- Αυτοί
- αυτοί
- νομίζω
- αυτό
- εκείνοι
- χιλιάδες
- Μέσω
- Τίτλος
- προς την
- ένδειξη
- Τεκμηρίωση
- κουπόνια
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- μετασχηματιστής
- Μετάφραση
- ενεργοποιούν
- τύποι
- καταλαβαίνω
- μέχρι
- επάνω σε
- χρήση
- μεταχειρισμένος
- Χρήστες
- συνήθως
- αξία
- Αξίες
- ποικιλία
- διάφορα
- πωλητές
- Βίντεο
- Δες
- βλέπετε
- ήταν
- Τρόπος..
- we
- εβδομαδιαίος
- βάρος
- ήταν
- Τι
- πότε
- αν
- Ποιό
- ολόκληρο
- ευρύς
- με
- εντός
- λέξη
- λόγια
- Εργασία
- λειτουργεί
- Ναί
- εσείς
- zephyrnet