Τα μοντέλα κειμένου σε εικόνα μαθαίνουν πιο αποτελεσματικά με πλαστά δεδομένα

Τα μοντέλα κειμένου σε εικόνα μαθαίνουν πιο αποτελεσματικά με πλαστά δεδομένα

Κόμβος πηγής: 2974582

Οι συνθετικές εικόνες μπορούν να βοηθήσουν τα μοντέλα τεχνητής νοημοσύνης να μάθουν οπτικές αναπαραστάσεις με μεγαλύτερη ακρίβεια σε σύγκριση με πραγματικά στιγμιότυπα, σύμφωνα με επιστήμονες υπολογιστών στο MIT και την Google. Το αποτέλεσμα είναι νευρωνικά δίκτυα που είναι καλύτερα στη δημιουργία εικόνων από τις γραπτές περιγραφές σας.

Στην καρδιά όλων των μοντέλων κειμένου σε εικόνα βρίσκεται η ικανότητά τους να αντιστοιχίζουν αντικείμενα με λέξεις. Λαμβάνοντας μια προτροπή εισαγωγής κειμένου – όπως «ένα παιδί που κρατά ένα κόκκινο μπαλόνι μια ηλιόλουστη μέρα», για παράδειγμα – θα πρέπει να επιστρέψει μια εικόνα που προσεγγίζει την περιγραφή. Για να το κάνουν αυτό, πρέπει να μάθουν τις οπτικές αναπαραστάσεις του πώς μπορεί να μοιάζει ένα παιδί, ένα κόκκινο μπαλόνι και μια ηλιόλουστη μέρα. 

Η ομάδα του MIT-Google πιστεύει ότι τα νευρωνικά δίκτυα μπορούν να δημιουργήσουν πιο ακριβείς εικόνες από μηνύματα προτροπής αφού εκπαιδευτούν σε εικόνες που έχουν δημιουργηθεί με τεχνητή νοημοσύνη, σε αντίθεση με τη χρήση πραγματικών φωτογραφιών. Για να το αποδείξει αυτό, η ομάδα αναπτύχθηκε StableRep, το οποίο μαθαίνει πώς να μετατρέπει τους περιγραφικούς γραπτούς λεζάντες σε σωστές αντίστοιχες εικόνες από εικόνες που δημιουργούνται από το δημοφιλές μοντέλο ανοιχτού κώδικα κειμένου σε εικόνα Stable Diffusion.

Με άλλα λόγια: χρήση ενός καθιερωμένου, εκπαιδευμένου μοντέλου AI για τη διδασκαλία άλλων μοντέλων.

Όπως το προεκτυπωμένο χαρτί των επιστημόνων, που κυκλοφόρησε μέσω arXiv στα τέλη του περασμένου μήνα, το θέτει: «Με αποκλειστικά συνθετικές εικόνες, οι αναπαραστάσεις που μαθαίνει το StableRep ξεπερνούν την απόδοση των αναπαραστάσεων που μαθαίνουν οι SimCLR και CLIP χρησιμοποιώντας το ίδιο σύνολο προτροπών κειμένου και αντίστοιχες πραγματικές εικόνες, σε σύνολα δεδομένων μεγάλης κλίμακας». Οι SimCLR και CLIP είναι αλγόριθμοι μηχανικής εκμάθησης που μπορούν να χρησιμοποιηθούν για τη δημιουργία εικόνων από μηνύματα κειμένου.

«Όταν προσθέτουμε περαιτέρω επίβλεψη γλώσσας, το StableRep που εκπαιδεύεται με 20 εκατομμύρια συνθετικές εικόνες επιτυγχάνει καλύτερη ακρίβεια από το CLIP που έχει εκπαιδευτεί με 50 εκατομμύρια πραγματικές εικόνες», συνεχίζει η εφημερίδα.

Οι αλγόριθμοι μηχανικής μάθησης καταγράφουν τις σχέσεις μεταξύ των χαρακτηριστικών των αντικειμένων και των σημασιών των λέξεων ως μια σειρά αριθμών. Χρησιμοποιώντας το StableRep, οι ερευνητές μπορούν να ελέγξουν αυτή τη διαδικασία πιο προσεκτικά – εκπαιδεύοντας ένα μοντέλο σε πολλαπλές εικόνες που δημιουργούνται από το Stable Diffusion στην ίδια προτροπή. Σημαίνει ότι το μοντέλο μπορεί να μάθει πιο διαφορετικές οπτικές αναπαραστάσεις και μπορεί να δει ποιες εικόνες ταιριάζουν περισσότερο με τις προτροπές από άλλες. 

Νομίζω ότι θα έχουμε ένα οικοσύστημα με μερικά μοντέλα εκπαιδευμένα σε πραγματικά δεδομένα, μερικά σε συνθετικά

«Διδάσκουμε στο μοντέλο να μαθαίνει περισσότερα για έννοιες υψηλού επιπέδου μέσω του πλαισίου και της διακύμανσης, όχι απλώς τροφοδοτώντας του δεδομένα», η Lijie Fan, επικεφαλής ερευνητής της μελέτης και φοιτήτρια διδάκτορας ηλεκτρολόγων μηχανικών στο MIT. εξήγησε αυτή την εβδομάδα. «Όταν χρησιμοποιεί πολλαπλές εικόνες, όλες που δημιουργούνται από το ίδιο κείμενο, αντιμετωπίζονται όλες ως απεικονίσεις του ίδιου υποκείμενου πράγματος, το μοντέλο βυθίζεται βαθύτερα στις έννοιες πίσω από τις εικόνες – ας πούμε το αντικείμενο – όχι μόνο στα pixel τους».

Όπως σημειώθηκε παραπάνω, αυτή η προσέγγιση σημαίνει επίσης ότι μπορείτε να χρησιμοποιήσετε λιγότερες συνθετικές εικόνες για να εκπαιδεύσετε το νευρωνικό σας δίκτυο από τις πραγματικές και να έχετε καλύτερα αποτελέσματα – κάτι που είναι win-win για τους προγραμματιστές τεχνητής νοημοσύνης.

Μέθοδοι όπως το StableRep σημαίνουν ότι τα μοντέλα κειμένου σε εικόνα μπορεί μια μέρα να εκπαιδευτούν σε συνθετικά δεδομένα. Θα επέτρεπε στους προγραμματιστές να βασίζονται λιγότερο σε πραγματικές εικόνες και μπορεί να είναι απαραίτητο εάν οι μηχανές τεχνητής νοημοσύνης εξαντλήσουν τους διαθέσιμους διαδικτυακούς πόρους.

«Νομίζω ότι [η εκπαίδευση μοντέλων τεχνητής νοημοσύνης σε συνθετικές εικόνες] θα είναι ολοένα και πιο συνηθισμένη», είπε ο Phillip Isola, συν-συγγραφέας της εργασίας και αναπληρωτής καθηγητής όρασης υπολογιστών στο MIT. Το μητρώο. «Πιστεύω ότι θα έχουμε ένα οικοσύστημα ορισμένων μοντέλων εκπαιδευμένων σε πραγματικά δεδομένα, ορισμένων σε συνθετικά και ίσως τα περισσότερα μοντέλα θα εκπαιδευτούν και στα δύο».

Είναι δύσκολο να βασιστείς αποκλειστικά σε εικόνες που δημιουργούνται από AI, επειδή η ποιότητα και η ανάλυσή τους είναι συχνά χειρότερη από τις πραγματικές φωτογραφίες. Τα μοντέλα κειμένου σε εικόνα που τα δημιουργούν είναι περιορισμένα και με άλλους τρόπους. Το Stable Diffusion δεν παράγει πάντα εικόνες που είναι πιστές στα μηνύματα κειμένου.

Η Isola προειδοποίησε ότι η χρήση συνθετικών εικόνων δεν παρακάμπτει ούτε το πιθανό ζήτημα της παραβίασης πνευματικών δικαιωμάτων, καθώς τα μοντέλα που τις δημιουργούν ήταν πιθανότατα εκπαιδευμένα σε προστατευμένα υλικά.

«Τα συνθετικά δεδομένα θα μπορούσαν να περιλαμβάνουν ακριβή αντίγραφα δεδομένων πνευματικών δικαιωμάτων. Ωστόσο, τα συνθετικά δεδομένα παρέχουν επίσης νέες ευκαιρίες για να παρακάμψουμε ζητήματα IP και απορρήτου, επειδή μπορούμε ενδεχομένως να παρέμβουμε σε αυτά, επεξεργάζοντας το μοντέλο παραγωγής για να αφαιρέσουμε ευαίσθητα χαρακτηριστικά», εξήγησε.

Η ομάδα προειδοποίησε επίσης ότι τα συστήματα εκπαίδευσης σε εικόνες που δημιουργούνται από τεχνητή νοημοσύνη θα μπορούσαν ενδεχομένως να επιδεινώσουν τις προκαταλήψεις που μαθαίνονται από το υποκείμενο μοντέλο κειμένου σε εικόνα. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο