Μοντέλα κειμένου σε εικόνα Μάθετε πιο αποτελεσματικά με πλαστά δεδομένα

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Οι συνθετικές εικόνες μπορούν να βοηθήσουν τα μοντέλα τεχνητής νοημοσύνης να μάθουν οπτικές αναπαραστάσεις με μεγαλύτερη ακρίβεια σε σύγκριση με πραγματικά στιγμιότυπα, σύμφωνα με επιστήμονες υπολογιστών στο MIT και την Google. Το αποτέλεσμα είναι νευρωνικά δίκτυα που είναι καλύτερα στη δημιουργία εικόνων από τις γραπτές περιγραφές σας.

Στην καρδιά όλων των μοντέλων κειμένου σε εικόνα βρίσκεται η ικανότητά τους να αντιστοιχίζουν αντικείμενα με λέξεις. Λαμβάνοντας μια προτροπή εισαγωγής κειμένου – όπως «ένα παιδί που κρατά ένα κόκκινο μπαλόνι μια ηλιόλουστη μέρα», για παράδειγμα – θα πρέπει να επιστρέψει μια εικόνα που προσεγγίζει την περιγραφή. Για να το κάνουν αυτό, πρέπει να μάθουν τις οπτικές αναπαραστάσεις του πώς μπορεί να μοιάζει ένα παιδί, ένα κόκκινο μπαλόνι και μια ηλιόλουστη μέρα.

Η ομάδα του MIT-Google πιστεύει ότι τα νευρωνικά δίκτυα μπορούν να δημιουργήσουν πιο ακριβείς εικόνες από μηνύματα προτροπής αφού εκπαιδευτούν σε εικόνες που έχουν δημιουργηθεί με τεχνητή νοημοσύνη, σε αντίθεση με τη χρήση πραγματικών φωτογραφιών. Για να το αποδείξει αυτό, η ομάδα αναπτύχθηκε StableRep, το οποίο μαθαίνει πώς να μετατρέπει τους περιγραφικούς γραπτούς λεζάντες σε σωστές αντίστοιχες εικόνες από εικόνες που δημιουργούνται από το δημοφιλές μοντέλο ανοιχτού κώδικα κειμένου σε εικόνα Stable Diffusion.

Με άλλα λόγια: χρήση ενός καθιερωμένου, εκπαιδευμένου μοντέλου AI για τη διδασκαλία άλλων μοντέλων.

Όπως το προεκτυπωμένο χαρτί των επιστημόνων, που κυκλοφόρησε μέσω arXiv στα τέλη του περασμένου μήνα, το θέτει: «Με αποκλειστικά συνθετικές εικόνες, οι αναπαραστάσεις που μαθαίνει το StableRep ξεπερνούν την απόδοση των αναπαραστάσεων που μαθαίνουν οι SimCLR και CLIP χρησιμοποιώντας το ίδιο σύνολο προτροπών κειμένου και αντίστοιχες πραγματικές εικόνες, σε σύνολα δεδομένων μεγάλης κλίμακας». Οι SimCLR και CLIP είναι αλγόριθμοι μηχανικής εκμάθησης που μπορούν να χρησιμοποιηθούν για τη δημιουργία εικόνων από μηνύματα κειμένου.

«Όταν προσθέτουμε περαιτέρω επίβλεψη γλώσσας, το StableRep που εκπαιδεύεται με 20 εκατομμύρια συνθετικές εικόνες επιτυγχάνει καλύτερη ακρίβεια από το CLIP που έχει εκπαιδευτεί με 50 εκατομμύρια πραγματικές εικόνες», συνεχίζει η εφημερίδα.

Οι αλγόριθμοι μηχανικής μάθησης καταγράφουν τις σχέσεις μεταξύ των χαρακτηριστικών των αντικειμένων και των σημασιών των λέξεων ως μια σειρά αριθμών. Χρησιμοποιώντας το StableRep, οι ερευνητές μπορούν να ελέγξουν αυτή τη διαδικασία πιο προσεκτικά – εκπαιδεύοντας ένα μοντέλο σε πολλαπλές εικόνες που δημιουργούνται από το Stable Diffusion στην ίδια προτροπή. Σημαίνει ότι το μοντέλο μπορεί να μάθει πιο διαφορετικές οπτικές αναπαραστάσεις και μπορεί να δει ποιες εικόνες ταιριάζουν περισσότερο με τις προτροπές από άλλες.

Νομίζω ότι θα έχουμε ένα οικοσύστημα με μερικά μοντέλα εκπαιδευμένα σε πραγματικά δεδομένα, μερικά σε συνθετικά

«Διδάσκουμε στο μοντέλο να μαθαίνει περισσότερα για έννοιες υψηλού επιπέδου μέσω του πλαισίου και της διακύμανσης, όχι απλώς τροφοδοτώντας του δεδομένα», η Lijie Fan, επικεφαλής ερευνητής της μελέτης και φοιτήτρια διδάκτορας ηλεκτρολόγων μηχανικών στο MIT. εξήγησε αυτή την εβδομάδα. «Όταν χρησιμοποιεί πολλαπλές εικόνες, όλες που δημιουργούνται από το ίδιο κείμενο, αντιμετωπίζονται όλες ως απεικονίσεις του ίδιου υποκείμενου πράγματος, το μοντέλο βυθίζεται βαθύτερα στις έννοιες πίσω από τις εικόνες – ας πούμε το αντικείμενο – όχι μόνο στα pixel τους».

Όπως σημειώθηκε παραπάνω, αυτή η προσέγγιση σημαίνει επίσης ότι μπορείτε να χρησιμοποιήσετε λιγότερες συνθετικές εικόνες για να εκπαιδεύσετε το νευρωνικό σας δίκτυο από τις πραγματικές και να έχετε καλύτερα αποτελέσματα – κάτι που είναι win-win για τους προγραμματιστές τεχνητής νοημοσύνης.

Μέθοδοι όπως το StableRep σημαίνουν ότι τα μοντέλα κειμένου σε εικόνα μπορεί μια μέρα να εκπαιδευτούν σε συνθετικά δεδομένα. Θα επέτρεπε στους προγραμματιστές να βασίζονται λιγότερο σε πραγματικές εικόνες και μπορεί να είναι απαραίτητο εάν οι μηχανές τεχνητής νοημοσύνης εξαντλήσουν τους διαθέσιμους διαδικτυακούς πόρους.

«Νομίζω ότι [η εκπαίδευση μοντέλων τεχνητής νοημοσύνης σε συνθετικές εικόνες] θα είναι ολοένα και πιο συνηθισμένη», είπε ο Phillip Isola, συν-συγγραφέας της εργασίας και αναπληρωτής καθηγητής όρασης υπολογιστών στο MIT. Το μητρώο. «Πιστεύω ότι θα έχουμε ένα οικοσύστημα ορισμένων μοντέλων εκπαιδευμένων σε πραγματικά δεδομένα, ορισμένων σε συνθετικά και ίσως τα περισσότερα μοντέλα θα εκπαιδευτούν και στα δύο».

Είναι δύσκολο να βασιστείς αποκλειστικά σε εικόνες που δημιουργούνται από AI, επειδή η ποιότητα και η ανάλυσή τους είναι συχνά χειρότερη από τις πραγματικές φωτογραφίες. Τα μοντέλα κειμένου σε εικόνα που τα δημιουργούν είναι περιορισμένα και με άλλους τρόπους. Το Stable Diffusion δεν παράγει πάντα εικόνες που είναι πιστές στα μηνύματα κειμένου.

Η Isola προειδοποίησε ότι η χρήση συνθετικών εικόνων δεν παρακάμπτει ούτε το πιθανό ζήτημα της παραβίασης πνευματικών δικαιωμάτων, καθώς τα μοντέλα που τις δημιουργούν ήταν πιθανότατα εκπαιδευμένα σε προστατευμένα υλικά.

«Τα συνθετικά δεδομένα θα μπορούσαν να περιλαμβάνουν ακριβή αντίγραφα δεδομένων πνευματικών δικαιωμάτων. Ωστόσο, τα συνθετικά δεδομένα παρέχουν επίσης νέες ευκαιρίες για να παρακάμψουμε ζητήματα IP και απορρήτου, επειδή μπορούμε ενδεχομένως να παρέμβουμε σε αυτά, επεξεργάζοντας το μοντέλο παραγωγής για να αφαιρέσουμε ευαίσθητα χαρακτηριστικά», εξήγησε.

Η ομάδα προειδοποίησε επίσης ότι τα συστήματα εκπαίδευσης σε εικόνες που δημιουργούνται από τεχνητή νοημοσύνη θα μπορούσαν ενδεχομένως να επιδεινώσουν τις προκαταλήψεις που μαθαίνονται από το υποκείμενο μοντέλο κειμένου σε εικόνα. ®

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/

Σφραγίδα ώρας: Νοέμβριος 22, 2023

Οι ειδικοί προειδοποιούν για εξαφάνιση από την τεχνητή νοημοσύνη εάν δεν ληφθούν μέτρα τώρα

Σύμπλεγμα πηγής:

Το μητρώο

Κόμβος πηγής: 2688105

Σφραγίδα ώρας: 30 Μαΐου 2023

Τα μοντέλα κειμένου σε εικόνα μαθαίνουν πιο αποτελεσματικά με πλαστά δεδομένα

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από Το μητρώο

Τώρα η Amazon κάνει το ντεμπούτο της ως βοηθός προγραμματισμού AI – CodeWhisperer

Το Υπουργείο Δικαιοσύνης των ΗΠΑ φέρεται να ελέγχει την τεχνητή νοημοσύνη για την τιμολόγηση ενοικίασης biz RealPage

Περισσότεροι από 1,000 άνθρωποι αποτυγχάνουν να νικήσουν τον υποψήφιο της τεχνητής νοημοσύνης στην κορυφαία διασταυρούμενη μάχη

Οι επενδύσεις σε τεχνητή νοημοσύνη είναι ακόμα σε στάδιο προγραμματισμού έως το 2024: Gartner

Το Google Photos AI εξακολουθεί να μην μπορεί να επισημάνει τους γορίλες

Η FTC ανοίγει έρευνα για συμφωνίες Amazon, Google και Microsoft AI

Το chatbot AI που εκπαιδεύτηκε σε αναρτήσεις από το web sewer 4chan συμπεριφέρθηκε άσχημα – όπως και τα ανθρώπινα μέλη

Οι σύμβουλοι του Ινδού πρωθυπουργού λένε ότι η τεχνητή νοημοσύνη μπορεί να προκαλέσει «μαζική σχιζοφρένεια»

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός