Η Google λανσάρει το πρόγραμμα επεξεργασίας βίντεο Dreamix με τεχνητή νοημοσύνη για τη δημιουργία και την επεξεργασία βίντεο και την κίνηση εικόνων

Η Google λανσάρει το πρόγραμμα επεξεργασίας βίντεο Dreamix με τεχνητή νοημοσύνη για τη δημιουργία και την επεξεργασία βίντεο και την κίνηση εικόνων

Κόμβος πηγής: 1953261

Ενώ το OpenAI ChatGPT απορροφά όλο το οξυγόνο από τον 24ωρο κύκλο ειδήσεων, η Google αποκάλυψε αθόρυβα ένα νέο μοντέλο τεχνητής νοημοσύνης που μπορεί να δημιουργήσει βίντεο όταν δίνονται εισαγωγές βίντεο, εικόνας και κειμένου. Το νέο πρόγραμμα επεξεργασίας βίντεο Google Dreamix AI φέρνει τώρα το παραγόμενο βίντεο πιο κοντά στην πραγματικότητα.

Σύμφωνα με την έρευνα που δημοσιεύτηκε στο GitHub, το Dreamix επεξεργάζεται το βίντεο με βάση ένα βίντεο και μια προτροπή κειμένου. Το βίντεο που προκύπτει διατηρεί την πιστότητά του στο χρώμα, τη στάση του σώματος, το μέγεθος του αντικειμένου και τη στάση της κάμερας, με αποτέλεσμα ένα βίντεο χρονικά σταθερό. Προς το παρόν, το Dreamix δεν μπορεί να δημιουργήσει βίντεο μόνο από μια προτροπή, ωστόσο, μπορεί να λάβει υπάρχον υλικό και να τροποποιήσει το βίντεο χρησιμοποιώντας προτροπές κειμένου.

Η Google χρησιμοποιεί μοντέλα διάδοσης βίντεο για το Dreamix, μια προσέγγιση που έχει εφαρμοστεί με επιτυχία για το μεγαλύτερο μέρος της επεξεργασίας εικόνων βίντεο που βλέπουμε σε AI εικόνας όπως το DALL-E2 ή το Stable Diffusion ανοιχτού κώδικα.

Η προσέγγιση περιλαμβάνει τη σημαντική μείωση του βίντεο εισόδου, την προσθήκη τεχνητού θορύβου και, στη συνέχεια, την επεξεργασία του σε ένα μοντέλο διάχυσης βίντεο, το οποίο στη συνέχεια χρησιμοποιεί μια προτροπή κειμένου για να δημιουργήσει ένα νέο βίντεο από αυτό που διατηρεί ορισμένες ιδιότητες του αρχικού βίντεο και αποδίδει εκ νέου άλλες σύμφωνα με στην εισαγωγή κειμένου.

Το μοντέλο διάχυσης βίντεο προσφέρει ένα πολλά υποσχόμενο μέλλον που μπορεί να εγκαινιάσει μια νέα εποχή για την εργασία με βίντεο.

Για παράδειγμα, στο παρακάτω βίντεο, το Dreamix μετατρέπει τον πίθηκο που τρώει (αριστερά) σε αρκούδα που χορεύει (δεξιά) με την προτροπή «Μια αρκούδα χορεύει και χοροπηδά σε αισιόδοξη μουσική, κινώντας ολόκληρο το σώμα του».

Σε άλλο παράδειγμα παρακάτω, το Dreamix χρησιμοποιεί μια μεμονωμένη φωτογραφία ως πρότυπο (όπως στην εικόνα από εικόνα σε βίντεο) και στη συνέχεια ένα αντικείμενο κινείται από αυτήν σε ένα βίντεο μέσω μιας προτροπής. Οι κινήσεις της κάμερας είναι επίσης δυνατές στη νέα σκηνή ή σε μια επακόλουθη εγγραφή time-lapse.

Σε ένα άλλο παράδειγμα, το Dreamix μετατρέπει τον ουρακοτάγκο σε μια λίμνη νερού (αριστερά) σε έναν ουρακοτάγκο με πορτοκαλί μαλλιά που λούζονται σε ένα όμορφο μπάνιο.

«Ενώ τα μοντέλα διάχυσης έχουν εφαρμοστεί με επιτυχία για την επεξεργασία εικόνας, πολύ λίγα έργα το έχουν κάνει για την επεξεργασία βίντεο. Παρουσιάζουμε την πρώτη μέθοδο που βασίζεται στη διάχυση που είναι σε θέση να εκτελεί κίνηση βάσει κειμένου και επεξεργασία εμφάνισης γενικών βίντεο."

Σύμφωνα με το ερευνητικό έγγραφο της Google, το Dreamix χρησιμοποιεί ένα μοντέλο διάχυσης βίντεο για να συνδυάσει, σε χρόνο συμπερασμάτων, τις χαμηλές χωροχρονικές πληροφορίες από το αρχικό βίντεο με νέες, υψηλής ανάλυσης πληροφορίες που συνέθεσε για να ευθυγραμμιστεί με το καθοδηγητικό μήνυμα κειμένου.

Η Google είπε ότι ακολούθησε αυτήν την προσέγγιση επειδή «η απόκτηση υψηλής πιστότητας στο αρχικό βίντεο απαιτεί τη διατήρηση ορισμένων από τις πληροφορίες υψηλής ανάλυσης του, προσθέτουμε ένα προκαταρκτικό στάδιο τελειοποίησης του μοντέλου στο αρχικό βίντεο, ενισχύοντας σημαντικά την πιστότητα».

Ακολουθεί μια επισκόπηση βίντεο του τρόπου λειτουργίας του Dreamix.

[Ενσωματωμένο περιεχόμενο]

Πώς λειτουργούν τα μοντέλα διάχυσης βίντεο Dreamix

Σύμφωνα με την Google, η λεπτομερής ρύθμιση του μοντέλου διάχυσης βίντεο για το Dreamix μόνο στο εισερχόμενο βίντεο περιορίζει την έκταση της αλλαγής κίνησης. Αντίθετα, χρησιμοποιούμε έναν μικτό αντικειμενικό στόχο που εκτός από τον αρχικό στόχο (κάτω αριστερά) προσαρμόζεται και στο μη ταξινομημένο σύνολο καρέ. Αυτό γίνεται με τη χρήση "μασκαρισμένης χρονικής προσοχής", αποτρέποντας τη λεπτομέρεια της χρονικής προσοχής και της συνέλιξης (κάτω δεξιά). Αυτό επιτρέπει την προσθήκη κίνησης σε ένα στατικό βίντεο.

«Η μέθοδός μας υποστηρίζει πολλαπλές εφαρμογές με προεπεξεργασία που εξαρτάται από την εφαρμογή (αριστερά), μετατρέποντας το περιεχόμενο εισόδου σε ομοιόμορφη μορφή βίντεο. Για εικόνα σε βίντεο, η εικόνα εισόδου αντιγράφεται και μετασχηματίζεται χρησιμοποιώντας μετασχηματισμούς προοπτικής, συνθέτοντας ένα χονδροειδές βίντεο με κάποια κίνηση της κάμερας. Για τη δημιουργία βίντεο με γνώμονα το θέμα, η είσοδος παραλείπεται – μόνο η λεπτομέρεια φροντίζει για την πιστότητα. Αυτό το χονδροειδές βίντεο επεξεργάζεται στη συνέχεια χρησιμοποιώντας το γενικό μας "Dreamix Video Editor" (δεξιά): πρώτα καταστρέφουμε το βίντεο με μείωση δειγματοληψίας και στη συνέχεια προσθέτοντας θόρυβο. Στη συνέχεια εφαρμόζουμε το μοντέλο διάχυσης βίντεο καθοδηγούμενου από κείμενο με ακρίβεια, το οποίο αναβαθμίζει το βίντεο στην τελική χωροχρονική ανάλυση», έγραψε ο Dream στο GitHub.

Μπορείτε να διαβάσετε την ερευνητική εργασία παρακάτω.

Google Dreamix

Σφραγίδα ώρας:

Περισσότερα από TechStartups

Η Coinbase καταγράφει ζημιά 557 εκατομμυρίων δολαρίων. Τα έσοδα μειώνονται κατά 75% το τέταρτο τρίμηνο, καθώς οι επενδυτές κρυπτογράφησης μετακινούν τα ψηφιακά τους περιουσιακά στοιχεία από τα χρηματιστήρια

Κόμβος πηγής: 1970839
Σφραγίδα ώρας: 21 Φεβρουαρίου 2023