גוגל משיקה עורך וידאו המופעל על ידי בינה מלאכותית Dreamix ליצירה ועריכה של סרטונים והנפשת תמונות

גוגל משיקה עורך וידאו המופעל על ידי בינה מלאכותית Dreamix ליצירה ועריכה של סרטונים והנפשת תמונות

צומת המקור: 1953261

בעוד ש-OpenAI ChatGPT שואבת את כל החמצן ממחזור החדשות של 24 שעות, גוגל חשפה בשקט מודל בינה מלאכותית חדש שיכול להפיק סרטונים כאשר מקבלים קלט וידאו, תמונה וטקסט. עורך הווידאו החדש של Google Dreamix AI מקרב כעת את הווידאו שנוצר למציאות.

לפי המחקר שפורסם ב-GitHub, Dreamix עורך את הסרטון על סמך סרטון והודעה טקסט. הסרטון המתקבל שומר על נאמנותו לצבע, ליציבה, לגודל האובייקט ולתנוחת המצלמה, וכתוצאה מכך סרטון עקבי זמני. נכון לעכשיו, Dreamix לא יכול ליצור סרטונים רק מהודעה, עם זאת, הוא יכול לקחת חומר קיים ולשנות את הסרטון באמצעות הנחיות טקסט.

גוגל משתמשת במודלים של פיזור וידאו עבור Dreamix, גישה שיושמה בהצלחה לרוב עריכת תמונת הווידאו שאנו רואים ב-AI של תמונות כגון DALL-E2 או ה-Stable Diffusion בקוד פתוח.

הגישה כוללת הפחתה כבדה של סרטון הקלט, הוספת רעש מלאכותי, ולאחר מכן עיבוד שלו במודל דיפוזיה של וידאו, אשר לאחר מכן משתמש בהנחיית טקסט כדי ליצור סרטון חדש ממנו ששומר על מאפיינים מסוימים של הסרטון המקורי ומעבד מחדש אחרים בהתאם לקלט הטקסט.

מודל הפצת הווידאו מציע עתיד מבטיח שעשוי לפתח עידן חדש לעבודה עם סרטונים.

לדוגמה, בסרטון למטה, Dreamix הופך את הקוף האוכל (משמאל) לדוב רוקד (מימין) בהתחשב בהנחיה "דוב רוקד וקופץ לצלילי מוזיקה אופטימית, מזיז את כל גופו".

בדוגמה נוספת להלן, Dreamix משתמש בתמונה בודדת כתבנית (כמו בתמונה לסרטון) ואז אובייקט מונפש ממנו בסרטון באמצעות הנחיה. תנועות מצלמה אפשריות גם בסצנה החדשה או בהקלטת זמן-lapse לאחר מכן.

בדוגמה אחרת, Dreamix הופך את האורנגאוטן בבריכת מים (משמאל) לאורנגאוטן עם שיער כתום רוחץ בחדר אמבטיה יפה.

"בעוד שמודלי דיפוזיה יושמו בהצלחה לעריכת תמונות, מעט מאוד עבודות עשו זאת לעריכת וידאו. אנו מציגים את השיטה הראשונה מבוססת דיפוזיה שמסוגלת לבצע עריכת תנועה ומראה מבוססי טקסט של סרטונים כלליים."

לפי מאמר המחקר של גוגל, Dreamix משתמשת במודל דיפוזיה של וידאו כדי לשלב, בזמן היסק, את המידע המרחבי-זמני ברזולוציה נמוכה מהסרטון המקורי עם מידע חדש ברזולוציה גבוהה שהוא סינתזה כדי ליישר את ההנחיה של הטקסט המנחה."

גוגל אמרה שהיא נקטה בגישה זו מכיוון ש"השגת נאמנות גבוהה לסרטון המקורי דורשת שמירה על חלק מהמידע ברזולוציה הגבוהה שלו, אנו מוסיפים שלב מקדים של כוונון עדין של הדגם בסרטון המקורי, מה שמגביר משמעותית את הנאמנות".

להלן סקירת וידאו של איך Dreamix עובד.

[תוכן מוטבע]

כיצד פועלים דגמי פיזור וידאו של Dreamix

לפי גוגל, כוונון עדין של מודל פיזור הווידאו עבור Dreamix על סרטון הקלט בלבד מגביל את מידת השינוי בתנועה. במקום זאת, אנו משתמשים ביעד מעורב שמלבד המטרה המקורית (משמאל למטה) גם מכוונן עדין על סט הפריימים הלא מסודר. זה נעשה על ידי שימוש ב"תשומת לב זמנית במסכת", מניעת כוונון הקשב הזמני והקונבולוציה (למטה מימין). זה מאפשר הוספת תנועה לסרטון סטטי.

"השיטה שלנו תומכת במספר יישומים על ידי עיבוד מקדים תלוי יישומים (משמאל), המרה את תוכן הקלט לפורמט וידאו אחיד. עבור תמונה לווידאו, תמונת הקלט משוכפלת ומשמרת באמצעות טרנספורמציות פרספקטיבה, תוך סינתזה של סרטון גס עם תנועת מצלמה מסוימת. עבור יצירת וידאו מונחה נושא, הקלט מושמט - כוונון עדין לבדו דואג לנאמנות. הסרטון הגס הזה נערך לאחר מכן באמצעות "עורך הווידאו של Dreammix" הכללי שלנו (מימין): תחילה אנו משחיתים את הסרטון על ידי דגימה מטה ולאחר מכן הוספת רעש. לאחר מכן, אנו מיישמים את מודל דיפוזיית הווידאו מונחה הטקסט, המשדרג את הסרטון לרזולוציה המרחבית-זמנית הסופית", כתב Dream ב- GitHub.

אתה יכול לקרוא את עבודת המחקר למטה.

גוגל דרימיקס

בול זמן:

עוד מ TechStartups