Google เปิดตัวโปรแกรมตัดต่อวิดีโอ Dreamix ที่ขับเคลื่อนด้วย AI สำหรับสร้างและแก้ไขวิดีโอและภาพเคลื่อนไหว

Google เปิดตัวโปรแกรมตัดต่อวิดีโอ Dreamix ที่ขับเคลื่อนด้วย AI สำหรับสร้างและแก้ไขวิดีโอและภาพเคลื่อนไหว

โหนดต้นทาง: 1953261

ในขณะที่ OpenAI ChatGPT กำลังดูดออกซิเจนทั้งหมดออกจากวงจรข่าว 24 ชั่วโมง Google ได้เปิดตัวโมเดล AI ใหม่ที่สามารถสร้างวิดีโอเมื่อได้รับวิดีโอ รูปภาพ และข้อความ โปรแกรมตัดต่อวิดีโอ Google Dreamix AI ใหม่ทำให้วิดีโอที่สร้างขึ้นมีความใกล้เคียงกับความเป็นจริงมากขึ้น

จากการวิจัยที่เผยแพร่บน GitHub นั้น Dreamix แก้ไขวิดีโอตามวิดีโอและข้อความแจ้ง วิดีโอที่ได้จะรักษาความเที่ยงตรงของสี ท่าทาง ขนาดวัตถุ และท่าทางของกล้อง ทำให้ได้วิดีโอที่สอดคล้องกันชั่วคราว ในขณะนี้ Dreamix ไม่สามารถสร้างวิดีโอจากข้อความแจ้งได้ อย่างไรก็ตาม สามารถใช้เนื้อหาที่มีอยู่แล้วแก้ไขวิดีโอโดยใช้ข้อความแจ้ง

Google ใช้โมเดลการแพร่กระจายวิดีโอสำหรับ Dreamix ซึ่งเป็นแนวทางที่ประสบความสำเร็จในการตัดต่อภาพวิดีโอส่วนใหญ่ที่เราเห็นในภาพ AI เช่น DALL-E2 หรือ Stable Diffusion แบบโอเพนซอร์ส

แนวทางนี้เกี่ยวข้องกับการลดวิดีโออินพุตลงอย่างมาก เพิ่มสัญญาณรบกวน แล้วประมวลผลในรูปแบบการแพร่กระจายวิดีโอ ซึ่งจากนั้นจะใช้ข้อความแจ้งเพื่อสร้างวิดีโอใหม่จากวิดีโอนั้น โดยยังคงคุณสมบัติบางอย่างของวิดีโอต้นฉบับไว้และแสดงผลอื่นๆ ซ้ำตาม เพื่อป้อนข้อความ

โมเดลการแพร่กระจายวิดีโอนำเสนออนาคตที่สดใสซึ่งอาจนำไปสู่ยุคใหม่ในการทำงานกับวิดีโอ

ตัวอย่างเช่น ในวิดีโอด้านล่าง Dreamix เปลี่ยนลิงที่กำลังกินอยู่ (ซ้าย) ให้เป็นหมีเต้นรำ (ขวา) เมื่อได้รับคำสั่ง “หมีเต้นและกระโดดไปตามจังหวะดนตรี เคลื่อนไหวร่างกายของมัน”

ในอีกตัวอย่างหนึ่งด้านล่าง Dreamix ใช้ภาพถ่ายเดียวเป็นแม่แบบ (เช่นเดียวกับภาพต่อวิดีโอ) จากนั้นวัตถุจะเคลื่อนไหวจากภาพนั้นในวิดีโอผ่านข้อความแจ้ง การเคลื่อนไหวของกล้องยังเป็นไปได้ในฉากใหม่หรือการบันทึกแบบเหลื่อมเวลาในภายหลัง

ในอีกตัวอย่างหนึ่ง Dreamix เปลี่ยนลิงอุรังอุตังในสระน้ำ (ซ้าย) ให้เป็นลิงอุรังอุตังขนสีส้มอาบน้ำในห้องน้ำที่สวยงาม

“แม้ว่าโมเดลการแพร่กระจายจะประสบความสำเร็จในการแก้ไขภาพ แต่ก็มีงานน้อยมากสำหรับการตัดต่อวิดีโอ เรานำเสนอวิธีการแบบกระจายตัวแบบแรกที่สามารถทำการเคลื่อนไหวตามข้อความและการแก้ไขลักษณะที่ปรากฏของวิดีโอทั่วไป”

จากรายงานการวิจัยของ Google Dreamix ใช้โมเดลการแพร่กระจายวิดีโอเพื่อรวมข้อมูลเชิงพื้นที่เชิงพื้นที่ที่มีความละเอียดต่ำจากวิดีโอต้นฉบับเข้ากับข้อมูลความละเอียดสูงใหม่ที่สังเคราะห์ขึ้นเพื่อให้สอดคล้องกับข้อความแนะนำ”

Google กล่าวว่าใช้แนวทางนี้เพราะ “การได้รับวิดีโอต้นฉบับที่มีความเที่ยงตรงสูงนั้นจำเป็นต้องรักษาข้อมูลที่มีความละเอียดสูงไว้บางส่วน เราจึงเพิ่มขั้นตอนเบื้องต้นในการปรับแต่งโมเดลในวิดีโอต้นฉบับอย่างละเอียด ซึ่งจะเพิ่มความเที่ยงตรงได้อย่างมาก”

ด้านล่างนี้เป็นภาพรวมวิดีโอเกี่ยวกับวิธีการทำงานของ Dreamix

[เนื้อหาฝัง]

โมเดลการแพร่กระจายวิดีโอของ Dreamix ทำงานอย่างไร

จากข้อมูลของ Google การปรับรูปแบบการกระจายวิดีโออย่างละเอียดสำหรับ Dreamix บนวิดีโออินพุตเพียงอย่างเดียวจะจำกัดขอบเขตของการเปลี่ยนแปลงการเคลื่อนไหว เราใช้วัตถุประสงค์แบบผสมที่นอกเหนือจากวัตถุประสงค์ดั้งเดิม (ซ้ายล่าง) แล้ว ยังปรับแต่งชุดของเฟรมที่ไม่ได้เรียงลำดับอีกด้วย สิ่งนี้ทำได้โดยใช้ "การใส่ใจชั่วขณะโดยสวมหน้ากาก" ป้องกันไม่ให้ปรับความสนใจชั่วขณะและการโน้มน้าวใจ (ด้านล่างขวา) สิ่งนี้ทำให้สามารถเพิ่มการเคลื่อนไหวให้กับวิดีโอแบบคงที่ได้

“วิธีการของเรารองรับแอพพลิเคชั่นหลายตัวโดยการประมวลผลล่วงหน้าที่ขึ้นกับแอพพลิเคชั่น (ซ้าย) แปลงเนื้อหาอินพุตเป็นรูปแบบวิดีโอที่เหมือนกัน สำหรับภาพต่อวิดีโอ ภาพอินพุตจะถูกทำซ้ำและแปลงโดยใช้การแปลงเปอร์สเปคทีฟ สังเคราะห์วิดีโอหยาบด้วยการเคลื่อนไหวของกล้อง สำหรับการสร้างวิดีโอตามหัวข้อ จะละเว้นอินพุต – การปรับแต่งเพียงอย่างเดียวจะดูแลความเที่ยงตรง วิดีโอหยาบนี้ได้รับการแก้ไขโดยใช้ "Dreamix Video Editor" ทั่วไปของเรา (ขวา): อันดับแรก เราทำให้วิดีโอเสียหายโดยสุ่มตัวอย่างตามด้วยการเพิ่มสัญญาณรบกวน จากนั้นเราจะใช้โมเดลการแพร่กระจายวิดีโอแบบข้อความนำทางที่ปรับแต่งแล้ว ซึ่งจะยกระดับวิดีโอให้มีความละเอียดเชิงพื้นที่ชั่วคราวขั้นสุดท้าย” Dream เขียนไว้ GitHub.

คุณสามารถอ่านเอกสารการวิจัยด้านล่าง

Google ดรีมมิกซ์

ประทับเวลา:

เพิ่มเติมจาก เทคสตาร์ทอัพ

Coinbase ขาดทุน 557 ล้านดอลลาร์; รายรับร่วงลง 75% ในไตรมาสที่สี่เนื่องจากนักลงทุน crypto ย้ายสินทรัพย์ดิจิทัลออกจากการแลกเปลี่ยน

โหนดต้นทาง: 1970839
ประทับเวลา: กุมภาพันธ์ 21, 2023

Marama Labs สตาร์ทอัพจากนิวซีแลนด์ระดมทุน 1.75 ล้านยูโรสำหรับการขยายขนาดเทคโนโลยีไวน์หมอกและการเข้าสู่สาขาวิทยาศาสตร์เพื่อชีวิต – TechStartups

โหนดต้นทาง: 3079787
ประทับเวลา: ม.ค. 22, 2024