Google ra mắt trình chỉnh sửa video hỗ trợ AI Dreamix để tạo và chỉnh sửa video cũng như tạo hiệu ứng hình ảnh

Google ra mắt trình chỉnh sửa video hỗ trợ AI Dreamix để tạo và chỉnh sửa video cũng như tạo hiệu ứng hình ảnh

Nút nguồn: 1953261

Trong khi OpenAI ChatGPT đang hút hết oxy trong chu kỳ tin tức 24 giờ, Google đã lặng lẽ tiết lộ một mô hình AI mới có thể tạo video khi được nhập video, hình ảnh và văn bản. Trình chỉnh sửa video Google Dreamix AI mới hiện mang video được tạo ra gần với thực tế hơn.

Theo nghiên cứu được công bố trên GitHub, Dreamix chỉnh sửa video dựa trên video và lời nhắc văn bản. Video thu được duy trì độ trung thực về màu sắc, tư thế, kích thước đối tượng và tư thế máy ảnh, dẫn đến video nhất quán về mặt thời gian. Hiện tại, Dreamix không thể tạo video chỉ từ lời nhắc, tuy nhiên, nó có thể lấy tài liệu hiện có và sửa đổi video bằng lời nhắc văn bản.

Google sử dụng các mô hình khuếch tán video cho Dreamix, một phương pháp đã được áp dụng thành công cho hầu hết chỉnh sửa hình ảnh video mà chúng ta thấy trong các AI hình ảnh như DALL-E2 hoặc khuếch tán ổn định nguồn mở.

Phương pháp này liên quan đến việc giảm đáng kể video đầu vào, thêm tiếng ồn nhân tạo, sau đó xử lý video đó trong mô hình khuếch tán video, sau đó sử dụng lời nhắc văn bản để tạo video mới từ đó giữ lại một số thuộc tính của video gốc và hiển thị lại các video khác theo đến đầu vào văn bản.

Mô hình phổ biến video mang đến một tương lai đầy hứa hẹn có thể mở ra một kỷ nguyên mới để làm việc với video.

Ví dụ, trong video dưới đây, Dreamix biến con khỉ đang ăn (trái) thành một con gấu đang nhảy múa (phải) với lời nhắc “Một con gấu nhảy múa và nhảy theo điệu nhạc sôi động, di chuyển toàn bộ cơ thể của nó.”

Trong một ví dụ khác bên dưới, Dreamix sử dụng một ảnh duy nhất làm mẫu (như trong chuyển ảnh sang video) và sau đó, một đối tượng sẽ được tạo hoạt ảnh từ ảnh đó trong video thông qua lời nhắc. Các chuyển động của máy ảnh cũng có thể xảy ra trong cảnh mới hoặc bản ghi tua nhanh thời gian tiếp theo.

Trong một ví dụ khác, Dreamix biến con đười ươi trong một vũng nước (trái) thành một con đười ươi có bộ lông màu cam đang tắm trong một phòng tắm tuyệt đẹp.

“Mặc dù các mô hình khuếch tán đã được áp dụng thành công để chỉnh sửa hình ảnh, nhưng rất ít tác phẩm đã làm như vậy để chỉnh sửa video. Chúng tôi trình bày phương pháp dựa trên khuếch tán đầu tiên có thể thực hiện chỉnh sửa chuyển động và giao diện dựa trên văn bản của các video nói chung.”

Theo tài liệu nghiên cứu của Google, Dreamix sử dụng mô hình khuếch tán video để kết hợp, tại thời điểm suy luận, thông tin không thời gian có độ phân giải thấp từ video gốc với thông tin mới, độ phân giải cao mà nó tổng hợp để phù hợp với lời nhắc văn bản hướng dẫn.”

Google cho biết họ thực hiện phương pháp này vì “để đạt được độ trung thực cao cho video gốc yêu cầu giữ lại một số thông tin có độ phân giải cao, chúng tôi thêm một giai đoạn sơ bộ để tinh chỉnh mô hình trên video gốc, giúp tăng đáng kể độ trung thực”.

Dưới đây là video tổng quan về cách thức hoạt động của Dreamix.

[Nhúng nội dung]

Mô hình khuếch tán video Dreamix hoạt động như thế nào

Theo Google, việc tinh chỉnh mô hình khuếch tán video cho Dreamix chỉ trên video đầu vào sẽ hạn chế mức độ thay đổi chuyển động. Thay vào đó, chúng tôi sử dụng một vật kính hỗn hợp mà bên cạnh vật kính ban đầu (phía dưới bên trái) cũng tinh chỉnh trên tập hợp các khung hình không có thứ tự. Điều này được thực hiện bằng cách sử dụng "sự chú ý theo thời gian được che đậy", ngăn không cho sự chú ý theo thời gian và tích chập được tinh chỉnh (dưới cùng bên phải). Điều này cho phép thêm chuyển động vào video tĩnh.

“Phương pháp của chúng tôi hỗ trợ nhiều ứng dụng bằng cách xử lý trước phụ thuộc vào ứng dụng (trái), chuyển đổi nội dung đầu vào thành định dạng video thống nhất. Đối với hình ảnh sang video, hình ảnh đầu vào được sao chép và biến đổi bằng cách sử dụng các phép biến đổi phối cảnh, tổng hợp một video thô với một số chuyển động của camera. Đối với việc tạo video theo chủ đề, đầu vào bị bỏ qua – chỉ riêng việc tinh chỉnh sẽ đảm bảo độ trung thực. Sau đó, video thô này được chỉnh sửa bằng “Trình chỉnh sửa video Dreamix” chung của chúng tôi (phải): trước tiên chúng tôi làm hỏng video bằng cách lấy mẫu xuống, sau đó thêm nhiễu. Sau đó, chúng tôi áp dụng mô hình khuếch tán video hướng dẫn bằng văn bản được tinh chỉnh, giúp nâng cấp video lên độ phân giải không gian thời gian cuối cùng,” Dream viết trên GitHub.

Bạn có thể đọc bài báo nghiên cứu dưới đây.

Google Dreamix

Dấu thời gian:

Thêm từ khởi nghiệp công nghệ