Google、ビデオの作成と編集、画像のアニメーション用の AI 搭載ビデオエディター Dreamix を発表

プラトン再発行

フォロワー： 0

OpenAI ChatGPT が 24 時間のニュースサイクルからすべての酸素を吸い上げている一方で、Google は、ビデオ、画像、およびテキスト入力が与えられたときにビデオを生成できる新しい AI モデルを静かに発表しました。新しい Google Dreamix AI ビデオエディターは、生成されたビデオを現実に近づけるようになりました。

GitHub で公開された調査によると、Dreamix はビデオとテキストプロンプトに基づいてビデオを編集します。結果として得られるビデオは、色、姿勢、オブジェクトサイズ、およびカメラポーズに対する忠実度を維持し、時間的に一貫したビデオになります。現時点では、Dreamix はプロンプトだけからビデオを生成することはできませんが、既存の素材を使用して、テキストプロンプトを使用してビデオを変更することはできます。

Google は Dreamix にビデオ拡散モデルを使用しています。このアプローチは、DALL-E2 やオープンソースの Stable Diffusion などの画像 AI で見られるほとんどのビデオ画像編集に適用され、成功しています。

このアプローチでは、入力ビデオを大幅に削減し、人工的なノイズを追加してから、ビデオ拡散モデルで処理します。次に、テキストプロンプトを使用して、元のビデオの一部のプロパティを保持し、他のものを再レンダリングする新しいビデオを生成します。テキスト入力に。

ビデオ拡散モデルは、ビデオを扱う新しい時代の到来を告げる有望な未来を提供します。

たとえば、下のビデオでは、Dreamix は、「クマが踊ったり、アップビートな音楽に合わせてジャンプしたり、体全体を動かしたりしています」というプロンプトが表示されると、食べているサル (左) を踊るクマ (右) に変えます。

以下の別の例では、Dreamix は XNUMX つの写真をテンプレートとして使用し (イメージからビデオへのように)、オブジェクトはプロンプトを介してビデオ内でアニメーション化されます。カメラの動きは、新しいシーンまたはその後のタイムラプス録画でも可能です。

別の例では、Dreamix は、水たまりにいるオランウータン (左) を、美しいバスルームで水浴びをしているオレンジ色の髪のオランウータンに変えます。

「拡散モデルは画像編集にうまく適用されていますが、ビデオ編集に適用された作品はほとんどありません。一般的なビデオのテキストベースのモーションおよび外観編集を実行できる最初の拡散ベースの方法を提示します。」

Google の研究論文によると、Dreamix はビデオ拡散モデルを使用して、推論時に、元のビデオからの低解像度の時空間情報を、ガイドテキストプロンプトに合わせて合成した新しい高解像度の情報と組み合わせます。」

Google によると、このアプローチを採用した理由は、「元の動画を忠実に再現するには、高解像度の情報の一部を保持する必要があるためです。元の動画のモデルを微調整する予備段階を追加することで、忠実度を大幅に高めることができます」と述べています。

以下は、Dreamix がどのように機能するかのビデオ概要です。

[埋め込まれたコンテンツ]

Dreamix ビデオ拡散モデルの仕組み

Google によると、入力ビデオだけで Dreamix のビデオ拡散モデルを微調整すると、モーションの変化の範囲が制限されます。代わりに、元の目的 (左下) に加えて、フレームの順序付けられていないセットを微調整する混合目的を使用します。これは、「マスクされた時間的注意」を使用して行われ、時間的注意と畳み込みが微調整されるのを防ぎます (右下)。これにより、静止ビデオにモーションを追加できます。

「私たちの方法は、アプリケーションに依存する前処理 (左) によって複数のアプリケーションをサポートし、入力コンテンツを統一されたビデオ形式に変換します。画像からビデオへの変換では、入力画像が複製され、透視変換を使用して変換され、粗いビデオとカメラの動きが合成されます。被写体主導のビデオ生成の場合、入力は省略されます。微調整のみが忠実度を処理します。この粗いビデオは、一般的な「Dreamix ビデオエディタ」(右) を使用して編集されます。最初にダウンサンプリングしてビデオを破損し、続いてノイズを追加します。次に、微調整されたテキストガイド付きビデオ拡散モデルを適用し、ビデオを最終的な時空間解像度にアップスケールします」と Dream は書いています。 GitHubの.

以下の研究論文を読むことができます。

Google ドリームミックス

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://techstartups.com/2023/02/10/google-launches-ai-powered-video-editor-dreamix-to-create-edit-videos-and-animate-images/

タイムスタンプ： 2023 年 2 月 10 日

タイムスタンプ： 2023 年 6 月 1 日

Google が、動画の作成と編集、および画像のアニメーション化のための AI 搭載の動画エディター Dreamix を発表

プラトン再発行

Dreamix ビデオ拡散モデルの仕組み

より多くのテックスタートアップ

Coinbase は 557 億 75 万ドルの損失を計上しました。暗号通貨投資家がデジタル資産を取引所から移動させるため、第 XNUMX 四半期の収益は XNUMX% 減少

NodeRun が新しいコミュニティプロジェクトを立ち上げるために Quick Grants を開始

ニュージーランドを拠点とするスタートアップ Marama Labs がヘイジーワイン技術のスケールアップとライフサイエンスへの参入で 1.75 万ユーロを調達 – TechStartups

Stargate が Kava チェーンに導入、Cosmos-Ethereum の流動性を統合

Googleがドメインレジストラ事業を停止。発売から約180年後にSquarespaceにXNUMX億XNUMX万ドルで売却

Googleがインドの衛星画像スタートアップPixxelに36万ドルの投資を主導

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

Dreamix ビデオ拡散モデルの仕組み

より多くの テックスタートアップ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くのテックスタートアップ