DINOv2: Meta AI による自己教師型コンピュータービジョンモデル - KDnuggets

プラトン再発行

フォロワー： 0

DINOv2: メタ AI による自己教師型コンピュータービジョンモデル
Bing Image Creator からの画像

Meta AI がオープンソースをリリースしたばかり DINOv2 モデル 自己教師あり学習を使用してコンピュータービジョンモデルをトレーニングする最初の方法。 DINOv2 モデルは、現場の標準的なアプローチやモデルと同等、またはそれ以上の結果を達成します。

このモデルは、微調整を必要とせずに強力なパフォーマンスを達成したため、さまざまなコンピュータービジョンタスクやアプリケーションに最適です。 DINOv2 は、自己教師ありトレーニング方法のおかげで、明示的なトレーニングを必要とせずに、画像のさまざまなコレクションや深度推定などの特徴から学習できます。

DINOv2: メタ AI による自己教師型コンピュータービジョンモデル
図 1: DINOv2: メタ AI による自己教師ありコンピュータービジョンモデル

1.1. 微調整は必要ありません

自己教師あり学習は、大量のラベル付きデータを必要とせずに機械学習モデルをトレーニングするために使用される強力な方法です。 DINOv2 モデルは、関連するメタデータ、特定のハッシュタグ、または画像キャプションを必要とせずに、画像コーパスでトレーニングできます。 DinoV2 モデルは、最近のいくつかの自己教師あり学習アプローチとは異なり、微調整を必要としないため、さまざまなコンピュータービジョンアプリケーション向けに高性能な機能を生成します。

1.2. 人間による注釈の制限を克服する

過去数年にわたり、画像テキストの事前トレーニングは、さまざまなコンピュータビジョンアプリケーションで主流の方法となっています。ただし、画像の意味を学習するために人間がラベルを付けたキャプションに依存しているためです。このアプローチでは、キャプションに明示的に含まれていない重要な情報が見落とされることがよくあります。たとえば、黄色い部屋にある赤いテーブルの写真に対する人間によるラベルのキャプションは、「赤い木のテーブル」となる可能性があります。このキャプションでは、背景、位置、テーブルのサイズに関するいくつかの重要な情報が欠落しています。これにより、ローカル情報の理解が不足し、詳細なローカリゼーション情報を必要とするタスクのパフォーマンスが低下します。

また、人間によるラベルや注釈の必要性により、モデルをトレーニングするために収集できるデータの量が制限されます。これは、特定のアプリケーションでは非常に困難になります。たとえば、セルに注釈を付けるには、必要な規模では利用できない一定レベルの人間の専門知識が必要です。細胞画像に対して自己教師ありトレーニングアプローチを使用すると、より基礎的なモデルへの道が開かれ、その結果、パフォーマンスが向上します。生物学的発見。の推定と同様の先端分野にも同様のことが当てはまります。動物密度.

DINO から DINOv2 に移行するには、次のようないくつかの課題を克服する必要がありました。

大規模で厳選されたトレーニングデータセットの作成
トレーニングアルゴリズムと実装の改善
機能的な蒸留パイプラインの設計。

DINOv2: メタ AI による自己教師型コンピュータービジョンモデル
図 2: DINO v1 と v2 のセグメンテーション精度の比較

2.1. 大規模で厳選された多様な画像データセットの作成

DINOv2 を構築する主な手順の XNUMX つは、大規模なアーキテクチャとモデルをトレーニングしてモデルのパフォーマンスを向上させることです。ただし、より大きなモデルを効率的にトレーニングするには大規模なデータセットが必要です。要件を満たす大規模なデータセットが利用できなかったため、研究者は公開されているクロールされた Web データを活用し、次のように有用なデータのみを選択するパイプラインを構築しました。 LASER.

ただし、これらのデータセットを使用できるようにするには、次の XNUMX つの主なタスクを実行する必要があります。

さまざまな概念やタスク間でデータのバランスをとる
無関係な画像を削除する

このタスクは手動で実行できるため、約 25 のサードパーティデータセットから一連のシードイメージを厳選し、それらのシードイメージに密接に関連するイメージを取得することで拡張しました。このアプローチにより、142 億枚の画像から合計 1.2 億 XNUMX 万枚の関連データセットを作成することができました。

2.2. アルゴリズムと技術の改善

より大きなモデルとデータセットを使用すると、より良い結果が得られますが、大きな課題が伴います。主な課題のうち 2 つは、潜在的な不安定性と、トレーニング中の扱いやすさの維持です。トレーニングをより安定させるために、DINOvXNUMX には、以下からインスピレーションを得た追加の正則化メソッドが含まれています。類似性検索および分類文献。

DINOv2 のトレーニングプロセスには、最先端のシステムによって提供される最新の混合精度と分散トレーニングの実装が統合されています。パイトーチ2。これにより、コードの実装が高速化され、DINO モデルのトレーニングに同じハードウェアを使用することで速度が XNUMX 倍になり、メモリ使用量が XNUMX 分の XNUMX になったので、データとモデルのサイズを拡張できました。

2.3. モデル蒸留を使用した推論時間の短縮

推論で大規模なモデルを実行するには強力なハードウェアが必要であり、さまざまなユースケースでのメソッドの実際の使用が制限されます。この問題を克服するために、研究者はモデルの蒸留を使用して、大きなモデルの知識を小さなモデルに圧縮しました。このアプローチを利用することで、研究者は、パフォーマンスコストを無視して、高性能アーキテクチャをより小さなアーキテクチャに凝縮することができました。これにより、強力な ViT-Small、ViT-Base、および ViT-Large モデルが生まれました。

トレーニングおよび評価コードには PyTorch 2.0 が必要です。 xフォーマーズ 0.0.18 および他の多くのサードパーティパッケージと同様に、コードは Linux 環境を想定しています。次の手順は、トレーニングと評価の目的で必要なすべての依存関係を構成する方法の概要を示しています。

手順に従って PyTorch をインストールしますこちら。 CUDA サポートを備えた PyTorch をインストールすることをお勧めします。
ダウンロードコンダ
次のコマンドを使用して、DINOv2 リポジトリのクローンを作成します。

著者によるコード

提供された環境定義を使用して、「dinov2」という名前の Conda 環境の作成とアクティブ化に進みます。

著者によるコード

このプロジェクトに必要な依存関係をインストールするには、提供されているrequirements.txtファイルを利用します。

著者によるコード

最後に、以下のコードを使用してモデルをロードできます。

著者によるコード

結論として、Meta AI による DINOv2 モデルのリリースは重要なマイルストーンです。 DINOv2 モデルで使用される自己教師あり学習アプローチは、大量のラベル付きデータを必要とせずに機械学習モデルをトレーニングする強力な方法を提供します。微調整を必要とせずに高い精度を達成できるため、これらのモデルはさまざまなコンピュータビジョンタスクやアプリケーションに適しています。さらに、DINOv2 は、さまざまな画像コレクションから学習でき、明示的なトレーニングなしで深度推定などの機能から学習できます。 DINOv2 をオープンソースモデルとして利用できることにより、研究者や開発者がコンピュータビジョンのタスクやアプリケーションの新たな可能性を探求するための扉が開かれます。

参考文献

ユセフ・ラファート コンピュータービジョンの研究者であり、データサイエンティストでもあります。彼の研究は、ヘルスケアアプリケーション向けのリアルタイムコンピュータビジョンアルゴリズムの開発に重点を置いています。また、マーケティング、財務、ヘルスケアの分野で 3 年以上データサイエンティストとして働いていました。