Bing Image Creator からの画像
Meta AI がオープンソースをリリースしたばかり DINOv2 モデル 自己教師あり学習を使用してコンピューター ビジョン モデルをトレーニングする最初の方法。 DINOv2 モデルは、現場の標準的なアプローチやモデルと同等、またはそれ以上の結果を達成します。
このモデルは、微調整を必要とせずに強力なパフォーマンスを達成したため、さまざまなコンピューター ビジョン タスクやアプリケーションに最適です。 DINOv2 は、自己教師ありトレーニング方法のおかげで、明示的なトレーニングを必要とせずに、画像のさまざまなコレクションや深度推定などの特徴から学習できます。
図 1: DINOv2: メタ AI による自己教師ありコンピューター ビジョン モデル
1.1. 微調整は必要ありません
自己教師あり学習は、大量のラベル付きデータを必要とせずに機械学習モデルをトレーニングするために使用される強力な方法です。 DINOv2 モデルは、関連するメタデータ、特定のハッシュタグ、または画像キャプションを必要とせずに、画像コーパスでトレーニングできます。 DinoV2 モデルは、最近のいくつかの自己教師あり学習アプローチとは異なり、微調整を必要としないため、さまざまなコンピューター ビジョン アプリケーション向けに高性能な機能を生成します。
1.2. 人間による注釈の制限を克服する
過去数年にわたり、 画像テキストの事前トレーニング は、さまざまなコンピュータ ビジョン アプリケーションで主流の方法となっています。 ただし、画像の意味を学習するために人間がラベルを付けたキャプションに依存しているためです。 このアプローチでは、キャプションに明示的に含まれていない重要な情報が見落とされることがよくあります。 たとえば、黄色い部屋にある赤いテーブルの写真に対する人間によるラベルのキャプションは、「赤い木のテーブル」となる可能性があります。 このキャプションでは、背景、位置、テーブルのサイズに関するいくつかの重要な情報が欠落しています。 これにより、ローカル情報の理解が不足し、詳細なローカリゼーション情報を必要とするタスクのパフォーマンスが低下します。
また、人間によるラベルや注釈の必要性により、モデルをトレーニングするために収集できるデータの量が制限されます。 これは、特定のアプリケーションでは非常に困難になります。たとえば、セルに注釈を付けるには、必要な規模では利用できない一定レベルの人間の専門知識が必要です。 細胞画像に対して自己教師ありトレーニング アプローチを使用すると、より基礎的なモデルへの道が開かれ、その結果、パフォーマンスが向上します。 生物学的発見。 の推定と同様の先端分野にも同様のことが当てはまります。 動物密度.
DINO から DINOv2 に移行するには、次のようないくつかの課題を克服する必要がありました。
- 大規模で厳選されたトレーニング データセットの作成
- トレーニングアルゴリズムと実装の改善
- 機能的な蒸留パイプラインの設計。
図 2: DINO v1 と v2 のセグメンテーション精度の比較
2.1. 大規模で厳選された多様な画像データセットの作成
DINOv2 を構築する主な手順の XNUMX つは、大規模なアーキテクチャとモデルをトレーニングしてモデルのパフォーマンスを向上させることです。ただし、より大きなモデルを効率的にトレーニングするには大規模なデータセットが必要です。要件を満たす大規模なデータセットが利用できなかったため、研究者は公開されているクロールされた Web データを活用し、次のように有用なデータのみを選択するパイプラインを構築しました。 LASER.
ただし、これらのデータセットを使用できるようにするには、次の XNUMX つの主なタスクを実行する必要があります。
- さまざまな概念やタスク間でデータのバランスをとる
- 無関係な画像を削除する
このタスクは手動で実行できるため、約 25 のサードパーティ データセットから一連のシード イメージを厳選し、それらのシード イメージに密接に関連するイメージを取得することで拡張しました。 このアプローチにより、142 億枚の画像から合計 1.2 億 XNUMX 万枚の関連データセットを作成することができました。
2.2. アルゴリズムと技術の改善
より大きなモデルとデータセットを使用すると、より良い結果が得られますが、大きな課題が伴います。 主な課題のうち 2 つは、潜在的な不安定性と、トレーニング中の扱いやすさの維持です。 トレーニングをより安定させるために、DINOvXNUMX には、以下からインスピレーションを得た追加の正則化メソッドが含まれています。 類似性検索 および 分類 文献。
DINOv2 のトレーニング プロセスには、最先端のシステムによって提供される最新の混合精度と分散トレーニングの実装が統合されています。 パイトーチ2。 これにより、コードの実装が高速化され、DINO モデルのトレーニングに同じハードウェアを使用することで速度が XNUMX 倍になり、メモリ使用量が XNUMX 分の XNUMX になったので、データとモデルのサイズを拡張できました。
2.3. モデル蒸留を使用した推論時間の短縮
推論で大規模なモデルを実行するには強力なハードウェアが必要であり、さまざまなユースケースでのメソッドの実際の使用が制限されます。 この問題を克服するために、研究者はモデルの蒸留を使用して、大きなモデルの知識を小さなモデルに圧縮しました。 このアプローチを利用することで、研究者は、パフォーマンス コストを無視して、高性能アーキテクチャをより小さなアーキテクチャに凝縮することができました。 これにより、強力な ViT-Small、ViT-Base、および ViT-Large モデルが生まれました。
トレーニングおよび評価コードには PyTorch 2.0 が必要です。 xフォーマーズ 0.0.18 および他の多くのサードパーティ パッケージと同様に、コードは Linux 環境を想定しています。 次の手順は、トレーニングと評価の目的で必要なすべての依存関係を構成する方法の概要を示しています。
- 手順に従って PyTorch をインストールします こちら。 CUDA サポートを備えた PyTorch をインストールすることをお勧めします。
- ダウンロード コンダ
- 次のコマンドを使用して、DINOv2 リポジトリのクローンを作成します。
著者によるコード
- 提供された環境定義を使用して、「dinov2」という名前の Conda 環境の作成とアクティブ化に進みます。
著者によるコード
- このプロジェクトに必要な依存関係をインストールするには、提供されているrequirements.txtファイルを利用します。
著者によるコード
- 最後に、以下のコードを使用してモデルをロードできます。
著者によるコード
結論として、Meta AI による DINOv2 モデルのリリースは重要なマイルストーンです。 DINOv2 モデルで使用される自己教師あり学習アプローチは、大量のラベル付きデータを必要とせずに機械学習モデルをトレーニングする強力な方法を提供します。 微調整を必要とせずに高い精度を達成できるため、これらのモデルはさまざまなコンピュータ ビジョン タスクやアプリケーションに適しています。 さらに、DINOv2 は、さまざまな画像コレクションから学習でき、明示的なトレーニングなしで深度推定などの機能から学習できます。 DINOv2 をオープンソース モデルとして利用できることにより、研究者や開発者がコンピュータ ビジョンのタスクやアプリケーションの新たな可能性を探求するための扉が開かれます。
参考文献
ユセフ・ラファート コンピューター ビジョンの研究者であり、データ サイエンティストでもあります。 彼の研究は、ヘルスケア アプリケーション向けのリアルタイム コンピュータ ビジョン アルゴリズムの開発に重点を置いています。 また、マーケティング、財務、ヘルスケアの分野で 3 年以上データ サイエンティストとして働いていました。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- PREIPO® を使用して PRE-IPO 企業の株式を売買します。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/2023/05/dinov2-selfsupervised-computer-vision-models-meta-ai.html?utm_source=rss&utm_medium=rss&utm_campaign=dinov2-self-supervised-computer-vision-models-by-meta-ai
- :持っている
- :は
- :not
- 1
- 1.2億
- 3
- a
- 能力
- できる
- 私たちについて
- 熟達した
- 達成する
- 達成
- 越えて
- NEW
- 高度な
- AI
- アルゴリズム
- アルゴリズムの
- アルゴリズム
- すべて
- また
- 量
- 金額
- an
- および
- 動物
- アプローチ
- アプローチ
- 約
- です
- AS
- At
- 賃貸条件の詳細・契約費用のお見積り等について
- 利用できます
- 背景
- BE
- になる
- になる
- 以下
- より良いです
- 10億
- ビング
- 建物
- 内蔵
- by
- 缶
- キャプションが
- 例
- 原因となる
- 一定
- 課題
- 選択
- 密接に
- コード
- 収集する
- コレクション
- comes
- 比較
- コンピュータ
- Computer Vision
- コンピュータ ビジョン アプリケーション
- コンセプト
- 結論
- コスト
- 作ります
- 作成
- 重大な
- キュレーション
- データ
- データサイエンティスト
- データセット
- 需要
- 依存性
- 深さ
- 詳細な
- 開発者
- 開発
- 異なります
- 配布
- 分散トレーニング
- 異なる
- do
- ドメイン
- 行われ
- ドア
- 原因
- 間に
- 効率良く
- 高めます
- 環境
- エーテル(ETH)
- 評価
- さらに
- 例
- 拡大
- 期待する
- 専門知識
- 探る
- 速いです
- 特徴
- 少数の
- フィールド
- フィールズ
- File
- ファイナンス
- 名
- 焦点を当てて
- フォロー中
- から
- 機能的な
- GIF
- Hardware
- ハッシュ
- he
- ヘルスケア
- ハイ
- ハイパフォーマンス
- 彼の
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 人間
- 画像
- 画像
- 実装
- 重要
- in
- 含まれました
- 含ま
- 情報
- インスピレーションある
- 不安定
- install
- 説明書
- 統合する
- に
- IT
- ITS
- ただ
- KDナゲット
- 知識
- ラベル
- ラベル
- 欠如
- 大
- より大きい
- 最新の
- つながる
- LEARN
- 学習
- レベル
- LIMIT
- linuxの
- レポート
- 負荷
- ローカル
- ローカライゼーション
- 機械
- 機械学習
- メイン
- 主要な
- make
- 作る
- 手動で
- 多くの
- マーケティング
- 一致
- 意味
- 大会
- メモリ
- Meta
- 方法
- メソッド
- かもしれない
- マイルストーン
- 百万
- モデル
- 他には?
- さらに
- ずっと
- 名前付き
- 必要
- 必要
- 新作
- いいえ
- of
- 頻繁に
- on
- もの
- の
- オープンソース
- 開きます
- or
- その他
- でる
- アウトライン
- 克服する
- パッケージ
- パーティー
- 過去
- 完璧
- パフォーマンス
- PHP
- 画像
- パイプライン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 貧しいです
- 位置
- の可能性
- 潜在的な
- 強力な
- 実用的
- 問題
- プロセス
- 作り出す
- プロジェクト
- 提供
- は、大阪で
- 公然と
- 目的
- パイトーチ
- への
- 最近
- レッド
- 関連する
- リリース
- リリース
- 残り
- 倉庫
- 必要とする
- の提出が必要です
- 要件
- 必要
- 研究
- 研究者
- 研究者
- 結果
- 結果
- ルーム
- s
- 同じ
- 規模
- スケーリング
- 科学者
- シード
- セグメンテーション
- セッションに
- いくつかの
- すべき
- 重要
- 同様の
- から
- サイズ
- より小さい
- 一部
- 特定の
- スピード
- 安定した
- 標準
- ステップ
- 強い
- そのような
- 適当
- サポート
- テーブル
- 仕事
- タスク
- 技術的
- より
- 感謝
- それ
- それら
- そこ。
- ボーマン
- 彼ら
- 三番
- サードパーティ
- この
- それらの
- 時間
- 〜へ
- トータル
- トレーニング
- 訓練された
- トレーニング
- 2
- 理解する
- 異なり、
- 使用法
- つかいます
- 中古
- 活用する
- 活用
- v1
- さまざまな
- ビジョン
- vs
- 仕方..
- we
- ウェブ
- WELL
- した
- which
- 意志
- 無し
- 木材
- 働いていました
- 年
- 貴社
- ゼファーネット