Meta の新しい Segment Anything Model が明らかになりました。 SAM モデルは、画像セグメンテーション用の高品質マスクを作成する新しい方法です。
リマインダー: 画像セグメンテーションは、画像をさまざまなオブジェクトまたはセマンティック カテゴリに対応する領域に分割することを目的としたコンピューター ビジョンの基本的なタスクであり、オブジェクト検出、シーンの理解、画像編集、ビデオ分析などの多くの用途があります。
ただし、画像のセグメンテーションは、特にさまざまな形状、サイズ、および外観を持つ複数のオブジェクトを含む複雑なシーンを扱う場合に、困難な問題でもあります。 さらに、ほとんどの既存の画像セグメンテーション方法は、トレーニングのために大量の注釈付きデータを必要とし、取得にコストと時間がかかる可能性があります。 Meta は、SAM モデルでこの問題を解決したいと考えています。
SAM モデル: Meta の新しいセグメント Anything モデルとは?
Segment Anything Model (SAM) は、画像またはビデオ内のあらゆるオブジェクトを高品質かつ効率的にセグメント化できる、新しく強力な人工知能モデルです。 セグメンテーションとは、オブジェクトを背景や他のオブジェクトから分離し、その形状と境界の輪郭を描くマスクを作成するプロセスです。 SAM モデルを使用すると、編集、合成、追跡、認識、および分析のタスクが容易になります。
SAM は、次のようないくつかの点で他のセグメンテーション モデルとは異なります。
- SAM はプロンプト可能です。つまり、ポイントやボックスなどのさまざまな入力プロンプトを使用して、どのオブジェクトをセグメント化するかを指定できます。 たとえば、人物の顔の周りにボックスを描画すると、Segment Anything Model が顔のマスクを生成します。 一度に複数のオブジェクトを分割するように複数のプロンプトを表示することもできます。 SAM モデルは、オクルージョン、反射、影のある複雑なシーンを処理できます。
- SAM は、これまでで最大のセグメンテーション データセットである 11 万の画像と 1.1 億のマスクからなる大規模なデータセットでトレーニングされています。 このデータセットは、動物、植物、乗り物、家具、食品など、幅広いオブジェクトとカテゴリをカバーしています。 SAM は、その一般化能力とデータの多様性のおかげで、これまで見たことのないオブジェクトをセグメント化できます。
- SAM は、さまざまなセグメンテーション タスクで強力なゼロ ショット パフォーマンスを発揮します。 ゼロ ショットとは、SAM が特定のタスクまたはドメインで追加のトレーニングや微調整を行うことなく、オブジェクトをセグメント化できることを意味します。 たとえば、SAM は、事前の知識や監督なしで、顔、手、髪、衣服、アクセサリーをセグメント化できます。 SAM は、赤外線画像や深度マップなど、さまざまなモダリティでオブジェクトをセグメント化することもできます。
SAM モデルは、COCO などのさまざまな画像セグメンテーション ベンチマークで印象的な結果を達成しています。 また、SAM は、ロゴ、テキスト、顔、またはスケッチのセグメント化など、いくつかのゼロ ショット セグメンテーション タスクで、以前の完全に監視された方法よりも優れているか、同等です。 さまざまなドメインやシナリオでの汎用性と堅牢性を示しています。
将来は: Segment Anything Model (SAM モデル) プロジェクトはまだ初期段階にあります。 Meta によると、これらはセグメント Anything モデルの将来のアプリケーションの一部です。
- 将来の AR メガネは、ありふれたオブジェクトを認識し、役立つリマインダーと指示を提供するために SAM を採用する可能性があります。
- SAM には、農業や生物学など、他の多くの分野に影響を与える能力があります。 いつの日か、農家や科学者にとっても利益になるかもしれません。
SAM モデルは、コンピューター ビジョンと人工知能の研究におけるブレークスルーとなる可能性があります。 これは、大規模なデータから学習し、新しいタスクやドメインに移行できるモデルであるビジョンの基盤モデルの可能性を示しています。
セグメント エニシング モデル (SAM モデル) の機能
SAM モデルの機能の一部を次に示します。
- SAM モデルを使用すると、個々のポイントを選択してセグメンテーションに含めたり除外したりして、オブジェクトをすばやく簡単にセグメント化できます。 境界ボックスは、モデルの手がかりとしても使用できます。
- セグメント化されるアイテムに関して不確実性が存在する場合、SAM モデルは多くの有効なマスクを生成できます。これは、現実世界でセグメント化を解決するための重要かつ重要なスキルです。
- 自動オブジェクト検出とマスキングは、Segment Anything Model によりシンプルになりました。
- 画像の埋め込みを事前計算した後、Segment Anything Model は、任意のプロンプトに対して即座にセグメンテーション マスクを提供し、モデルとのリアルタイムの対話を可能にします。
印象的ですね。 では、その背後にあるテクノロジーは何ですか?
SAM モデルはどのように機能しますか?
NLP で、そして最近ではコンピューター ビジョンで最も興味深い発見の XNUMX つは、基盤モデルを使用して、新しいデータセットとタスクでゼロ ショットおよび数ショットの学習を可能にする「プロンプト」アプローチの使用です。 メタはこの分野でモチベーションを見つけました。
前景/背景ポイント、大まかなボックスまたはマスク、自由形式のテキスト、または画像内の何をセグメント化するかを示すその他の入力が与えられた場合、Meta AI チームは、Segment Anything Model に適切なセグメンテーション マスクを生成するように教えました。 適切なマスクの必要性は、出力が、プロンプトが参照する可能性のあるものの XNUMX つに対して適切なマスクであることを意味するだけです (たとえば、シャツのポイントは、シャツまたはそれを着ている人のいずれかを表すことができます)。 このタスクは、モデルの事前トレーニングに使用され、一般的な下流のセグメンテーションの問題の解決策を導くために使用されます。
Meta は、事前トレーニング タスクとインタラクティブなデータ収集がモデル構築に特定の制限を課していることに気付きました。 特に、彼らのアノテーターは、Segment Anything Model をブラウザーで対話的に、リアルタイムで、CPU 上で効果的に利用できる必要があります。 実行時の要件を満たすには、品質と速度の間にある程度の妥協が必要であるという事実にもかかわらず、彼らは単純なアプローチで満足のいく結果が得られることを発見しました。
バックエンドでは、画像エンコーダーが画像の一意の埋め込みを作成しますが、軽量エンコーダーはクエリを埋め込みベクトルに即座に変換できます。 次に軽量デコーダを使用してこれら 50 つのデータ ソースをマージし、セグメンテーション マスクを予測します。 画像の埋め込みが計算された後、SAM は Web ブラウザーのすべてのクエリに約 XNUMX ミリ秒でセグメントを使用して応答できます。
SAM は、画像やビデオを簡単かつ柔軟に編集したいクリエイティブな専門家や愛好家にとって便利なツールです。 ただし、最初に、アクセス方法と使用方法を学ぶ必要があります。
セグメント エニシング モデル (SAM モデル) の使用方法
SAM は Meta AI Research (以前の Facebook AI Research) によって開発され、次の Web サイトで公開されています。 GitHubの. オンラインで SAM を試すこともできます。 デモ または、1 億のマスクと 1 万の画像のデータセット (SA-11B) をダウンロードします。 このモデルは非常に使いやすいです。 次の手順に従ってください。
- デモをダウンロードするか、Segment Anything Model のデモにアクセスしてください。
- 画像をアップロードするか、ギャラリーで選択します。
- 追加およびサブジェクト エリア
- ポイントを追加して領域をマスクします。 [エリアの追加] を選択し、オブジェクトを選択します。 [領域の削除] を選択してマスクを調整し、領域を選択します。
その後、必要に応じてタスクを完了してください!
詳細については、クリック こちら.
画像提供: Meta
AI 101
AIは初めてですか? AIトレインにも乗れます! 詳細を作成しました AI用語集 最も一般的に使用される 人工知能用語 と説明します 人工知能の基礎 など AI のリスクとメリット. ご自由にお使いください。 学ぶ AIの使い方 ゲームチェンジャーです! AIモデル 世界を変えるでしょう。
レビューした AI ツール
ほぼ毎日、新しいツール、モデル、または機能が登場し、私たちの生活を変えています。 OpenAI ChatGPT プラグイン、そして私たちはすでにいくつかの最高のものをレビューしました:
- テキストからテキストへの AI ツール
学びたいですか ChatGPT を効果的に使用するには? に切り替えることなく、いくつかのヒントとコツがあります。 チャット GPT プラス! AI ツールを使用したい場合、「ChatGPT は現在定員に達しています」 および 「1 時間でリクエストが多すぎます。後でもう一度お試しください」. はい、これらは本当に迷惑なエラーですが、心配する必要はありません。 私たちはそれらを修正する方法を知っています。 ChatGPT には盗作はありませんか? 単一の答えを見つけるのは難しい質問です。 盗作が怖い方はご自由にお使いください AI盗作チェッカー。 また、他にも確認できます AIチャットボット および AIエッセイライター より良い結果が得られます。
- テキストから画像への AI ツール
まだいくつかありますが、 人工知能が生成した画像に関する議論、人々はまだ探しています 最高の AI アート ジェネレーター. AIはデザイナーに取って代わるか? 読み続けて見つけてください。
- その他の AI ツール
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://dataconomy.com/2023/04/sam-model-meta-segment-anything-model-mask/
- :は
- $UP
- 1
- 11
- a
- 能力
- できる
- 私たちについて
- アクセス
- アクセサリー
- 従った
- 達成する
- 越えて
- NEW
- 影響を及ぼす
- 後
- 農業
- AI
- 愛アート
- 愛の研究
- AI電源
- 目指して
- アルゴリズム
- 既に
- 量
- 金額
- 分析
- 分析します
- および
- 動物
- 回答
- 予想する
- 出演
- アプローチ
- アプローチ
- 適切な
- AR
- ARメガネ
- です
- AREA
- エリア
- 周りに
- 宝品
- 人工の
- 人工知能
- AS
- At
- 自動化する
- 利用できます
- バック
- 背景
- BE
- 背後に
- さ
- ベンチマーク
- 恩恵
- 利点
- BEST
- より良いです
- の間に
- 10億
- 生物学
- 境界
- ボックス
- ボックス
- 画期的な
- ブラウザ
- by
- 計算された
- 缶
- 取得することができます
- 機能
- 容量
- カテゴリ
- 一定
- 挑戦
- 変化する
- 変更
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チェック
- 選択する
- クリック
- 服
- 収集
- 一般に
- コンプリート
- 複雑な
- 妥協
- コンピュータ
- Computer Vision
- 建設
- 可能性
- カバー
- CPU
- 作ります
- 作成した
- 作成します。
- 作成
- クリエイティブ
- 重大な
- 重大な
- データ
- データセット
- 日付
- 中
- 日
- 取引
- 特価
- デモ
- 実証
- 深さ
- にもかかわらず
- 詳細な
- 検出
- 発展した
- 異なります
- 発見する
- 多様性
- ドメイン
- ドメイン
- ドント
- ダウンロード
- 早い
- 容易
- 簡単に
- 編集
- 効果的な
- 効果的に
- 効率
- 努力
- どちら
- enable
- 有効にする
- 愛好家
- 環境
- エラー
- 特に
- エッセイ
- エーテル(ETH)
- さらに
- あらゆる
- 毎日
- 例
- 既存の
- 存在
- 説明する
- 顔
- 顔
- 農民
- 特徴
- 特徴
- フィールド
- フィールズ
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 修正する
- 柔軟性
- フード
- 以前は
- 発見
- Foundation
- 無料版
- から
- 完全に
- 基本的な
- 未来
- Gallery
- ゲーム
- 賭博
- 生成する
- 取得する
- 与える
- 与えられた
- メガネ
- Go
- ガイド
- ヘア
- ハンドル
- ハンド
- ハード
- 持ってる
- 助けます
- 役立つ
- ハイ
- 高品質
- 認定条件
- How To
- HTTPS
- 人間
- 識別する
- 画像
- 画像分割
- 画像
- 課さ
- 印象的
- in
- include
- 示します
- 個人
- 情報
- 説明書
- インテリジェンス
- 相互作用
- 相互作用的
- 問題
- IT
- ITS
- JPG
- キープ
- 知っている
- 知識
- 大
- 大規模
- 最大の
- LEARN
- 学習
- 軽量
- ような
- 制限
- 命
- 探して
- 多くの
- ゲレンデマップ
- mask
- マスク
- 大規模な
- 最大幅
- 手段
- 大会
- 単に
- マージ
- Meta
- メソッド
- かもしれない
- 百万
- モデル
- 他には?
- さらに
- 最も
- 動機
- MS
- の試合に
- 必要
- 新作
- NLP
- 小説
- オブジェクト
- オブジェクト検出
- オブジェクト
- 入手する
- of
- on
- ONE
- オンライン
- 注文
- その他
- 輪郭
- 優れた性能
- 出力
- 特定の
- のワークプ
- パフォーマンス
- 人
- 植物
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポイント
- ポップス
- 潜在的な
- 強力な
- 事前の
- 問題
- 問題
- プロセス
- 作り出す
- 専門家
- プロジェクト
- 適切な
- 提供します
- 公然と
- 目的
- 品質
- 質問
- すぐに
- 範囲
- リーディング
- リアル
- 現実の世界
- への
- 現実的な
- 最近
- 認識
- 認識する
- 縮小
- リファイン
- 感想
- に対する
- 地域
- 削除します
- replace
- 表す
- リクエスト
- 必要とする
- の提出が必要です
- 要件
- 研究
- 反応します
- 結果
- 明らかに
- 日
- 革命を起こす
- 丈夫
- s
- サム
- シナリオ
- シーン
- シーン
- 科学者たち
- セグメント
- セグメンテーション
- 選択
- 切り離す
- いくつかの
- 形状
- シェイプ
- すべき
- 簡単な拡張で
- サイズ
- 技能
- So
- 溶液
- 解決する
- 解決
- 一部
- ソース
- 特定の
- スピード
- ステップ
- まだ
- 簡単な
- 強い
- テーマ
- そのような
- 監督
- 取る
- 仕事
- タスク
- チーム
- テクノロジー
- それ
- エリア
- 未来
- ギャラリー
- 世界
- アプリ環境に合わせて
- それら
- ボーマン
- 物事
- 時間がかかる
- ヒント
- ヒントとトリック
- 〜へ
- ツール
- 豊富なツール群
- 追跡
- 訓練された
- トレーニング
- 転送
- 最適化の適用
- 不確実性
- 理解する
- ユニーク
- つかいます
- users
- 活用する
- 多様
- さまざまな
- 車
- ビデオ
- 動画
- バーチャル
- ビジョン
- 仕方..
- 方法
- ウェブ
- ウェブブラウザ
- WELL
- この試験は
- 何ですか
- which
- while
- 誰
- ワイド
- 広い範囲
- 意志
- 無し
- 仕事
- 世界
- あなたの
- ゼファーネット