から生成された合成データ キューブリック
機械学習モデルをトレーニングするには、データが必要です。 通常、データ サイエンス タスクは、事前にラベル付けされた大規模な精選されたデータセットを使用する Kaggle のコンテストではありません。 場合によっては、独自のデータを収集、整理、およびクリーニングする必要があります。 現実の世界でデータを収集してラベル付けするこのプロセスは、時間がかかり、面倒で、費用がかかり、不正確で、時には危険な場合があります。 さらに、このプロセスの最後に、現実の世界で遭遇したデータが、品質、多様性 (クラスの不均衡など)、および量の点で必ずしも望ましいデータではないという結果になる可能性があります。 以下は、実際のデータを操作するときに発生する可能性のある一般的な問題です。
- 実際のデータ収集とラベル付けはスケーラブルではありません
- 実際のデータに手動でラベルを付けることが不可能な場合がある
- 実際のデータにはプライバシーと安全性の問題があります
- 実際のデータはプログラムできません
- 実際のデータのみでトレーニングされたモデルは、十分なパフォーマンスを発揮できません (開発速度が遅いなど)。
幸いなことに、このような問題は合成データで解決できます。 不思議に思うかもしれませんが、 合成データとは? 合成データは、人工的に生成されたデータとして定義できます。通常、他の道路利用者の行動から、表面と相互作用する光の行動に至るまで、現実世界のプロセスをシミュレートするアルゴリズムを使用して作成されます。 この投稿では、実世界のデータの限界と、合成データがこれらの問題を克服し、モデルのパフォーマンスを向上させる方法について説明します。
小さなデータセットの場合、通常はデータを収集して手動でラベル付けすることができます。 ただし、多くの複雑な機械学習タスクでは、トレーニングに大規模なデータセットが必要です。 たとえば、自律走行車アプリケーション用にトレーニングされたモデルには、車やドローンに取り付けられたセンサーから収集された大量のデータが必要です。 このデータ収集プロセスは遅く、数か月から数年かかることもあります。 生データが収集されると、人間が手動で注釈を付ける必要がありますが、これも費用と時間がかかります。 さらに、モデルの現在の知識のギャップを知らせる例が含まれていない可能性があるため、返されたラベル付きデータがトレーニング データとして有益であるという保証はありません。
[埋め込みコンテンツ][埋め込みコンテンツ]
このデータのラベル付けには、多くの場合、センサー データの上に人間が手書きでラベルを付ける必要があります。 高給取りの ML チームは、ラベルが正しいことを確認し、間違いをラベラーに送り返すことに多くの時間を費やすことが多いため、これには非常にコストがかかります。 合成データの大きな強みは、完全にラベル付けされたデータを好きなだけ生成できることです。 必要なのは、質の高い合成データを生成する方法だけです。
合成データを生成するオープンソース ソフトウェア: キューブリック (セグメンテーション マスク、深度マップ、およびオプティカル フローを使用したマルチオブジェクト ビデオ) および SDV (表形式、リレーショナル、および時系列データ)。
製品を販売したり、合成データを生成できるプラットフォームを構築したりする (多くの) 企業には、次のようなものがあります。 グレーテルアイ (実際のデータのプライバシーを保証する合成データ セット)、 NVIDIA (オムニバース)、および パラレルドメイン (自動運転車)。 多くのための、 2022 年の合成データ企業のリストを参照してください.
Image from
パラレルドメイン
人間が完全に解釈してラベル付けできないデータがいくつかあります。 以下は、合成データが唯一の選択肢であるいくつかの使用例です。
- 深さの正確な推定と オプティカルフロー 単一の画像から
- 人間の目には見えないレーダー データを利用する自動運転アプリケーション
- 顔認識システムのテストに使用できるディープ フェイクの生成
による画像 マイケル・ガラニク
合成データは、実際のデータを簡単に取得できないドメインでのアプリケーションに非常に役立ちます。 これには、一部のタイプの自動車事故データと、プライバシー制限のあるほとんどのタイプの健康データが含まれます (例: 電子健康記録)。 近年、医療研究者は、ECG および PPG 信号を使用して心房細動 (不整脈) を予測することに関心を持っています。 不整脈検出器の開発は、これらの信号の注釈付けが面倒でコストがかかるだけでなく、プライバシーの制限のためにも困難です。 これが存在する理由の XNUMX つです。 これらの信号をシミュレートする研究.
実際のデータの収集には時間とエネルギーがかかるだけでなく、実際には危険である可能性があることを強調することが重要です。 自動運転車などのロボット アプリケーションの主な問題の XNUMX つは、それらが機械学習の物理的なアプリケーションであるということです。 安全でないモデルを現実の世界にデプロイして、関連データが不足しているためにクラッシュすることはありません。 合成データでデータセットを拡張すると、モデルがこれらの問題を回避するのに役立ちます。
以下は、アプリケーションの安全性を向上させるために合成データを使用している企業の一部です。 トヨタ, ウェイモ, クルーズ.
Image from
パラレルドメイン
カリフォルニア郊外の環境で、スクールバスの後ろから自転車に乗って通りを自転車で横断している閉塞した子供の合成画像。
自動運転車のアプリケーションは、夜間の歩行者や道路の真ん中を走る自転車など、(通常の運転条件と比べて) 比較的「まれな」イベントに対処することがよくあります。 多くの場合、モデルはシナリオを学習するために数十万または数百万の例を必要とします。 主要な問題の XNUMX つは、収集された実際のデータが、品質、多様性 (クラスの不均衡、気象条件、場所など)、および量の点で求めているものではない可能性があることです。 もう XNUMX つの問題は、自動運転車や自動運転ロボットの場合、固定データセットと固定ベンチマークを使用する従来の機械学習タスクとは異なり、必要なデータが常にわかっているとは限らないことです。 体系的またはランダムに画像を変更するいくつかのデータ拡張技術は役に立ちますが、、これらのテクニックは 自分の問題を紹介する.
ここで、合成データの出番です。合成データ生成 API を使用すると、データセットを設計できます。 現実世界でロボットを構築してデータを収集するには非常に費用がかかるため、これらの API を使用すると、多くの費用を節約できます。 合成データセット生成を使用してデータを生成し、エンジニアリングの原則を理解することは、はるかに優れており、より高速です。
以下は、プログラム可能な合成データがモデルの学習にどのように役立つかを強調する例です。 不正取引防止(アメリカン・エキスプレス), サイクリスト検出の向上 (Parallel Domain), 手術の分析とレビュー (Hutom.io).
モデル開発サイクルのフェーズ | からの画像 ジュール・S・ダムジ
業界には、 開発と本番の両方で機械学習プロジェクトの実行可能性/パフォーマンスに影響を与える多くの要因 (例: データ取得、注釈、モデル トレーニング、スケーリング、デプロイ、モニタリング、モデルの再トレーニング、開発速度)。 最近、 18 人の機械学習エンジニアがインタビュー調査に参加しました 組織やアプリケーション (自動運転車、コンピューター ハードウェア、小売り、広告、レコメンデーション システムなど) 全体で共通の MLOps プラクティスと課題を理解することを目標としていました。 この研究の結論の XNUMX つは、開発速度の重要性でした。これは、アイデアを迅速にプロトタイプ化し、反復する能力として大まかに定義できます。
開発速度に影響を与える要因の XNUMX つは、モデルの初期トレーニングと評価を行うためのデータが必要なことです。 頻繁なモデルの再トレーニングと同様に データのドリフト、コンセプトのドリフト、さらにはトレーニングとサービスのスキューのトレーニングにより、時間の経過とともにモデルのパフォーマンスが低下するためです。
Image from
明らかにAI
この調査では、この必要性により、一部の組織がライブデータに頻繁にラベルを付けるチームを設立したことも報告されています。 これには費用と時間がかかり、モデルを頻繁に再トレーニングする組織の能力が制限されます。
Image from
グレーテルアイ
この図は、合成データが次のような目的でどのように使用されるかをカバーしていないことに注意してください。 レコメンデーションでの MLOps テスト.
合成データは、組織がモデルのパフォーマンスをより長く維持できるように、機械学習のライフ サイクル (上の図) で実世界のデータと共に使用できる可能性があります。
合成データの生成は、機械学習ワークフローでますます一般的になりつつあります。 実際には、 ガートナー は、2030 年までに合成データが機械学習モデルのトレーニングに実際のデータよりもはるかに多く使用されるようになると予測しています。 この投稿について質問や考えがある場合は、下のコメントまたは Twitter.
マイケル・ガラニク はデータサイエンスの専門家であり、AnyscaleのDeveloperRelationsで働いています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/2023/02/5-reasons-need-synthetic-data.html?utm_source=rss&utm_medium=rss&utm_campaign=5-reasons-why-you-need-synthetic-data
- 2022
- a
- 能力
- 私たちについて
- 上記の.
- 事故
- 買収
- 越えて
- 実際に
- 広告
- 影響を及ぼす
- 影響
- アルゴリズム
- すべて
- 常に
- アメリカ
- アメリカンエキスプレス
- 金額
- 分析
- および
- 別の
- API
- 申し込み
- 自律的
- 自律車両
- 自律車両
- バック
- なぜなら
- になる
- 背後に
- さ
- 以下
- ベンチマーク
- 有益な
- より良いです
- ブランク
- ビルド
- バス
- 自動車
- 自動車
- 例
- 課題
- 挑戦
- 子
- class
- 収集する
- 収集
- コレクション
- 注釈
- コマンドと
- 企業
- コンペ
- 複雑な
- コンピュータ
- コンセプト
- 条件
- コンテンツ
- 基本
- カバー
- Crash
- 作成した
- キュレーション
- 電流プローブ
- サイクル
- 危険な
- データ
- データサイエンス
- データセット
- データセット
- 取引
- 深いです
- ディープフェイク
- 定義済みの
- 展開します
- 展開
- 深さ
- 検出
- Developer
- 開発
- 開発
- 多様性
- そうではありません
- ドメイン
- ドメイン
- ドント
- ダウン
- 描画
- 運転
- ドローン
- 簡単に
- 埋め込まれた
- 新興の
- 強調する
- 出会い
- エネルギー
- エンジニア
- エンジニアリング
- エンジニア
- 十分な
- 確保
- 環境
- 等
- 評価
- さらに
- イベント
- 例
- 例
- 排他的に
- 高価な
- 表現します
- 顔
- 顔認識
- 要因
- 速いです
- フィギュア
- 固定の
- フロー
- フォロー中
- 不正な
- 無料版
- 頻繁な
- 頻繁に
- から
- 完全に
- さらに
- ガートナー
- 生成する
- 生成された
- 世代
- 取得する
- GIF
- 目標
- ゴエス
- 保証
- Hardware
- 健康
- ヘルスケア
- ハート
- 助けます
- ことができます
- ハイ
- 特徴
- 非常に
- 認定条件
- しかしながら
- HTML
- HTTPS
- 巨大な
- 人間
- 人間
- 何百
- 考え
- 画像
- 画像
- 不均衡
- 重要性
- 重要
- 不可能
- 改善します
- in
- 不正確
- include
- 含ま
- 産業を変えます
- 初期
- 相互作用する
- 興味がある
- インタビュー
- 問題
- IT
- KDナゲット
- キープ
- 知っている
- 知識
- ラベル
- ラベリング
- ラベル
- 欠如
- 大
- LEARN
- 学習
- 学習エンジニア
- ツェッペリン
- 生活
- 光
- 制限
- 制限
- リスト
- ライブ
- ライブデータ
- 場所
- より長いです
- 探して
- たくさん
- 機械
- 機械学習
- 主要な
- 作成
- 手動で
- 多くの
- ゲレンデマップ
- マスク
- 大規模な
- ミディアム
- 真ん中
- かもしれない
- 何百万
- ミス
- ML
- MLOps
- モデル
- お金
- モニタリング
- ヶ月
- 他には?
- 最も
- 必ずしも
- 必要
- 夜
- 通常の
- Nvidia
- オムニバース
- ONE
- オプション
- 組織
- 組織
- その他
- 克服する
- 自分の
- 支払われた
- 並列シミュレーションの設定
- 部
- パフォーマンス
- 物理的な
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 可能
- ポスト
- 潜在的な
- プラクティス
- 予測
- 予測
- 原則
- プライバシー
- 問題
- 問題
- プロセス
- ラボレーション
- 製品
- プロ
- プロジェクト
- プロトタイプ
- 品質
- 量
- 質問
- レーダー
- 急速に
- Raw
- 生データ
- リーチ
- リアル
- 現実の世界
- 理由
- 理由は
- 最近
- 最近
- 認識
- 関係
- 相対的に
- 関連した
- 報告
- 必要とする
- 研究
- 研究者
- 制限
- 小売
- 再訓練
- レビュー
- ライディング
- ロード
- ロボット
- 大体
- 安全性
- Save
- ド電源のデ
- スケーリング
- シナリオ
- 学校
- 科学
- セグメンテーション
- 自動運転
- 売る
- 送信
- センサー
- シリーズ
- セッションに
- セット
- 信号
- から
- 斜め
- 遅く
- 小さい
- ソフトウェア
- 一部
- ソース
- 過ごす
- ストリート
- 力
- 勉強
- 合成
- 合成データ
- システム
- 取る
- タスク
- チーム
- チーム
- テクニック
- 条件
- test
- テスト
- アプリ環境に合わせて
- 物事
- 数千
- 時間
- 時系列
- 時間がかかる
- 〜へ
- top
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- 取引
- 一般的に
- 理解する
- つかいます
- users
- 通常
- 活用する
- 自動車
- 車
- 速度
- 動画
- 目に見える
- 天気
- この試験は
- which
- 意志
- 不思議に思います
- ワークフロー
- ワーキング
- 作品
- 世界
- でしょう
- 年
- あなたの
- ユーチューブ
- ゼファーネット