合成データが必要な 5 つの理由

プラトン再発行

フォロワー： 0

合成データが必要な 5 つの理由
から生成された合成データキューブリック

機械学習モデルをトレーニングするには、データが必要です。通常、データサイエンスタスクは、事前にラベル付けされた大規模な精選されたデータセットを使用する Kaggle のコンテストではありません。場合によっては、独自のデータを収集、整理、およびクリーニングする必要があります。現実の世界でデータを収集してラベル付けするこのプロセスは、時間がかかり、面倒で、費用がかかり、不正確で、時には危険な場合があります。さらに、このプロセスの最後に、現実の世界で遭遇したデータが、品質、多様性 (クラスの不均衡など)、および量の点で必ずしも望ましいデータではないという結果になる可能性があります。以下は、実際のデータを操作するときに発生する可能性のある一般的な問題です。

実際のデータ収集とラベル付けはスケーラブルではありません
実際のデータに手動でラベルを付けることが不可能な場合がある
実際のデータにはプライバシーと安全性の問題があります
実際のデータはプログラムできません
実際のデータのみでトレーニングされたモデルは、十分なパフォーマンスを発揮できません (開発速度が遅いなど)。

幸いなことに、このような問題は合成データで解決できます。不思議に思うかもしれませんが、合成データとは? 合成データは、人工的に生成されたデータとして定義できます。通常、他の道路利用者の行動から、表面と相互作用する光の行動に至るまで、現実世界のプロセスをシミュレートするアルゴリズムを使用して作成されます。この投稿では、実世界のデータの限界と、合成データがこれらの問題を克服し、モデルのパフォーマンスを向上させる方法について説明します。

小さなデータセットの場合、通常はデータを収集して手動でラベル付けすることができます。ただし、多くの複雑な機械学習タスクでは、トレーニングに大規模なデータセットが必要です。たとえば、自律走行車アプリケーション用にトレーニングされたモデルには、車やドローンに取り付けられたセンサーから収集された大量のデータが必要です。このデータ収集プロセスは遅く、数か月から数年かかることもあります。生データが収集されると、人間が手動で注釈を付ける必要がありますが、これも費用と時間がかかります。さらに、モデルの現在の知識のギャップを知らせる例が含まれていない可能性があるため、返されたラベル付きデータがトレーニングデータとして有益であるという保証はありません。

[埋め込みコンテンツ][埋め込みコンテンツ]

このデータのラベル付けには、多くの場合、センサーデータの上に人間が手書きでラベルを付ける必要があります。高給取りの ML チームは、ラベルが正しいことを確認し、間違いをラベラーに送り返すことに多くの時間を費やすことが多いため、これには非常にコストがかかります。合成データの大きな強みは、完全にラベル付けされたデータを好きなだけ生成できることです。必要なのは、質の高い合成データを生成する方法だけです。

合成データを生成するオープンソースソフトウェア: キューブリック (セグメンテーションマスク、深度マップ、およびオプティカルフローを使用したマルチオブジェクトビデオ) および SDV (表形式、リレーショナル、および時系列データ)。

製品を販売したり、合成データを生成できるプラットフォームを構築したりする (多くの) 企業には、次のようなものがあります。 グレーテルアイ (実際のデータのプライバシーを保証する合成データセット)、 NVIDIA (オムニバース)、および パラレルドメイン （自動運転車）。多くのための、 2022 年の合成データ企業のリストを参照してください.

合成データが必要な 5 つの理由
Image from パラレルドメイン

人間が完全に解釈してラベル付けできないデータがいくつかあります。以下は、合成データが唯一の選択肢であるいくつかの使用例です。

深さの正確な推定とオプティカルフロー単一の画像から
人間の目には見えないレーダーデータを利用する自動運転アプリケーション
顔認識システムのテストに使用できるディープフェイクの生成

合成データが必要な 5 つの理由
による画像マイケル・ガラニク

合成データは、実際のデータを簡単に取得できないドメインでのアプリケーションに非常に役立ちます。これには、一部のタイプの自動車事故データと、プライバシー制限のあるほとんどのタイプの健康データが含まれます (例: 電子健康記録）。近年、医療研究者は、ECG および PPG 信号を使用して心房細動 (不整脈) を予測することに関心を持っています。不整脈検出器の開発は、これらの信号の注釈付けが面倒でコストがかかるだけでなく、プライバシーの制限のためにも困難です。これが存在する理由の XNUMX つです。これらの信号をシミュレートする研究.

実際のデータの収集には時間とエネルギーがかかるだけでなく、実際には危険である可能性があることを強調することが重要です。自動運転車などのロボットアプリケーションの主な問題の XNUMX つは、それらが機械学習の物理的なアプリケーションであるということです。安全でないモデルを現実の世界にデプロイして、関連データが不足しているためにクラッシュすることはありません。合成データでデータセットを拡張すると、モデルがこれらの問題を回避するのに役立ちます。

以下は、アプリケーションの安全性を向上させるために合成データを使用している企業の一部です。 トヨタ, ウェイモ, クルーズ.

合成データが必要な 5 つの理由
Image from パラレルドメイン

カリフォルニア郊外の環境で、スクールバスの後ろから自転車に乗って通りを自転車で横断している閉塞した子供の合成画像。

自動運転車のアプリケーションは、夜間の歩行者や道路の真ん中を走る自転車など、(通常の運転条件と比べて) 比較的「まれな」イベントに対処することがよくあります。多くの場合、モデルはシナリオを学習するために数十万または数百万の例を必要とします。主要な問題の XNUMX つは、収集された実際のデータが、品質、多様性 (クラスの不均衡、気象条件、場所など)、および量の点で求めているものではない可能性があることです。もう XNUMX つの問題は、自動運転車や自動運転ロボットの場合、固定データセットと固定ベンチマークを使用する従来の機械学習タスクとは異なり、必要なデータが常にわかっているとは限らないことです。体系的またはランダムに画像を変更するいくつかのデータ拡張技術は役に立ちますが、、これらのテクニックは自分の問題を紹介する.

ここで、合成データの出番です。合成データ生成 API を使用すると、データセットを設計できます。現実世界でロボットを構築してデータを収集するには非常に費用がかかるため、これらの API を使用すると、多くの費用を節約できます。合成データセット生成を使用してデータを生成し、エンジニアリングの原則を理解することは、はるかに優れており、より高速です。

以下は、プログラム可能な合成データがモデルの学習にどのように役立つかを強調する例です。 不正取引防止（アメリカン・エキスプレス）, サイクリスト検出の向上 (Parallel Domain), 手術の分析とレビュー (Hutom.io).

合成データが必要な 5 つの理由
モデル開発サイクルのフェーズ | からの画像ジュール・S・ダムジ

業界には、開発と本番の両方で機械学習プロジェクトの実行可能性/パフォーマンスに影響を与える多くの要因 (例: データ取得、注釈、モデルトレーニング、スケーリング、デプロイ、モニタリング、モデルの再トレーニング、開発速度)。最近、 18 人の機械学習エンジニアがインタビュー調査に参加しました組織やアプリケーション (自動運転車、コンピューターハードウェア、小売り、広告、レコメンデーションシステムなど) 全体で共通の MLOps プラクティスと課題を理解することを目標としていました。この研究の結論の XNUMX つは、開発速度の重要性でした。これは、アイデアを迅速にプロトタイプ化し、反復する能力として大まかに定義できます。

開発速度に影響を与える要因の XNUMX つは、モデルの初期トレーニングと評価を行うためのデータが必要なことです。 頻繁なモデルの再トレーニングと同様に データのドリフト、コンセプトのドリフト、さらにはトレーニングとサービスのスキューのトレーニングにより、時間の経過とともにモデルのパフォーマンスが低下するためです。

合成データが必要な 5 つの理由
Image from 明らかにAI

この調査では、この必要性により、一部の組織がライブデータに頻繁にラベルを付けるチームを設立したことも報告されています。これには費用と時間がかかり、モデルを頻繁に再トレーニングする組織の能力が制限されます。

合成データが必要な 5 つの理由
Image from グレーテルアイ

この図は、合成データが次のような目的でどのように使用されるかをカバーしていないことに注意してください。レコメンデーションでの MLOps テスト.

合成データは、組織がモデルのパフォーマンスをより長く維持できるように、機械学習のライフサイクル (上の図) で実世界のデータと共に使用できる可能性があります。

合成データの生成は、機械学習ワークフローでますます一般的になりつつあります。実際には、ガートナーは、2030 年までに合成データが機械学習モデルのトレーニングに実際のデータよりもはるかに多く使用されるようになると予測しています。この投稿について質問や考えがある場合は、下のコメントまたは Twitter.

マイケル・ガラニク はデータサイエンスの専門家であり、AnyscaleのDeveloperRelationsで働いています。