合成データの生成: プライバシーと品質を確保することで信頼を構築する - IBM ブログ

プラトン再発行

フォロワー： 0

生成 AI、生成敵対的ネットワーク、コンピュータービジョン、トランスフォーマーなどの機械学習モデルと人工知能における新たな進歩と応用の出現に伴い、多くの企業が両方のタイプの合成データを使用して最も差し迫った現実世界のデータの課題に対処しようとしています。構造化されたものと非構造化されたもの。構造化合成データタイプは定量的であり、数値や値などの表形式のデータが含まれます。一方、非構造化合成データタイプは定性的で、テキスト、画像、ビデオが含まれます。さまざまな業界のビジネスリーダーやデータサイエンティストは、データギャップに対処し、機密情報を保護し、市場投入までの時間を短縮するための新しいデータ合成の必要性を強調しています。彼らはすでに、次のような合成データの実際の使用例をいくつか特定し、調査しています。

サンプルサイズとエッジケースを増やすために合成表形式データを生成します。このデータを実際のデータセットと組み合わせて、AI モデルのトレーニングと予測精度を向上させることができます。
新しいアプリケーションや機能のテスト、最適化、検証を促進するための合成テストデータを作成します。
エージェントベースのシミュレーションから合成された合成データを使用して、「what-if」シナリオまたは新しいビジネスイベントを調査します。
合成データを使用して、機械学習アルゴリズムにおける機密データの公開を防ぎます。
高品質でプライバシーが保護された合成レプリカを社内の関係者や社外のビジネスパートナーと共有して収益化します。

とはいえ、データを合成すると、従来のデータプライバシーやデータ匿名化手法 (マスキングを考えてください) に対する保護が強化されると同時に、データの有用性をより適切に維持できます。しかし、ビジネスリーダーの間では依然として信頼の欠如が存在します。その信頼を築き、幅広い採用を推進するには、合成データ生成ツールのベンダーは、多くのビジネスリーダーが尋ねる 2 つの重要な質問に対処する必要があります。合成データにより、私のビジネスは追加のデータプライバシーリスクにさらされることになりますか?合成データは既存のデータをどの程度正確に反映していますか?

幸いなことに、企業がこれらの質問を評価し、できれば今日の絶え間なく変化する市場で競争力を高めるために必要な合成データの信頼を構築するのに役立つベストプラクティスがすでに導入されています。見てみましょう。

合成データのプライバシーを確保する

実際のイベント (顧客の購入、インターネットログイン、患者の診断など) によって作成されたものではなく、コンピューターで生成されたものであるため、人工データまたは「偽データ」とみなされますが、合成データを使用すると、個人を特定できる情報 (PII) が明らかになる可能性があります。 AIモデルのトレーニングデータとして。たとえば、企業が合成データ生成の精度を優先する場合、結果として得られる出力に個人を特定できる属性が誤って過剰に含まれる可能性があり、その結果、企業のプライバシーリスクが知らず知らずのうちに増大する可能性があります。さらに、ディープラーニングや予測生成モデルなど、データサイエンスにおけるモデリング技術がますます洗練されているため、企業やベンダーは、個人の ID が漏洩して第三者の攻撃にさらされる可能性のある意図しない接続を防ぐために熱心に取り組む必要があります。

幸いなことに、合成データに関心のある企業は、プライバシーリスクを軽減するための措置を講じることができます。

データをそのままの場所に保管する

多くの企業がコスト削減、パフォーマンスと拡張性の向上を目的として既存のソフトウェアアプリケーションをクラウドに移行していますが、オンプレミス展開はプライバシーと保護を強化する上で極めて重要な役割を果たし続けています。これは合成データにも部分的に当てはまります。完全な合成データ (モデルトレーニング用の既存のデータを使用せずに生成されたデータ) または機密情報や PII を含まない合成データを扱う場合、パブリッククラウド展開方法の使用に伴うリスクは最小限です。ただし、合成データが既存の機密データに依存している場合、企業はオンプレミス展開を検討する必要があります。サードパーティのクラウドプロバイダーは、堅牢な組み込みのセキュリティとプライバシー保護機能を提供していますが、そのようなクラウドで機密の PII 顧客データを送信および保存すると、組織が潜在的なリスクにさらされ、プライバシーチームによってブロックされる可能性があります。

制御と堅牢な保護を実現

すべての合成データのユースケースでプライバシーが必要なわけではありませんが、必要なものもあります。したがって、リスク、セキュリティ、およびコンプライアンスのリーダーは、合成データ生成プロセス中に望ましいレベルのプライバシーリスクを制御するメカニズムを実装する必要があります。「差分プライバシー」はそのようなメカニズムの 1 つで、データサイエンティストやリスクチームが希望するプライバシーレベル (通常は 10 ～ 1 のイプシロン範囲内で、XNUMX が最高のプライバシーを表します) を管理できるようにします。この方法では、個人の貢献が隠蔽され、その情報が実際に使用されたかどうかなど、個人に関する特定の情報を推測することが不可能になります。脆弱な個々のデータポイントを自動的に特定し、「ノイズ」を導入してその特定の情報を覆い隠します。ノイズを追加すると出力精度がわずかに低下しますが (これは差分プライバシーの「コスト」です)、従来のデータマスキング技術と比較して実用性やデータ品質が損なわれることはありません。言い換えれば、差分プライベート合成データセットは、依然として実際のデータセットの統計的特性を反映しています。さらに、差分プライバシー技術を使用することには、潜在的なプライバシー攻撃に対する堅牢なデータ保護、連続的なデータ公開による累積リスクに関する証明可能なプライバシー保証、差分プライベート計算やパラメーターを秘密にしておく必要がないためのデータの透明性などの利点があります。

プライバシー関連の指標についての洞察を得る

差分プライバシーが選択肢にない場合、ビジネスユーザーはプライバシー関連の指標を常に監視し、プライバシーの露出の範囲を把握できるようにする必要があります。以下に、包括的ではありませんが、強固な基盤として機能する 2 つの一般的な指標を示します。

漏れスコア: このスコアは、合成データセット内の元のデータセットと同一の行の割合を測定します。合成データセットは高い精度を実現できますが、元のデータが多すぎるとプライバシーが侵害される可能性があります。データ漏洩は、元のデータや実際のデータに対象に関する情報が含まれている場合に発生しますが、AI モデルを使用して予測や分析を行う場合、そのようなデータにはアクセスできません。
近接スコア: 近接性は、元のデータと合成データセットの間の距離を計算することによって決定されます。距離が小さいほど、合成表形式データから特定の行を分離しやすくなるため、プライバシーリスクが高くなります。

合成データの品質の評価

企業全体に導入するには、ビジネスリーダーやデータサイエンティストが合成データ出力の品質に自信を持つ必要もあります。具体的には、合成データが既存のデータモデルの統計的特性をどれだけ厳密に維持しているかを迅速かつ簡単に把握する必要があります。一部のユースケースでは、現実的な製品デモ、社内トレーニングアセット、特定の AI モデルトレーニングシナリオを作成するための説明データなど、より忠実度の低い合成データが必要ですが、医療分野で患者データを合成する場合など、他のユースケースでは高度な忠実度が必要です。後者のユースケースでは、医療会社が合成出力を使用して、下流の意思決定に情報を提供する新しい患者の洞察を特定する可能性があるため、ビジネスリーダーは、合成データが実際のビジネスの状況を正確に反映していることを確認する必要があります。

忠実度やその他の品質関連の指標を詳しく見てみましょう。

忠実

重要な指標は「忠実度」です。実際のデータおよびデータモデルとの類似性の観点から、合成データの品質を評価します。企業は、列の分布だけでなく、他の列間の関係 (1 対 1 (単変量) と 1 対多 (多変量) の両方) についても洞察を得る必要があります。ほとんどの既存のデータテーブルは複雑でサイズが大きいため、後者を理解することが重要です。幸いなことに、最新のニューラルネットワークと生成 AI モデルは、データベーステーブルや時系列データにおけるこれらの複雑な関係を捉えることに優れています。忠実度メトリックは棒グラフと相関表を使用して表示され、長くなる可能性がありますが、貴重な洞察を提供します。まだ忠実度分析にアクセスできない場合は、次のようなオープンソースの Python パッケージを使用して始めることができます。 SDメトリクス.

ユーティリティ

AI モデルには効果的なトレーニングを行うために十分なデータが必要ですが、実際のデータセットの取得には時間がかかる場合があります。合成データは、機械学習モデルをトレーニングするためのより高速な代替手段を提供します。したがって、適切なチームと共有する前に、AI モデルのトレーニングにおける合成データの有用性を理解することが重要です。基本的に、このメトリックは、合成データと比較した実際のデータでトレーニングされた場合の機械学習モデルの相対的な予測精度を測定します。

公正さ

もう 1 つの重要な指標は「公平性」です。これは、企業が収集したデータセットに存在する潜在的なバイアスのために注目を集めているトピックです。既存のデータセットに偏りがある場合、合成データにも偏りが生じます。このバイアスの程度について洞察を得ることで、企業がバイアスを認識し、修正できる可能性があります。今日の合成データソリューションではそれほど普及しておらず、プライバシー、忠実度、ユーティリティほど重要ではありませんが、合成データのバイアスを理解することは、企業が情報に基づいた意思決定を行うのに役立ちます。

watsonx.ai で合成データを使い始める方法

AI ビルダーとデータサイエンティストは、データベースからデータをインポートするか、ファイルをアップロードするか、IBM® watsonx.ai™ でカスタムデータスキーマを作成することにより、合成表形式データを生成できます。この統計ベースのモデルを使用すると、エッジケースやより大きなサンプルサイズを通じて AI トレーニングモデルの予測精度を向上させるのに役立つデータを生成できます。このデータは、クライアントのデモや従業員のトレーニング資料のリアリティを高めるために使用することもできます。

Watsonx.ai は、基盤モデルを活用した、機械学習と生成 AI のためのエンタープライズ対応の次世代 AI スタジオです。 watsonx.ai スタジオを使用すると、データサイエンティスト、アプリケーション開発者、ビジネスアナリストを含む AI ビルダーは、従来の機械学習と新しい生成 AI 機能の両方をトレーニング、検証、調整、導入できます。 Watsonx.ai は、AI アプリケーション開発におけるコラボレーションと拡張性を促進するように設計されており、ハイブリッドクラウド環境に展開できます。

合成データ生成サービスをチェックしてください。ワトソンx.ai いずれかによって無料トライアルにアクセスする or 30分間の通話をスケジュールする私たちのいずれかとワトソンx.ai 製品スペシャリストによるガイド付きウォークスルー。

watsonx.ai のメリットを探る

今すぐ無料トライアルのロックを解除してください

IBM watsonx.ai 上の合成データ、プロダクトマネージャー

データと分析の詳細

2023 年 11 月 28 日

IBM Db2 が Amazon RDS で利用可能になりました

4 分読みます – IBM® Db2® はルネサンスを迎えています。お客様やビジネスパートナーと話すとき、私たちは楽観的で興奮した気持ちになります。そしてそれは数字にも表れています。Db2 は四半期ごとに収益を伸ばし続け、市場シェアを獲得しています。お客様は、ミッションクリティカルなアプリケーションやワークロードを実行するために、これまで以上に Db2 を信頼しています。これらのアプリケーションが世界経済を動かしています。 Db2 は、金融機関に深く組み込まれ、金融業界全体にわたる数兆もの毎日のトランザクションの迅速、安全、正確な処理を直接保証します。

2023 年 11 月 28 日

一般的なオープンソース AI フレームワークを活用して、IBM Z および IBM LinuxONE アプリケーションに AI を注入

2 分読みます – オープンソースと人工知能オープンソースソフトウェアは、人工知能 (AI) の世界に大きな影響を与え、その進化において重要な役割を果たしてきました。より幅広いユーザーへのアクセス、迅速な反復、開発者、データサイエンティスト、研究者、および AI コミュニティ全体の間のコラボレーションの増加により、AI は変革され、その進化と成熟が加速しました。オープンソースと企業オープンソースは主流となり、近年非常に人気が高まっています。オープンに関する 2020 年のオライリー調査…

2023 年 11 月 7 日

IBM と VMware が企業の watsonx オンプレミスによる生成型 AI の導入を支援

4 分読みます – IBM と VMware は協力して、IBM watsonx を VMware® Private AI および Red Hat® OpenShift® 上のオンプレミス環境に導入し、高速で透過的な生成 AI 機能の実現を支援します。 2023 年には、企業が革新的なイノベーションを推進しようとする中、AI の導入が主流になることが予想されます。特に生成 AI は、さまざまな入力に基づいて新しいコンテンツを生成する手段として組織の想像力を魅了してきました。生成 AI のユースケースとタスクは、コード生成からコンタクトセンターに至るまで多岐にわたります。

2023 年 8 月 2 日

IBM 8.0 の SingleStoreDB の新機能をご覧ください。

3 分読みます – データベースシステムは何十年にもわたって進歩してきたにもかかわらず、構築者は速度、信頼性、容易さの少なくとも XNUMX つについて妥協してきました。彼らには XNUMX つの選択肢があります。XNUMX つは、高速かつ簡単なドキュメントデータベースを入手できる可能性がありますが、ミッションクリティカルなトランザクションアプリケーションには依存できません。あるいは XNUMX つとして、セットアップは簡単ですが、遅延分析のみが可能なクラウドデータウェアハウスを利用することもできます。それでも、各ソリューションには何かが欠けており、ビルダーは別のデータベースをデプロイする必要があります…

IBM ニュースレター

最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。

今すぐ会員登録します。

その他のニュースレター

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

タイムスタンプ： 2023 年 11 月 29 日

タイムスタンプ： 2024 年 1 月 3 日

プラトン再発行