生成 AI、生成敵対的ネットワーク、コンピューター ビジョン、トランスフォーマーなどの機械学習モデルと人工知能における新たな進歩と応用の出現に伴い、多くの企業が両方のタイプの合成データを使用して最も差し迫った現実世界のデータの課題に対処しようとしています。構造化されたものと非構造化されたもの。構造化合成データ タイプは定量的であり、数値や値などの表形式のデータが含まれます。一方、非構造化合成データ タイプは定性的で、テキスト、画像、ビデオが含まれます。さまざまな業界のビジネス リーダーやデータ サイエンティストは、データ ギャップに対処し、機密情報を保護し、市場投入までの時間を短縮するための新しいデータ合成の必要性を強調しています。彼らはすでに、次のような合成データの実際の使用例をいくつか特定し、調査しています。
- サンプルサイズとエッジケースを増やすために合成表形式データを生成します。このデータを実際のデータセットと組み合わせて、AI モデルのトレーニングと予測精度を向上させることができます。
- 新しいアプリケーションや機能のテスト、最適化、検証を促進するための合成テスト データを作成します。
- エージェントベースのシミュレーションから合成された合成データを使用して、「what-if」シナリオまたは新しいビジネス イベントを調査します。
- 合成データを使用して、機械学習アルゴリズムにおける機密データの公開を防ぎます。
- 高品質でプライバシーが保護された合成レプリカを社内の関係者や社外のビジネス パートナーと共有して収益化します。
とはいえ、データを合成すると、従来のデータ プライバシーやデータ匿名化手法 (マスキングを考えてください) に対する保護が強化されると同時に、データの有用性をより適切に維持できます。しかし、ビジネスリーダーの間では依然として信頼の欠如が存在します。その信頼を築き、幅広い採用を推進するには、合成データ生成ツールのベンダーは、多くのビジネス リーダーが尋ねる 2 つの重要な質問に対処する必要があります。 合成データにより、私のビジネスは追加のデータ プライバシー リスクにさらされることになりますか?合成データは既存のデータをどの程度正確に反映していますか?
幸いなことに、企業がこれらの質問を評価し、できれば今日の絶え間なく変化する市場で競争力を高めるために必要な合成データの信頼を構築するのに役立つベストプラクティスがすでに導入されています。見てみましょう。
合成データのプライバシーを確保する
実際のイベント (顧客の購入、インターネット ログイン、患者の診断など) によって作成されたものではなく、コンピューターで生成されたものであるため、人工データまたは「偽データ」とみなされますが、合成データを使用すると、個人を特定できる情報 (PII) が明らかになる可能性があります。 AIモデルのトレーニングデータとして。たとえば、企業が合成データ生成の精度を優先する場合、結果として得られる出力に個人を特定できる属性が誤って過剰に含まれる可能性があり、その結果、企業のプライバシー リスクが知らず知らずのうちに増大する可能性があります。さらに、ディープ ラーニングや予測生成モデルなど、データ サイエンスにおけるモデリング技術がますます洗練されているため、企業やベンダーは、個人の ID が漏洩して第三者の攻撃にさらされる可能性のある意図しない接続を防ぐために熱心に取り組む必要があります。
幸いなことに、合成データに関心のある企業は、プライバシー リスクを軽減するための措置を講じることができます。
データをそのままの場所に保管する
多くの企業がコスト削減、パフォーマンスと拡張性の向上を目的として既存のソフトウェア アプリケーションをクラウドに移行していますが、オンプレミス展開はプライバシーと保護を強化する上で極めて重要な役割を果たし続けています。これは合成データにも部分的に当てはまります。完全な合成データ (モデル トレーニング用の既存のデータを使用せずに生成されたデータ) または機密情報や PII を含まない合成データを扱う場合、パブリック クラウド展開方法の使用に伴うリスクは最小限です。ただし、合成データが既存の機密データに依存している場合、企業はオンプレミス展開を検討する必要があります。サードパーティのクラウド プロバイダーは、堅牢な組み込みのセキュリティとプライバシー保護機能を提供していますが、そのようなクラウドで機密の PII 顧客データを送信および保存すると、組織が潜在的なリスクにさらされ、プライバシー チームによってブロックされる可能性があります。
制御と堅牢な保護を実現
すべての合成データのユースケースでプライバシーが必要なわけではありませんが、必要なものもあります。したがって、リスク、セキュリティ、およびコンプライアンスのリーダーは、合成データ生成プロセス中に望ましいレベルのプライバシー リスクを制御するメカニズムを実装する必要があります。 「差分プライバシー」はそのようなメカニズムの 1 つで、データ サイエンティストやリスク チームが希望するプライバシー レベル (通常は 10 ~ 1 のイプシロン範囲内で、XNUMX が最高のプライバシーを表します) を管理できるようにします。この方法では、個人の貢献が隠蔽され、その情報が実際に使用されたかどうかなど、個人に関する特定の情報を推測することが不可能になります。脆弱な個々のデータポイントを自動的に特定し、「ノイズ」を導入してその特定の情報を覆い隠します。ノイズを追加すると出力精度がわずかに低下しますが (これは差分プライバシーの「コスト」です)、従来のデータ マスキング技術と比較して実用性やデータ品質が損なわれることはありません。言い換えれば、差分プライベート合成データセットは、依然として実際のデータセットの統計的特性を反映しています。さらに、差分プライバシー技術を使用することには、潜在的なプライバシー攻撃に対する堅牢なデータ保護、連続的なデータ公開による累積リスクに関する証明可能なプライバシー保証、差分プライベート計算やパラメーターを秘密にしておく必要がないためのデータの透明性などの利点があります。
プライバシー関連の指標についての洞察を得る
差分プライバシーが選択肢にない場合、ビジネス ユーザーはプライバシー関連の指標を常に監視し、プライバシーの露出の範囲を把握できるようにする必要があります。以下に、包括的ではありませんが、強固な基盤として機能する 2 つの一般的な指標を示します。
- 漏れスコア: このスコアは、合成データセット内の元のデータセットと同一の行の割合を測定します。合成データセットは高い精度を実現できますが、元のデータが多すぎるとプライバシーが侵害される可能性があります。データ漏洩は、元のデータや実際のデータに対象に関する情報が含まれている場合に発生しますが、AI モデルを使用して予測や分析を行う場合、そのようなデータにはアクセスできません。
- 近接スコア: 近接性は、元のデータと合成データセットの間の距離を計算することによって決定されます。距離が小さいほど、合成表形式データから特定の行を分離しやすくなるため、プライバシー リスクが高くなります。
合成データの品質の評価
企業全体に導入するには、ビジネス リーダーやデータ サイエンティストが合成データ出力の品質に自信を持つ必要もあります。具体的には、合成データが既存のデータ モデルの統計的特性をどれだけ厳密に維持しているかを迅速かつ簡単に把握する必要があります。一部のユース ケースでは、現実的な製品デモ、社内トレーニング アセット、特定の AI モデル トレーニング シナリオを作成するための説明データなど、より忠実度の低い合成データが必要ですが、医療分野で患者データを合成する場合など、他のユース ケースでは高度な忠実度が必要です。後者のユースケースでは、医療会社が合成出力を使用して、下流の意思決定に情報を提供する新しい患者の洞察を特定する可能性があるため、ビジネスリーダーは、合成データが実際のビジネスの状況を正確に反映していることを確認する必要があります。
忠実度やその他の品質関連の指標を詳しく見てみましょう。
忠実
重要な指標は「忠実度」です。実際のデータおよびデータ モデルとの類似性の観点から、合成データの品質を評価します。企業は、列の分布だけでなく、他の列間の関係 (1 対 1 (単変量) と 1 対多 (多変量) の両方) についても洞察を得る必要があります。ほとんどの既存のデータ テーブルは複雑でサイズが大きいため、後者を理解することが重要です。幸いなことに、最新のニューラル ネットワークと生成 AI モデルは、データベース テーブルや時系列データにおけるこれらの複雑な関係を捉えることに優れています。忠実度メトリックは棒グラフと相関表を使用して表示され、長くなる可能性がありますが、貴重な洞察を提供します。まだ忠実度分析にアクセスできない場合は、次のようなオープンソースの Python パッケージを使用して始めることができます。 SDメトリクス.
ユーティリティ
AI モデルには効果的なトレーニングを行うために十分なデータが必要ですが、実際のデータセットの取得には時間がかかる場合があります。合成データは、機械学習モデルをトレーニングするためのより高速な代替手段を提供します。したがって、適切なチームと共有する前に、AI モデルのトレーニングにおける合成データの有用性を理解することが重要です。基本的に、このメトリックは、合成データと比較した実際のデータでトレーニングされた場合の機械学習モデルの相対的な予測精度を測定します。
公正さ
もう 1 つの重要な指標は「公平性」です。これは、企業が収集したデータセットに存在する潜在的なバイアスのために注目を集めているトピックです。既存のデータセットに偏りがある場合、合成データにも偏りが生じます。このバイアスの程度について洞察を得ることで、企業がバイアスを認識し、修正できる可能性があります。今日の合成データ ソリューションではそれほど普及しておらず、プライバシー、忠実度、ユーティリティほど重要ではありませんが、合成データのバイアスを理解することは、企業が情報に基づいた意思決定を行うのに役立ちます。
watsonx.ai で合成データを使い始める方法
AI ビルダーとデータ サイエンティストは、データベースからデータをインポートするか、ファイルをアップロードするか、IBM® watsonx.ai™ でカスタム データ スキーマを作成することにより、合成表形式データを生成できます。この統計ベースのモデルを使用すると、エッジ ケースやより大きなサンプル サイズを通じて AI トレーニング モデルの予測精度を向上させるのに役立つデータを生成できます。このデータは、クライアントのデモや従業員のトレーニング資料のリアリティを高めるために使用することもできます。
Watsonx.ai は、基盤モデルを活用した、機械学習と生成 AI のためのエンタープライズ対応の次世代 AI スタジオです。 watsonx.ai スタジオを使用すると、データ サイエンティスト、アプリケーション開発者、ビジネス アナリストを含む AI ビルダーは、従来の機械学習と新しい生成 AI 機能の両方をトレーニング、検証、調整、導入できます。 Watsonx.ai は、AI アプリケーション開発におけるコラボレーションと拡張性を促進するように設計されており、ハイブリッド クラウド環境に展開できます。
合成データ生成サービスをチェックしてください。 ワトソンx.ai いずれかによって 無料トライアルにアクセスする or 30分間の通話をスケジュールする 私たちのいずれかと ワトソンx.ai 製品スペシャリストによるガイド付きウォークスルー。
データと分析の詳細
IBM ニュースレター
最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。
今すぐ会員登録します。
その他のニュースレター
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- 私たちについて
- 加速された
- アクセス
- 接近性
- アクセス可能な
- 精度
- 正確な
- 正確にデジタル化
- 達成する
- 越えて
- 実際の
- 追加
- NEW
- さらに
- 住所
- 採用
- 養子縁組
- 進歩
- 敵対者
- 広告運用
- 後
- に対して
- AI
- AIの採用
- AIモデル
- AIトレーニング
- aiのユースケース
- アルゴリズム
- すべて
- ことができます
- 既に
- また
- 代替案
- しかし
- Amazon
- アマゾンRDS
- 間で
- amp
- an
- 分析
- アナリスト
- 分析論
- および
- どれか
- 申し込み
- アプリケーション開発
- 適切な
- です
- 記事
- 人工の
- 人工知能
- 人工知能(AI)
- AS
- 頼む
- 評価する
- 資産
- 関連する
- At
- 攻撃
- 属性
- 聴衆
- 8月
- August 2
- 著者
- 自動的に
- 利用できます
- バック
- バー
- ベース
- BE
- なぜなら
- になる
- 利点
- BEST
- ベストプラクティス
- より良いです
- の間に
- バイアス
- 偏った
- バイアス
- ブロックされた
- ブログ
- 青
- 両言語で
- 持って来る
- 広い
- ビルド
- 信頼を築く
- ビルダー
- 建物
- 内蔵
- ビジネス
- ビジネスリーダー
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- (Comma Separated Values) ボタンをクリックして、各々のジョブ実行の詳細(開始/停止時間、変数値など)のCSVファイルをダウンロードします。
- by
- 計算
- 缶
- 機能
- 捕捉した
- キャプチャ
- カーボン
- カード
- カード
- 場合
- 例
- CAT
- カテゴリー
- 一定
- 課題
- チェック
- 円
- class
- クライアント
- 密接に
- クラウド
- コード
- 環境、テクノロジーを推奨
- カラー
- コラム
- コラム
- 組み合わせる
- コマンドと
- コミュニティ
- 企業
- 会社
- 会社の
- 比べ
- 競争力のある
- 複雑さ
- コンプライアンス
- 理解する
- 包括的な
- 妥協
- 損害を受けた
- 計算
- コンピュータ
- Computer Vision
- コンピューターで生成
- 条件
- 信頼
- Connections
- 検討
- 見なさ
- 接触
- コンテナ
- 含まれています
- コンテンツ
- 続ける
- 続ける
- 貢献
- コントロール
- 正しい
- 相関
- 費用
- コスト削減
- 可能性
- 作成した
- 作成
- 重大な
- 重大な
- CSS
- カスタム
- 顧客
- 顧客データ
- Customers
- daily
- 毎日の取引
- データ
- データ漏洩
- データポイント
- データプライバシー
- データ保護
- データ品質
- データサイエンス
- データウェアハウス
- データベース
- データベースを追加しました
- データセット
- 日付
- 取引
- 数十年
- 意思決定
- 決定
- 深いです
- 深い学習
- デフォルト
- 定義
- 度
- 配信する
- デモ
- 依存関係
- 展開します
- 展開
- 展開
- 配備
- 説明
- 設計
- 希望
- 決定
- 開発者
- 開発
- 診断
- 熱心に
- 直接に
- 距離
- ディストリビューション
- do
- ドキュメント
- ありません
- すること
- ドライブ
- 原因
- 間に
- 各
- 緩和する
- 容易
- 簡単に
- 簡単に
- 経済
- エッジ(Edge)
- 効果的な
- どちら
- 出現
- 新興の
- 強調する
- 従業員
- enable
- 有効にする
- 高めます
- 強化
- 確保
- 確実に
- 確保する
- 入力します
- 企業
- 全体
- 環境
- 本質的に
- エーテル(ETH)
- 評価する
- さらに
- イベント
- EVER
- 刻々と変化する
- 進化
- Excel
- 興奮
- 展示
- 既存の
- 存在
- 出口
- 迅速化する
- 探る
- 暴露
- エクステント
- 外部
- 容易にする
- false
- スピーディー
- 速いです
- 特徴
- 感じます
- 忠実
- File
- フォロー中
- フォント
- 強制
- 幸いにも
- Foundation
- 分数
- フレームワーク
- 無料版
- 無料試用
- から
- 完全に
- さらに
- 利得
- 獲得
- 獲得
- ギャップ
- 生成する
- 生成された
- 生成
- 世代
- 生々しい
- 生成的な敵対的ネットワーク
- 生成AI
- ジェネレータ
- 取得する
- グラフ
- 把握
- グリッド
- 成長する
- 保証
- ガイド付きの
- 持っていました
- 持ってる
- 見出し
- ヘルスケア
- 高さ
- 助けます
- こちら
- ハイ
- 高品質
- より高い
- 最高
- うまくいけば
- 認定条件
- しかしながら
- HTTP
- HTTPS
- ハイブリッド
- ハイブリッドクラウド
- IBM
- ICO
- ICON
- 同一の
- 識別する
- 識別する
- 識別
- アイデンティティ
- if
- 画像
- 画像
- 想像力
- 計り知れない
- 影響
- 実装する
- 重要
- インポート
- 不可能
- 改善します
- 改善されました
- in
- その他の
- うっかり
- include
- 含ま
- 含めて
- 増える
- 増加した
- の増加
- ますます
- index
- を示し
- 個人
- 産業
- 知らせます
- 情報
- 情報に基づく
- イノベーション
- 入力
- 洞察力
- 洞察
- インテリジェンス
- 興味がある
- 内部
- インターネット
- に
- 複雑な
- 紹介します
- IT
- 繰り返し
- ITS
- 自体
- ジョブ
- JPG
- キープ
- キー
- 欠如
- 遅れ
- 大
- より大きい
- 最新の
- リーダー
- リーダーシップ
- 漏れ
- 学習
- 最低
- レベル
- 活用
- ような
- LINE
- ローカル
- ローカル
- ログイン
- 見て
- 下側
- 機械
- 機械学習
- 主流
- 維持する
- 維持
- make
- 作る
- 作成
- 管理します
- 多くの
- 市場
- 市場占有率
- マーケット
- マスク
- 材料
- 満期
- 最大幅
- 五月..
- 手段
- 措置
- メカニズム
- 方法
- メトリック
- メトリック
- 移行中
- 分
- 最小限の
- 分
- モバイル
- モデリング
- モデル
- 他には?
- 最も
- ずっと
- しなければなりません
- my
- ナビゲーション
- 必要
- ネットワーク
- ニューラル
- ニューラルネットワーク
- 新作
- ニュースレター
- 次世代
- いいえ
- ノイズ
- 何も
- 11月
- 今
- 番号
- 入手
- of
- オフ
- 提供
- オファー
- on
- ONE
- の
- 開いた
- オープンソース
- 楽観
- 最適化
- 最適化
- オプション
- オプション
- or
- 組織
- 組織
- オリジナル
- その他
- 私たちの
- でる
- 出力
- パッケージ
- ページ
- パラメータ
- 特定の
- パートナー
- 患者
- 患者データ
- パフォーマンス
- 人
- 個人的に
- PHP
- 敬虔な
- 極めて重要な
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 演奏
- プラグイン
- ポイント
- 方針
- 人気
- 人気
- 位置
- ポスト
- 潜在的な
- :
- パワード
- プラクティス
- 予測
- 予測的
- 現在
- 保存する
- を押す
- 流行している
- 防ぐ
- 主要な
- 優先する
- プライバシー
- プライバシー技術
- プライベート
- プロセス
- 処理
- プロダクト
- 進捗
- 目立つ
- プロパティ
- 守る
- 保護
- 証明できる
- プロバイダ
- は、大阪で
- 公共
- パブリッククラウド
- 購入
- Python
- 定性
- 品質
- 四半期
- 質問
- クイック
- すぐに
- 範囲
- 急速な
- むしろ
- リーディング
- リアル
- 現実の世界
- 現実的な
- 最近
- 認識する
- レッド
- 減らします
- 軽減
- 反映する
- 反映
- に対する
- の関係
- 相対
- リリース
- 信頼性
- 頼る
- 復元力
- 返信
- 表します
- 必要とする
- 必要
- 研究者
- 反応する
- 結果として
- 明らかにする
- 収入
- リスク
- リスク
- ロボット
- 堅牢な
- 職種
- ラン
- 保障措置
- 前記
- 貯蓄
- スケーラビリティ
- シナリオ
- 科学
- 科学者たち
- スコア
- 画面
- スクリプト
- 秘密
- 安全に
- セキュリティ
- Seek
- を求める
- 見て
- 送信
- 敏感な
- SEO
- 役立つ
- サービス
- セッションに
- いくつかの
- シェアする
- シェアリング
- すべき
- 示す
- 視力
- 重要
- ウェブサイト
- サイズ
- サイズ
- 小さい
- より小さい
- ソフトウェア
- 固体
- 溶液
- ソリューション
- 一部
- 何か
- 洗練された
- ソース
- 専門家
- 特定の
- 特に
- スピード
- スポンサー
- 正方形
- ステークホルダー
- start
- 開始
- 統計的
- ステップ
- まだ
- 構造化された
- 研究
- 申し込む
- そのような
- 十分な
- Survey
- SVG
- 合成
- 合成
- 合成データ
- システム
- 取る
- Talk
- ターゲット
- タスク
- チーム
- チーム
- テクニック
- 条件
- 三次
- test
- テスト
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 世界
- アプリ環境に合わせて
- それら
- テーマ
- その後
- そこ。
- それによって
- したがって、
- ボーマン
- 彼ら
- 考える
- サードパーティ
- この
- 考え
- 思考リーダーシップ
- 介して
- 時間
- 時間がかかる
- 役職
- 〜へ
- 今日の
- 一緒に
- あまりに
- 豊富なツール群
- top
- トピック
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- トランザクションの
- 取引
- 変形させる
- 変換
- トランスフォーマー
- 透明性
- トランスペアレント
- トレンド
- トライアル
- 数兆
- true
- 信頼
- さえずり
- 2
- type
- 一般的に
- 受ける
- わかる
- 理解する
- 更新版
- アップロード
- URL
- つかいます
- 使用事例
- 中古
- users
- ユーティリティ
- 検証
- 貴重な
- 価値観
- 多様
- さまざまな
- ベンダー
- ビデオ
- ビジョン
- ヴイエムウェア
- 脆弱な
- W
- 倉庫
- 令状
- ました
- we
- いつ
- かどうか
- which
- while
- より広い
- 意志
- 以内
- 無し
- WordPress
- 言葉
- 仕事
- ワーキング
- 世界
- 世界の
- 書かれた
- 年
- 貴社
- あなたの
- ゼファーネット