Avec l’émergence de nouvelles avancées et applications dans les modèles d’apprentissage automatique et l’intelligence artificielle, notamment l’IA générative, les réseaux adverses génératifs, la vision par ordinateur et les transformateurs, de nombreuses entreprises cherchent à relever leurs défis les plus urgents en matière de données du monde réel en utilisant les deux types de données synthétiques : structuré et non structuré. Les types de données synthétiques structurées sont quantitatives et incluent des données tabulaires, telles que des nombres ou des valeurs, tandis que les types de données synthétiques non structurées sont qualitatives et incluent du texte, des images et des vidéos. Les chefs d'entreprise et les data scientists de divers secteurs soulignent la nécessité d'une nouvelle synthèse de données pour combler les lacunes en matière de données, protéger les informations sensibles et accélérer leur mise sur le marché. Ils identifient et explorent déjà plusieurs cas d’utilisation réels des données synthétiques, tels que :
- Générer des données tabulaires synthétiques pour augmenter la taille de l'échantillon et les cas limites. Vous pouvez combiner ces données avec des ensembles de données réels pour améliorer la formation des modèles d'IA et la précision prédictive.
- Création de données de test synthétiques pour accélérer les tests, l'optimisation et la validation de nouvelles applications et fonctionnalités.
- Explorer des scénarios de simulation ou de nouveaux événements commerciaux à l'aide de données synthétiques synthétisées à partir de simulations basées sur des agents.
- Utiliser des données synthétiques pour empêcher l’exposition de données sensibles dans les algorithmes d’apprentissage automatique.
- Partager et monétiser une réplique synthétique de haute qualité et protégée par la confidentialité avec des parties prenantes internes ou des partenaires commerciaux externes.
Cela dit, la synthèse des données offre davantage de protection contre les techniques traditionnelles de confidentialité et d'anonymisation des données (pensez au masquage), tout en préservant mieux l'utilité des données. Cependant, il existe encore un manque de confiance parmi les chefs d’entreprise. Pour instaurer cette confiance et favoriser une large adoption, les fournisseurs d’outils de génération de données synthétiques devront répondre à deux questions cruciales que se posent de nombreux dirigeants d’entreprise : Les données synthétiques exposeront-elles mon entreprise à des risques supplémentaires en matière de confidentialité des données ? Avec quelle précision les données synthétiques reflètent-elles mes données existantes ?
Heureusement, il existe déjà de bonnes pratiques pour aider les entreprises à évaluer ces questions et, espérons-le, à renforcer la confiance dont elles ont besoin dans les données synthétiques pour devenir plus compétitives sur les marchés en constante évolution d'aujourd'hui. Nous allons jeter un coup d'oeil.
Garantir la confidentialité des données synthétiques
Bien qu'elles soient considérées comme des données artificielles ou des « fausses données » parce qu'elles sont générées par ordinateur plutôt que créées par des événements réels (comme un achat client, une connexion Internet ou un diagnostic de patient), les données synthétiques peuvent néanmoins révéler des informations personnelles identifiables (PII) lorsqu'elles sont utilisées. comme données de formation pour les modèles d’IA. Par exemple, si une entreprise donne la priorité à l'exactitude lors de la génération de données synthétiques, le résultat obtenu peut inclure par inadvertance trop d'attributs personnellement identifiables, augmentant ainsi l'exposition aux risques liés à la confidentialité de l'entreprise, sans le savoir. De plus, à mesure que les techniques de modélisation deviennent de plus en plus sophistiquées dans la science des données, y compris l'apprentissage profond et les modèles prédictifs et génératifs, les entreprises et les fournisseurs doivent travailler avec diligence pour empêcher les connexions involontaires qui pourraient divulguer l'identité d'une personne et l'exposer à des attaques de tiers.
Heureusement, les entreprises intéressées par les données synthétiques peuvent prendre des mesures pour réduire les risques liés à la confidentialité :
Conservez vos données là où elles se trouvent
Alors que de nombreuses entreprises migrent leurs applications logicielles existantes vers le cloud pour réaliser des économies, améliorer les performances et l'évolutivité, les déploiements sur site continuent de jouer un rôle central dans l'amélioration de la confidentialité et de la protection. Cela est en partie vrai pour les données synthétiques. Lorsqu'il s'agit de données entièrement synthétiques (données générées sans données existantes pour la formation du modèle) ou de données synthétiques qui ne contiennent aucune information confidentielle ou PII, le risque associé à l'utilisation d'une méthode de déploiement dans un cloud public est minime. Cependant, les entreprises devraient envisager des déploiements sur site lorsque leurs données synthétiques dépendent de données sensibles existantes. Bien que les fournisseurs de cloud tiers offrent de solides protections intégrées en matière de sécurité et de confidentialité, l'envoi et le stockage de données client PII sensibles dans de tels cloud peuvent exposer votre organisation à des risques potentiels et peuvent être bloqués par votre équipe de confidentialité.
Avoir un contrôle et une protection robuste
Tous les cas d’utilisation de données synthétiques n’exigent pas la confidentialité, mais certains le font. Par conséquent, les responsables du risque, de la sécurité et de la conformité devraient mettre en œuvre un mécanisme pour contrôler le niveau souhaité de risque en matière de confidentialité pendant le processus de génération de données synthétiques. La « confidentialité différentielle » est l'un de ces mécanismes, permettant aux data scientists et aux équipes de gestion du risque de gérer le niveau de confidentialité souhaité (généralement dans une plage epsilon de 1 à 10, 1 représentant le niveau de confidentialité le plus élevé). Cette méthode masque la contribution de tout individu, ce qui rend impossible de déduire des informations spécifiques sur une personne, notamment si ses informations ont été utilisées. Il identifie automatiquement les points de données individuels vulnérables et introduit du « bruit » pour obscurcir leurs informations spécifiques. Bien que l’ajout de bruit réduise légèrement la précision de sortie (c’est le « coût » de la confidentialité différentielle), cela ne compromet pas l’utilité ou la qualité des données par rapport aux techniques traditionnelles de masquage des données. En d’autres termes, un ensemble de données synthétiques différentiellement privées reflète toujours les propriétés statistiques de votre ensemble de données réel. De plus, l’utilisation de techniques de confidentialité différentielle présente des avantages, notamment une protection robuste des données contre les attaques potentielles contre la vie privée, des garanties de confidentialité prouvables concernant le risque cumulatif lié aux publications successives de données et la transparence des données, car il n’est pas nécessaire de garder secrets les calculs ou les paramètres privés différentiels.
Avoir un aperçu des mesures liées à la confidentialité
Lorsque la confidentialité différentielle n’est pas une option, les utilisateurs professionnels doivent garder un œil sur les mesures liées à la confidentialité, pour les aider à comprendre l’étendue de leur exposition à la vie privée. Voici deux mesures courantes qui, bien que non exhaustives, servent de base solide :
- Score de fuite: Ce score mesure la fraction de lignes de l'ensemble de données synthétiques qui sont identiques à l'ensemble de données d'origine. Même si un ensemble de données synthétiques peut atteindre une grande précision, il pourrait compromettre la confidentialité en incluant une trop grande quantité de données originales. Une fuite de données se produit lorsque les données originales ou les données réelles contiennent des informations sur la cible, mais ces données ne seront pas accessibles lorsque le modèle d'IA est utilisé à des fins de prédiction ou d'analyse.
- Score de proximité: La proximité est déterminée en calculant la distance entre les données originales et les ensembles de données synthétiques. Une distance plus petite indique un risque de confidentialité plus élevé, car elle facilite l'isolement de certaines lignes des données tabulaires synthétiques.
Évaluation de la qualité des données synthétiques
L’adoption à l’échelle de l’entreprise nécessite également que les dirigeants d’entreprise et les data scientists aient confiance dans la qualité des données synthétiques produites. Plus précisément, ils doivent comprendre rapidement et facilement dans quelle mesure les données synthétiques conservent les propriétés statistiques de leur modèle de données existant. Alors que certains cas d'utilisation nécessitent des données synthétiques de moindre fidélité, comme des données illustratives pour créer des démonstrations de produits réalistes, des ressources de formation internes ou certains scénarios de formation de modèles d'IA, d'autres cas d'utilisation nécessitent un degré élevé de fidélité, comme lors de la synthèse de données de patients dans le secteur de la santé. Dans ce dernier cas d’utilisation, étant donné qu’une entreprise de soins de santé peut utiliser les résultats synthétiques pour identifier de nouvelles informations sur les patients qui éclairent la prise de décision en aval, les dirigeants d’entreprise doivent s’assurer que les données synthétiques reflètent avec précision les conditions réelles de leur activité.
Examinons de plus près la fidélité et d'autres mesures liées à la qualité :
Fidelity
Une mesure importante est la « fidélité ». Il évalue la qualité des données synthétiques en termes de similarité avec les données réelles et le modèle de données. Les entreprises doivent avoir un aperçu non seulement de la distribution des colonnes, mais également des relations entre les autres colonnes, à la fois un à un (univarié) et un à plusieurs (multivarié). Comprendre ce dernier est crucial en raison de la complexité et de la taille de la plupart des tableaux de données existants. Heureusement, les derniers réseaux de neurones et modèles d’IA générative excellent dans la capture de ces relations complexes dans des tables de bases de données et des données de séries chronologiques. Les mesures de fidélité sont présentées à l'aide de graphiques à barres et de tableaux de corrélation qui, bien que potentiellement longs, offrent des informations précieuses. Si vous n'avez pas encore accès à l'analyse de fidélité, vous pouvez commencer par utiliser des packages Python open source, tels que Métriques SD.
utilitaire
Les modèles d'IA nécessitent suffisamment de données pour une formation efficace et l'obtention d'ensembles de données réels peut prendre beaucoup de temps. Les données synthétiques offrent une alternative plus rapide pour former des modèles d’apprentissage automatique. Il est donc important de comprendre l’utilité des données synthétiques dans la formation des modèles d’IA avant de les partager avec les équipes appropriées. Essentiellement, cette métrique mesure la précision prédictive relative d’un modèle d’apprentissage automatique lorsqu’il est formé sur des données réelles par rapport à des données synthétiques.
Équité
Une autre mesure importante est « l’équité », un sujet qui gagne en importance en raison des biais potentiels présents dans les ensembles de données collectés par les entreprises. Si l’ensemble de données existant présente un biais, les données synthétiques le seront également. Mieux comprendre l’ampleur de ce biais peut aider les entreprises à le reconnaître et éventuellement à le corriger. Même si cela n'est pas aussi répandu dans les solutions de données synthétiques actuelles et n'est pas aussi critique que la confidentialité, la fidélité ou l'utilité, comprendre les biais de vos données synthétiques aidera les entreprises à prendre des décisions éclairées.
Comment démarrer avec des données synthétiques dans watsonx.ai
Les créateurs d'IA et les data scientists peuvent générer des données tabulaires synthétiques en important des données à partir d'une base de données, en téléchargeant un fichier ou en créant un schéma de données personnalisé dans IBM® watsonx.ai™. Ce modèle basé sur des statistiques peut être utilisé pour générer des données afin d'aider à améliorer la précision prédictive des modèles de formation d'IA grâce à des cas extrêmes et à des échantillons de plus grande taille. Ces données peuvent également être utilisées pour améliorer le réalisme des démonstrations des clients et des supports de formation des employés.
Watsonx.ai est un studio d'IA de nouvelle génération prêt pour l'entreprise pour l'apprentissage automatique et l'IA générative, alimenté par des modèles de base. Avec le studio watsonx.ai, les créateurs d'IA, notamment les data scientists, les développeurs d'applications et les analystes commerciaux, peuvent former, valider, régler et déployer à la fois l'apprentissage automatique traditionnel et de nouvelles capacités d'IA générative. Watsonx.ai est conçu pour faciliter la collaboration et l'évolutivité dans le développement d'applications d'IA et peut être déployé dans des environnements de cloud hybride.
Découvrez notre service de générateur de données synthétiques sur watsonx.ai soit par accéder à notre essai gratuit or planifier un appel de 30 minutes avec l'un de nos watsonx.ai spécialistes produits pour une visite guidée.
Découvrez les avantages de watsonx.ai
Débloquez votre essai gratuit aujourd'hui
En savoir plus sur les données et analyses
Bulletins d'information IBM
Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.
S'abonner
Plus de newsletters
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
- PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
- PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
- PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
- La source: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/
- :possède
- :est
- :ne pas
- :où
- $UP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- Qui sommes-nous
- accéléré
- accès
- accessibilité
- accessible
- précision
- Avec cette connaissance vient le pouvoir de prendre
- avec précision
- atteindre
- à travers
- présenter
- ajoutant
- Supplémentaire
- En outre
- propos
- adopter
- Adoption
- avances
- contradictoire
- Numérique
- Après
- à opposer à
- AI
- Adoption de l'IA
- Modèles AI
- Formation IA
- cas d'utilisation de l'IA
- algorithmes
- Tous
- permet
- déjà
- aussi
- alternative
- Bien que
- Amazon
- Amazon RDS
- parmi
- amp
- an
- selon une analyse de l’Université de Princeton
- Analystes
- analytique
- ainsi que les
- tous
- Application
- Le développement d'applications
- applications
- approprié
- SONT
- article
- artificiel
- intelligence artificielle
- Intelligence artificielle (AI)
- AS
- demander
- évalue
- Outils
- associé
- At
- Attaques
- attributs
- public
- Août
- Août 2
- auteur
- automatiquement
- disponibles
- RETOUR
- barre
- basé
- BE
- car
- devenez
- before
- avantages.
- LES MEILLEURS
- les meilleures pratiques
- Améliorée
- jusqu'à XNUMX fois
- biais
- biaisé
- biais
- bloqué
- Blog
- Bleu
- tous les deux
- apporter
- vaste
- construire
- construire la confiance
- constructeurs
- Développement
- intégré
- la performance des entreprises
- Des chefs d'entreprise
- entreprises
- mais
- bouton (dans la fenêtre de contrôle qui apparaît maintenant)
- by
- le calcul
- CAN
- capacités
- capturé
- Capturer
- carbone
- carte
- Cartes
- maisons
- cas
- CHAT
- Catégories
- certaines
- globaux
- vérifier
- cercles
- classe
- client
- étroitement
- le cloud
- code
- collaboration
- Couleur
- Colonne
- Colonnes
- combiner
- Commun
- Communautés
- Sociétés
- Société
- De l'entreprise
- par rapport
- compétitif
- complexité
- conformité
- comprendre
- complet
- compromis
- Compromise
- calcul
- ordinateur
- Vision par ordinateur
- généré par ordinateur
- conditions
- confiance
- Connexions
- Considérer
- considéré
- contact
- Contenant
- contient
- contenu
- continuer
- continue
- contribution
- des bactéries
- correct
- Corrélation
- Prix
- les économies de coûts
- pourriez
- créée
- La création
- critique
- crucial
- CSS
- Customiser
- des clients
- données client
- Clients
- Tous les jours
- transactions quotidiennes
- données
- fuite de données
- points de données
- confidentialité des données
- protection des données
- qualité des données
- science des données
- entrepôt de données
- Base de données
- bases de données
- ensembles de données
- Date
- traitement
- décennies
- La prise de décision
- décisions
- profond
- l'apprentissage en profondeur
- Réglage par défaut
- définitions
- Degré
- livrer
- Démos
- dépendances
- déployer
- déployé
- déploiement
- déploiements
- la description
- un
- voulu
- déterminé
- mobiles
- Développement
- diagnostic
- diligemment
- directement
- distance
- distributions
- do
- document
- faire
- motivation
- deux
- pendant
- chacun
- facilité
- plus facilement
- même
- Easy
- économie
- Edge
- Efficace
- non plus
- émergence
- économies émergentes.
- mettre en relief
- Employés
- permettre
- permettant
- de renforcer
- améliorer
- assurer
- Assure
- assurer
- Entrer
- entreprises
- Tout
- environnements
- essentiellement
- Ether (ETH)
- évaluer
- Pourtant, la
- événements
- JAMAIS
- en constante évolution
- évolution
- Excel
- Excitation
- expositions
- existant
- existe
- Sortie
- accélérer
- Explorer
- Exposition
- ampleur
- externe
- faciliter
- non
- RAPIDE
- plus rapide
- Fonctionnalités:
- ressentir
- fidélité
- Déposez votre dernière attestation
- suivre
- Abonnement
- polices
- Pour
- forçant
- Heureusement
- Fondation
- fraction
- cadres
- Gratuit
- essai gratuit
- de
- d’étiquettes électroniques entièrement
- En outre
- Gain
- gagné
- gagner
- lacunes
- générer
- généré
- générateur
- génération
- génératif
- réseaux accusatoires génératifs
- IA générative
- générateur
- obtenez
- graphiques
- saisir
- Grille
- Croître
- garantit
- guidé
- ait eu
- Vous avez
- Titre
- la médecine
- la taille
- vous aider
- ici
- Haute
- de haute qualité
- augmentation
- le plus élevé
- Avec optimisme
- Comment
- Cependant
- http
- HTTPS
- Hybride
- nuage hybride
- IBM
- ICO
- ICON
- identique
- identifie
- identifier
- identifier
- Identite
- if
- image
- satellite
- imagination
- immense
- Impact
- Mettre en oeuvre
- important
- l'importation
- impossible
- améliorer
- amélioré
- in
- Dans d'autres
- par inadvertance
- comprendre
- inclut
- Y compris
- Améliore
- increased
- croissant
- de plus en plus
- indice
- indique
- individuel
- secteurs
- informer
- d'information
- Actualités
- innovations
- entrées
- perspicacité
- idées.
- instance
- Intelligence
- intéressé
- interne
- Internet
- développement
- complexe
- Introduit
- IT
- itération
- SES
- lui-même
- Emploi
- jpg
- XNUMX éléments à
- ACTIVITES
- Peindre
- calorifugeage
- gros
- plus importantes
- Nouveautés
- dirigeants
- Leadership
- fuite
- apprentissage
- au
- Niveau
- en tirant parti
- comme
- Gamme
- locales
- local
- vous connecter
- Style
- baisser
- click
- machine learning
- Courant dominant
- maintenir
- maintient
- a prendre une
- FAIT DU
- Fabrication
- gérer
- de nombreuses
- Marché
- part de marché
- Marchés
- Masques
- matières premières.
- maturité
- largeur maximale
- Mai..
- veux dire
- les mesures
- mécanisme
- méthode
- métrique
- Métrique
- migrer
- m.
- minimal
- minutes
- Breeze Mobile
- modèle
- modélisation statistique
- numériques jumeaux (digital twin models)
- PLUS
- (en fait, presque toutes)
- beaucoup
- must
- my
- Navigation
- Besoin
- réseaux
- Neural
- les réseaux de neurones
- Nouveauté
- Newsletters
- La prochaine génération
- aucune
- Bruit
- rien
- Novembre
- maintenant
- numéros
- obtention
- of
- de rabais
- code
- Offres Speciales
- on
- ONE
- uniquement
- ouvert
- open source
- optimisme
- à mettre en œuvre pour gérer une entreprise rentable. Ce guide est basé sur trois décennies d'expérience
- optimisé
- Option
- Options
- or
- organisation
- organisations
- original
- Autre
- nos
- ande
- sortie
- Forfaits
- page
- paramètres
- particulier
- partenaires,
- patientforward
- données patient
- performant
- personne
- Personnellement
- PHP
- pii
- pivot
- Place
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Jouez
- joué
- plug-in
- des notes bonus
- politique
- Populaire
- popularité
- position
- Post
- défaillances
- l'éventualité
- alimenté
- pratiques
- prédiction
- prédictive
- représentent
- conservation
- pressant
- répandue
- empêcher
- primaire
- priorise
- la confidentialité
- Techniques de confidentialité
- Privé
- processus
- traitement
- Produit
- Progrès
- importance
- propriétés
- protéger
- protection
- prouvable
- fournisseurs
- fournit
- public
- cloud public
- achat
- Python
- qualitatif
- qualité
- quantitatif
- Trimestre
- fréquemment posées
- Rapide
- vite.
- gamme
- Nos tests de diagnostic produisent des résultats rapides et précis sans nécessiter d'équipement de laboratoire complexe et coûteux,
- plutôt
- en cours
- réal
- monde réel
- réaliste
- récent
- reconnaître
- Rouge
- réduire
- réduit
- refléter
- reflète
- en ce qui concerne
- Les relations
- relatif
- de Presse
- fiabilité
- compter
- Renaissance
- répondre
- représentation
- exigent
- a besoin
- chercheurs
- sensible
- résultant
- révéler
- de revenus
- Analyse
- risques
- Collaboratif
- robuste
- Rôle
- Courir
- garanties
- Saïd
- Épargnes
- Évolutivité
- scénarios
- Sciences
- scientifiques
- But
- pour écran
- scripts
- secret
- sécurisé
- sécurité
- sur le lien
- Chercher
- recherche
- vu
- envoi
- sensible
- seo
- besoin
- service
- set
- plusieurs
- Partager
- partage
- devrait
- montré
- Vue
- significative
- site
- Taille
- tailles
- petit
- faibles
- Logiciels
- solide
- sur mesure
- Solutions
- quelques
- quelque chose
- sophistiqué
- Identifier
- spécialistes
- groupe de neurones
- spécifiquement
- vitesse
- Sponsorisé
- carrés
- parties prenantes
- Commencer
- j'ai commencé
- statistique
- Étapes
- Encore
- structuré
- studio
- inscrire
- tel
- suffisant
- Sondage
- SVG
- synthèse
- haute
- données synthétiques
- Système
- Prenez
- discutons-en
- Target
- tâches
- équipe
- équipes
- techniques
- conditions
- tertiaire
- tester
- Essais
- texte
- que
- qui
- Les
- le monde
- leur
- Les
- thème
- puis
- Là.
- ainsi
- donc
- Ces
- l'ont
- penser
- des tiers.
- this
- pensée
- leadership éclairé
- Avec
- fiable
- long
- Titre
- à
- aujourd'hui
- ensemble
- trop
- les outils
- top
- sujet
- traditionnel
- Train
- qualifié
- Formation
- transactionnel
- Transactions
- transformation
- transformé
- transformateurs
- Transparence
- communication
- Trends
- procès
- trillions
- oui
- La confiance
- deux
- type
- types
- typiquement
- en cours
- comprendre
- compréhension
- Actualités
- Téléchargement
- URL
- utilisé
- cas d'utilisation
- d'utiliser
- utilisateurs
- en utilisant
- utilitaire
- VALIDER
- validation
- Précieux
- Valeurs
- variété
- divers
- fournisseurs
- Vidéo
- vision
- vmware
- Vulnérable
- W
- Entrepots
- Mandat
- était
- we
- quand
- que
- qui
- tout en
- plus large
- sera
- comprenant
- dans les
- sans
- Outils de gestion
- des mots
- activités principales
- de travail
- world
- monde
- code écrit
- années
- you
- Votre
- zéphyrnet