Génération de données synthétiques : instaurer la confiance en garantissant la confidentialité et la qualité - IBM Blog

Republié par Platon

Suiveurs: 0

Avec l’émergence de nouvelles avancées et applications dans les modèles d’apprentissage automatique et l’intelligence artificielle, notamment l’IA générative, les réseaux adverses génératifs, la vision par ordinateur et les transformateurs, de nombreuses entreprises cherchent à relever leurs défis les plus urgents en matière de données du monde réel en utilisant les deux types de données synthétiques : structuré et non structuré. Les types de données synthétiques structurées sont quantitatives et incluent des données tabulaires, telles que des nombres ou des valeurs, tandis que les types de données synthétiques non structurées sont qualitatives et incluent du texte, des images et des vidéos. Les chefs d'entreprise et les data scientists de divers secteurs soulignent la nécessité d'une nouvelle synthèse de données pour combler les lacunes en matière de données, protéger les informations sensibles et accélérer leur mise sur le marché. Ils identifient et explorent déjà plusieurs cas d’utilisation réels des données synthétiques, tels que :

Générer des données tabulaires synthétiques pour augmenter la taille de l'échantillon et les cas limites. Vous pouvez combiner ces données avec des ensembles de données réels pour améliorer la formation des modèles d'IA et la précision prédictive.
Création de données de test synthétiques pour accélérer les tests, l'optimisation et la validation de nouvelles applications et fonctionnalités.
Explorer des scénarios de simulation ou de nouveaux événements commerciaux à l'aide de données synthétiques synthétisées à partir de simulations basées sur des agents.
Utiliser des données synthétiques pour empêcher l’exposition de données sensibles dans les algorithmes d’apprentissage automatique.
Partager et monétiser une réplique synthétique de haute qualité et protégée par la confidentialité avec des parties prenantes internes ou des partenaires commerciaux externes.

Cela dit, la synthèse des données offre davantage de protection contre les techniques traditionnelles de confidentialité et d'anonymisation des données (pensez au masquage), tout en préservant mieux l'utilité des données. Cependant, il existe encore un manque de confiance parmi les chefs d’entreprise. Pour instaurer cette confiance et favoriser une large adoption, les fournisseurs d’outils de génération de données synthétiques devront répondre à deux questions cruciales que se posent de nombreux dirigeants d’entreprise : Les données synthétiques exposeront-elles mon entreprise à des risques supplémentaires en matière de confidentialité des données ? Avec quelle précision les données synthétiques reflètent-elles mes données existantes ?

Heureusement, il existe déjà de bonnes pratiques pour aider les entreprises à évaluer ces questions et, espérons-le, à renforcer la confiance dont elles ont besoin dans les données synthétiques pour devenir plus compétitives sur les marchés en constante évolution d'aujourd'hui. Nous allons jeter un coup d'oeil.

Garantir la confidentialité des données synthétiques

Bien qu'elles soient considérées comme des données artificielles ou des « fausses données » parce qu'elles sont générées par ordinateur plutôt que créées par des événements réels (comme un achat client, une connexion Internet ou un diagnostic de patient), les données synthétiques peuvent néanmoins révéler des informations personnelles identifiables (PII) lorsqu'elles sont utilisées. comme données de formation pour les modèles d’IA. Par exemple, si une entreprise donne la priorité à l'exactitude lors de la génération de données synthétiques, le résultat obtenu peut inclure par inadvertance trop d'attributs personnellement identifiables, augmentant ainsi l'exposition aux risques liés à la confidentialité de l'entreprise, sans le savoir. De plus, à mesure que les techniques de modélisation deviennent de plus en plus sophistiquées dans la science des données, y compris l'apprentissage profond et les modèles prédictifs et génératifs, les entreprises et les fournisseurs doivent travailler avec diligence pour empêcher les connexions involontaires qui pourraient divulguer l'identité d'une personne et l'exposer à des attaques de tiers.

Heureusement, les entreprises intéressées par les données synthétiques peuvent prendre des mesures pour réduire les risques liés à la confidentialité :

Conservez vos données là où elles se trouvent

Alors que de nombreuses entreprises migrent leurs applications logicielles existantes vers le cloud pour réaliser des économies, améliorer les performances et l'évolutivité, les déploiements sur site continuent de jouer un rôle central dans l'amélioration de la confidentialité et de la protection. Cela est en partie vrai pour les données synthétiques. Lorsqu'il s'agit de données entièrement synthétiques (données générées sans données existantes pour la formation du modèle) ou de données synthétiques qui ne contiennent aucune information confidentielle ou PII, le risque associé à l'utilisation d'une méthode de déploiement dans un cloud public est minime. Cependant, les entreprises devraient envisager des déploiements sur site lorsque leurs données synthétiques dépendent de données sensibles existantes. Bien que les fournisseurs de cloud tiers offrent de solides protections intégrées en matière de sécurité et de confidentialité, l'envoi et le stockage de données client PII sensibles dans de tels cloud peuvent exposer votre organisation à des risques potentiels et peuvent être bloqués par votre équipe de confidentialité.

Avoir un contrôle et une protection robuste

Tous les cas d’utilisation de données synthétiques n’exigent pas la confidentialité, mais certains le font. Par conséquent, les responsables du risque, de la sécurité et de la conformité devraient mettre en œuvre un mécanisme pour contrôler le niveau souhaité de risque en matière de confidentialité pendant le processus de génération de données synthétiques. La « confidentialité différentielle » est l'un de ces mécanismes, permettant aux data scientists et aux équipes de gestion du risque de gérer le niveau de confidentialité souhaité (généralement dans une plage epsilon de 1 à 10, 1 représentant le niveau de confidentialité le plus élevé). Cette méthode masque la contribution de tout individu, ce qui rend impossible de déduire des informations spécifiques sur une personne, notamment si ses informations ont été utilisées. Il identifie automatiquement les points de données individuels vulnérables et introduit du « bruit » pour obscurcir leurs informations spécifiques. Bien que l’ajout de bruit réduise légèrement la précision de sortie (c’est le « coût » de la confidentialité différentielle), cela ne compromet pas l’utilité ou la qualité des données par rapport aux techniques traditionnelles de masquage des données. En d’autres termes, un ensemble de données synthétiques différentiellement privées reflète toujours les propriétés statistiques de votre ensemble de données réel. De plus, l’utilisation de techniques de confidentialité différentielle présente des avantages, notamment une protection robuste des données contre les attaques potentielles contre la vie privée, des garanties de confidentialité prouvables concernant le risque cumulatif lié aux publications successives de données et la transparence des données, car il n’est pas nécessaire de garder secrets les calculs ou les paramètres privés différentiels.

Avoir un aperçu des mesures liées à la confidentialité

Lorsque la confidentialité différentielle n’est pas une option, les utilisateurs professionnels doivent garder un œil sur les mesures liées à la confidentialité, pour les aider à comprendre l’étendue de leur exposition à la vie privée. Voici deux mesures courantes qui, bien que non exhaustives, servent de base solide :

Score de fuite: Ce score mesure la fraction de lignes de l'ensemble de données synthétiques qui sont identiques à l'ensemble de données d'origine. Même si un ensemble de données synthétiques peut atteindre une grande précision, il pourrait compromettre la confidentialité en incluant une trop grande quantité de données originales. Une fuite de données se produit lorsque les données originales ou les données réelles contiennent des informations sur la cible, mais ces données ne seront pas accessibles lorsque le modèle d'IA est utilisé à des fins de prédiction ou d'analyse.
Score de proximité: La proximité est déterminée en calculant la distance entre les données originales et les ensembles de données synthétiques. Une distance plus petite indique un risque de confidentialité plus élevé, car elle facilite l'isolement de certaines lignes des données tabulaires synthétiques.

Évaluation de la qualité des données synthétiques

L’adoption à l’échelle de l’entreprise nécessite également que les dirigeants d’entreprise et les data scientists aient confiance dans la qualité des données synthétiques produites. Plus précisément, ils doivent comprendre rapidement et facilement dans quelle mesure les données synthétiques conservent les propriétés statistiques de leur modèle de données existant. Alors que certains cas d'utilisation nécessitent des données synthétiques de moindre fidélité, comme des données illustratives pour créer des démonstrations de produits réalistes, des ressources de formation internes ou certains scénarios de formation de modèles d'IA, d'autres cas d'utilisation nécessitent un degré élevé de fidélité, comme lors de la synthèse de données de patients dans le secteur de la santé. Dans ce dernier cas d’utilisation, étant donné qu’une entreprise de soins de santé peut utiliser les résultats synthétiques pour identifier de nouvelles informations sur les patients qui éclairent la prise de décision en aval, les dirigeants d’entreprise doivent s’assurer que les données synthétiques reflètent avec précision les conditions réelles de leur activité.

Examinons de plus près la fidélité et d'autres mesures liées à la qualité :

Fidelity

Une mesure importante est la « fidélité ». Il évalue la qualité des données synthétiques en termes de similarité avec les données réelles et le modèle de données. Les entreprises doivent avoir un aperçu non seulement de la distribution des colonnes, mais également des relations entre les autres colonnes, à la fois un à un (univarié) et un à plusieurs (multivarié). Comprendre ce dernier est crucial en raison de la complexité et de la taille de la plupart des tableaux de données existants. Heureusement, les derniers réseaux de neurones et modèles d’IA générative excellent dans la capture de ces relations complexes dans des tables de bases de données et des données de séries chronologiques. Les mesures de fidélité sont présentées à l'aide de graphiques à barres et de tableaux de corrélation qui, bien que potentiellement longs, offrent des informations précieuses. Si vous n'avez pas encore accès à l'analyse de fidélité, vous pouvez commencer par utiliser des packages Python open source, tels que Métriques SD.

utilitaire

Les modèles d'IA nécessitent suffisamment de données pour une formation efficace et l'obtention d'ensembles de données réels peut prendre beaucoup de temps. Les données synthétiques offrent une alternative plus rapide pour former des modèles d’apprentissage automatique. Il est donc important de comprendre l’utilité des données synthétiques dans la formation des modèles d’IA avant de les partager avec les équipes appropriées. Essentiellement, cette métrique mesure la précision prédictive relative d’un modèle d’apprentissage automatique lorsqu’il est formé sur des données réelles par rapport à des données synthétiques.

Équité

Une autre mesure importante est « l’équité », un sujet qui gagne en importance en raison des biais potentiels présents dans les ensembles de données collectés par les entreprises. Si l’ensemble de données existant présente un biais, les données synthétiques le seront également. Mieux comprendre l’ampleur de ce biais peut aider les entreprises à le reconnaître et éventuellement à le corriger. Même si cela n'est pas aussi répandu dans les solutions de données synthétiques actuelles et n'est pas aussi critique que la confidentialité, la fidélité ou l'utilité, comprendre les biais de vos données synthétiques aidera les entreprises à prendre des décisions éclairées.

Comment démarrer avec des données synthétiques dans watsonx.ai

Les créateurs d'IA et les data scientists peuvent générer des données tabulaires synthétiques en important des données à partir d'une base de données, en téléchargeant un fichier ou en créant un schéma de données personnalisé dans IBM® watsonx.ai™. Ce modèle basé sur des statistiques peut être utilisé pour générer des données afin d'aider à améliorer la précision prédictive des modèles de formation d'IA grâce à des cas extrêmes et à des échantillons de plus grande taille. Ces données peuvent également être utilisées pour améliorer le réalisme des démonstrations des clients et des supports de formation des employés.

Watsonx.ai est un studio d'IA de nouvelle génération prêt pour l'entreprise pour l'apprentissage automatique et l'IA générative, alimenté par des modèles de base. Avec le studio watsonx.ai, les créateurs d'IA, notamment les data scientists, les développeurs d'applications et les analystes commerciaux, peuvent former, valider, régler et déployer à la fois l'apprentissage automatique traditionnel et de nouvelles capacités d'IA générative. Watsonx.ai est conçu pour faciliter la collaboration et l'évolutivité dans le développement d'applications d'IA et peut être déployé dans des environnements de cloud hybride.

Découvrez notre service de générateur de données synthétiques sur watsonx.ai soit par accéder à notre essai gratuit or planifier un appel de 30 minutes avec l'un de nos watsonx.ai spécialistes produits pour une visite guidée.

Découvrez les avantages de watsonx.ai

Débloquez votre essai gratuit aujourd'hui

Données synthétiques sur IBM watsonx.ai, Chef de produit

En savoir plus sur les données et analyses

28 novembre 2023

IBM Db2 est désormais disponible sur Amazon RDS

4 min lire - IBM® Db2® connaît une renaissance. Nous ressentons de l'optimisme et de l'enthousiasme lorsque nous parlons à nos clients et partenaires commerciaux. Et nous le voyons dans nos chiffres : trimestre après trimestre, Db2 continue d'augmenter son chiffre d'affaires et de gagner des parts de marché. Les clients font plus que jamais confiance à Db2 pour exécuter leurs applications et charges de travail critiques. Ces applications font tourner l’économie mondiale. Db2 s'intègre profondément et assure directement le traitement rapide, sécurisé et précis de milliards de transactions quotidiennes dans les domaines financiers…

28 novembre 2023

Tirer parti des frameworks d'IA open source populaires pour intégrer l'IA dans les applications IBM Z et IBM LinuxONE

2 min lire - Open source et intelligence artificielle Les logiciels open source ont eu un impact significatif sur le monde de l’intelligence artificielle (IA) et ont joué un rôle clé dans son évolution. L’accessibilité à un public plus large, les itérations rapides et la collaboration accrue entre les développeurs, les data scientists, les chercheurs et l’ensemble de la communauté de l’IA ont transformé l’IA et accéléré son évolution et sa maturité. Open source et entreprises L'open source est devenu courant et a acquis une immense popularité ces dernières années. Une enquête O'Reilly 2020 sur l'ouverture…

7 novembre 2023

IBM et VMware aident les entreprises à adopter l'IA générative avec Watsonx sur site

4 min lire - IBM et VMware travaillent ensemble pour amener IBM Watsonx dans des environnements sur site sur VMware® Private AI et Red Hat® OpenShift®, afin de permettre des fonctionnalités d'IA générative rapides et transparentes. En 2023, nous avons vu l’adoption de l’IA devenir courante alors que les entreprises cherchent à stimuler les innovations transformatrices. L’IA générative, en particulier, a captivé l’imagination des organisations en tant que moyen de générer de nouveaux contenus basés sur une variété d’entrées. Les cas d’utilisation et les tâches de l’IA générative sont très variés : de la génération de code aux centres de contact…

2 août 2023

Découvrez les nouveautés de SingleStoreDB avec IBM 8.0

3 min lire - Malgré des décennies de progrès dans les systèmes de bases de données, les constructeurs ont fait des compromis sur au moins l'un des éléments suivants : la vitesse, la fiabilité ou la simplicité. Ils ont deux options : premièrement, ils pourraient obtenir une base de données documentaire rapide et simple, mais sur laquelle ils ne peuvent pas compter pour les applications transactionnelles critiques. Ou deux, ils pourraient s’appuyer sur un entrepôt de données cloud facile à configurer, mais qui ne permet que des analyses retardées. Même dans ce cas, chaque solution manque de quelque chose, obligeant les constructeurs à déployer d'autres bases de données pour…

Bulletins d'information IBM

Recevez nos newsletters et nos mises à jour thématiques qui fournissent les dernières idées en matière de leadership éclairé et d'informations sur les tendances émergentes.

Plus de newsletters

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Horodatage: 29 novembre 2023

Horodatage: Le 3 janvier 2024