Syntetisk datagenerering: Bygg tillit ved å sikre personvern og kvalitet - IBM-blogg

Publisert av Platon

Følgere: 0

Med fremveksten av nye fremskritt og applikasjoner innen maskinlæringsmodeller og kunstig intelligens, inkludert generativ AI, generative motstandsnettverk, datasyn og transformatorer, søker mange bedrifter å møte sine mest presserende datautfordringer i den virkelige verden ved å bruke begge typer syntetiske data: strukturert og ustrukturert. Strukturerte syntetiske datatyper er kvantitative og inkluderer tabelldata, for eksempel tall eller verdier, mens ustrukturerte syntetiske datatyper er kvalitative og inkluderer tekst, bilder og video. Bedriftsledere og dataforskere på tvers av ulike bransjer understreker behovet for ny datasyntese for å adressere datahull, beskytte sensitiv informasjon og forbedre deres hastighet til markedet. De identifiserer og utforsker allerede flere virkelige brukstilfeller for syntetiske data, for eksempel:

Generering av syntetiske tabelldata for å øke prøvestørrelsen og kanter. Du kan kombinere disse dataene med ekte datasett for å forbedre AI-modellopplæring og prediktiv nøyaktighet.
Opprette syntetiske testdata for å fremskynde testing, optimalisering og validering av nye applikasjoner og funksjoner.
Utforske "hva-hvis"-scenarier eller nye forretningshendelser ved å bruke syntetiske data syntetisert fra agentbaserte simuleringer.
Bruk av syntetiske data for å forhindre eksponering av sensitive data i maskinlæringsalgoritmer.
Dele og tjene penger på en høykvalitets, personvernbeskyttet syntetisk kopi med interne interessenter eller eksterne forretningspartnere.

Når det er sagt, gir syntetisering av data mer beskyttelse mot tradisjonell datavern og dataanonymiseringsteknikker (tenk på maskering), samtidig som det gjør en bedre jobb med å bevare dataenes nytte. Det er imidlertid fortsatt mangel på tillit blant bedriftsledere. For å bygge denne tilliten og drive bred bruk, må leverandører av verktøy for generering av syntetiske data ta opp to kritiske spørsmål som mange bedriftsledere stiller: Vil syntetiske data utsette bedriften min for ytterligere datavernrisiko? Hvor nøyaktig gjenspeiler syntetiske data mine eksisterende data?

Heldigvis er det allerede på plass beste praksis for å hjelpe bedrifter med å vurdere disse spørsmålene og forhåpentligvis bygge tilliten de trenger til syntetiske data for å bli mer konkurransedyktige i dagens stadig skiftende markeder. La oss ta en titt.

Sikre syntetisk datapersonvern

Selv om de anses som kunstige data eller "falske data" fordi de er datagenerert i stedet for skapt av faktiske hendelser (som et kundekjøp, en internettpålogging eller en pasientdiagnose), kan syntetiske data fortsatt avsløre personlig identifiserbar informasjon (PII) når de brukes som treningsdata for AI-modeller. For eksempel, hvis en virksomhet prioriterer nøyaktighet ved å generere syntetiske data, kan resultatet utilsiktet inkludere for mange personlig identifiserbare attributter, og dermed øke selskapets eksponering for personvernrisiko uten å vite det. Videre, ettersom modelleringsteknikker blir stadig mer sofistikerte innen datavitenskap, inkludert dyp læring og prediktive og generative modeller, må bedrifter og leverandører jobbe hardt for å forhindre utilsiktede forbindelser som kan lekke en persons identitet og utsette dem for tredjepartsangrep.

Heldigvis kan bedrifter som er interessert i syntetiske data ta skritt for å redusere personvernrisikoen:

Oppbevar dataene dine der de er

Mens mange bedrifter migrerer sine eksisterende programvareapplikasjoner til skyen for kostnadsbesparelser, forbedret ytelse og skalerbarhet, fortsetter lokale distribusjoner å spille en sentral rolle for å forbedre personvern og beskyttelse. Dette gjelder delvis for syntetiske data. Når man arbeider med helsyntetiske data (data generert uten eksisterende data for modellopplæring) eller syntetiske data som ikke inneholder konfidensiell eller PII, er det minimal risiko forbundet med bruk av en offentlig skydistribusjonsmetode. Imidlertid bør bedrifter vurdere lokale distribusjoner når deres syntetiske data er avhengige av eksisterende sensitive data. Selv om tredjeparts skyleverandører tilbyr robuste innebygde sikkerhets- og personverntiltak, kan sending og lagring av sensitive PII-kundedata i slike skyer utsette organisasjonen din for potensielle risikoer og kan bli blokkert av personvernteamet ditt.

Ha kontroll og robust beskyttelse

Ikke alle tilfeller av syntetisk databruk krever personvern, men noen gjør det. Derfor bør ledere av risiko, sikkerhet og overholdelse implementere en mekanisme for å kontrollere ønsket nivå av personvernrisiko under prosessen for generering av syntetiske data. "Differensielt personvern" er en slik mekanisme, som gjør det mulig for dataforskere og risikoteam å administrere ønsket personvernnivå (vanligvis innenfor et epsilon-område på 1 til 10, hvor 1 representerer det høyeste personvernet). Denne metoden maskerer bidraget fra ethvert individ, og gjør det umulig å utlede spesifikk informasjon om en person, inkludert om informasjonen deres i det hele tatt ble brukt. Den identifiserer automatisk sårbare individuelle datapunkter og introduserer "støy" for å skjule deres spesifikke informasjon. Selv om det å legge til støy reduserer utdatanøyaktigheten litt (dette er "kostnaden" for differensiert personvern), går det ikke på akkord med verktøyet eller datakvaliteten sammenlignet med tradisjonelle datamaskeringsteknikker. Med andre ord, et differensielt privat syntetisk datasett gjenspeiler fortsatt de statistiske egenskapene til det virkelige datasettet ditt. I tillegg er det fordeler ved å bruke differensielle personvernteknikker, inkludert robust databeskyttelse mot potensielle personvernangrep, bevisbare personverngarantier angående kumulativ risiko fra påfølgende datautgivelser og datatransparens, ettersom det ikke er behov for å holde differensiell privat beregning eller parametere hemmelige.

Ha innsikt i personvernrelaterte beregninger

Når differensiert personvern ikke er et alternativ, bør bedriftsbrukere ha en oversikt over personvernrelaterte beregninger, for å hjelpe dem med å forstå omfanget av deres personverneksponering. Her er to vanlige beregninger som, selv om de ikke er omfattende, fungerer som et solid grunnlag:

Lekkasjescore: Denne poengsummen måler andelen rader i det syntetiske datasettet som er identiske med det opprinnelige datasettet. Selv om et syntetisk datasett kan oppnå høy nøyaktighet, kan det kompromittere personvernet ved å inkludere for mye av de originale dataene. Datalekkasje oppstår når originaldata eller faktiske data inneholder informasjon om målet, men slike data vil ikke være tilgjengelige når AI-modellen brukes til prediksjon eller analyse.
Proximity score: Nærhet bestemmes ved å beregne avstanden mellom de originale dataene og de syntetiske datasettene. En mindre avstand indikerer en høyere personvernrisiko fordi det gjør det lettere å isolere visse rader fra de syntetiske tabelldataene.

Evaluering av syntetisk datakvalitet

Bedriftsomfattende bruk krever også at bedriftsledere og dataforskere har tillit til kvaliteten på den syntetiske datautgangen. Spesielt må de raskt og enkelt forstå hvor tett de syntetiske dataene opprettholder de statistiske egenskapene til deres eksisterende datamodell. Mens noen brukstilfeller garanterer syntetiske data med lavere troverdighet, som illustrerende data for å lage realistiske produktdemoer, interne opplæringsressurser eller visse AI-modellopplæringsscenarier, krever andre brukstilfeller en høy grad av troskap, for eksempel ved syntetisering av pasientdata i helsevesenet. I sistnevnte brukstilfelle, siden et helseselskap kan bruke det syntetiske resultatet til å identifisere ny pasientinnsikt som informerer nedstrøms beslutningstaking, må bedriftsledere sikre at de syntetiske dataene nøyaktig gjenspeiler betingelsene for deres faktiske virksomhet.

La oss se nærmere på troskap og andre kvalitetsrelaterte beregninger:

Fidelity

En viktig beregning er "troskap". Den vurderer kvaliteten på de syntetiske dataene i forhold til dens likhet med reelle data og datamodellen. Bedrifter bør få innsikt ikke bare i kolonnefordelinger, men også i forholdet mellom andre kolonner, både en-til-en (univariat) og en-til-mange (multivariat). Å forstå sistnevnte er avgjørende på grunn av kompleksiteten og størrelsen på de fleste eksisterende datatabeller. Heldigvis utmerker de nyeste nevrale nettverkene og generative AI-modellene seg ved å fange disse intrikate relasjonene i databasetabeller og tidsseriedata. Troskapsberegninger vises ved hjelp av søylediagrammer og korrelasjonstabeller, som, selv om de er potensielt lange, gir verdifull innsikt. Hvis du ikke allerede har tilgang til fidelity analytics, kan du starte med å bruke åpen kildekode Python-pakker, som f.eks. SD-beregninger.

Utility

AI-modeller krever tilstrekkelig data for effektiv opplæring, og det kan være tidkrevende å skaffe ekte datasett. Syntetiske data gir et raskere alternativ for opplæring av maskinlæringsmodeller. Derfor er det verdifullt å forstå nytten av syntetiske data i AI-modelltrening før du deler dem med de aktuelle teamene. I hovedsak måler denne beregningen den relative prediktive nøyaktigheten til en maskinlæringsmodell når den trenes på ekte data sammenlignet med syntetiske data.

Rettferdighet

En annen viktig metrikk er "rettferdighet", et emne som får fremtredende plass på grunn av potensielle skjevheter som er tilstede i bedriftsinnsamlede datasett. Hvis det eksisterende datasettet viser skjevhet, vil de syntetiske dataene også være partiske. Å få innsikt i omfanget av denne skjevheten kan hjelpe bedrifter å gjenkjenne og potensielt korrigere den. Selv om det ikke er så utbredt i dagens syntetiske dataløsninger og ikke så kritisk som personvern, troskap eller nytte, vil forståelse av skjevhetene i dine syntetiske data hjelpe bedrifter med å ta informerte beslutninger.

Hvordan komme i gang med syntetiske data i watsonx.ai

AI-byggere og dataforskere kan generere syntetiske tabelldata ved å importere data fra en database, laste opp en fil eller lage et tilpasset dataskjema i IBM® watsonx.ai™. Denne statistikkbaserte modellen kan brukes til å generere data for å forbedre den prediktive nøyaktigheten til AI-treningsmodeller gjennom kanttilfeller og større utvalgsstørrelser. Disse dataene kan også brukes til å bidra til å forbedre realismen i klientdemoer og opplæringsmateriell for ansatte.

Watsonx.ai er et bedriftsklar neste generasjons AI-studio for maskinlæring og generativ AI, drevet av grunnmodeller. Med watsonx.ai-studioet kan AI-byggere, inkludert dataforskere, applikasjonsutviklere og forretningsanalytikere, trene, validere, justere og distribuere både tradisjonell maskinlæring og nye generative AI-funksjoner. Watsonx.ai er designet for å lette samarbeid og skalerbarhet i AI-applikasjonsutvikling og kan distribueres i hybride skymiljøer.

Sjekk ut vår syntetiske datageneratortjeneste på watsonx.ai av enten tilgang til vår gratis prøveversjon or planlegger en 30-minutters samtale med en av våre watsonx.ai produktspesialister for en guidet gjennomgang.

Utforsk fordelene med watsonx.ai

Lås opp din gratis prøveversjon i dag

Syntetiske data på IBM watsonx.ai, produktsjef

Mer fra Data og Analytics

November 28, 2023

IBM Db2 er nå tilgjengelig på Amazon RDS

4 min lest - IBM® Db2® gjennomgår en renessanse. Vi føler optimismen og spenningen når vi snakker med våre kunder og forretningspartnere. Og vi ser det i tallene våre: kvartal etter kvartal fortsetter Db2 å øke inntektene og ta markedsandeler. Kunder stoler mer enn noen gang før på Db2 for å kjøre sine virksomhetskritiske applikasjoner og arbeidsbelastninger. Disse applikasjonene styrer verdensøkonomien. Db2 bygger seg dypt inn i og sikrer direkte rask, sikker og nøyaktig behandling av billioner av daglige transaksjoner på tvers av finansielle...

November 28, 2023

Utnytte populære åpen kildekode AI-rammeverk for å infundere AI i IBM Z- og IBM LinuxONE-applikasjoner

2 min lest - Åpen kildekode og kunstig intelligens Åpen kildekode-programvare har hatt en betydelig innvirkning på verden av kunstig intelligens (AI) og har spilt en nøkkelrolle i dens utvikling. Tilgjengelighet for et bredere publikum, rask iterasjon og økt samarbeid mellom utviklere, dataforskere, forskere og hele AI-fellesskapet har transformert AI og akselerert utviklingen og modenheten. Åpen kildekode og bedrifter Åpen kildekode har blitt mainstream og fått enorm popularitet de siste årene. En O'Reilly-undersøkelse fra 2020 om åpen...

November 7, 2023

IBM og VMware hjelper bedrifter å ta i bruk generativ AI med watsonx på stedet

4 min lest - IBM og VMware jobber sammen for å bringe IBM watsonx til lokale miljøer på VMware® Private AI og Red Hat® OpenShift®, for å bidra til å muliggjøre raske, transparente generative AI-funksjoner. I 2023 har vi sett AI-adopsjon bli mainstream ettersom bedrifter søker å drive transformative innovasjoner. Generativ AI, spesielt, har fanget fantasien til organisasjoner som et middel til å generere nytt innhold basert på en rekke input. Generative AI-brukstilfeller og -oppgaver er vidtgående – fra kodegenerering til kontaktsentre...

August 2, 2023

Se hva som er nytt i SingleStoreDB med IBM 8.0

3 min lest - Til tross for flere tiår med fremgang i databasesystemer, har utbyggere gått på akkord med minst ett av følgende: hastighet, pålitelighet eller brukervennlighet. De har to alternativer: ett, de kan få en dokumentdatabase som er rask og enkel, men som ikke kan stoles på for virksomhetskritiske transaksjonsapplikasjoner. Eller to, de kan stole på et skydatavarehus som er enkelt å sette opp, men som bare tillater etterslepende analyser. Selv da mangler hver løsning noe, noe som tvinger utbyggere til å distribuere andre databaser for...

IBMs nyhetsbrev

Få våre nyhetsbrev og emneoppdateringer som gir den siste tankeledelsen og innsikt om nye trender.

Abonner nå

Flere nyhetsbrev

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Tidstempel: November 29, 2023

Tidstempel: Oktober 10, 2023

Opplevelsesbasert shopping: Hvorfor forhandlere må doble ned på hybriddetaljhandel

Kildeklynge:

IBM

Kilde node: 1896064

Tidstempel: Jan 12, 2023

Publisert av Platon

Sikre syntetisk datapersonvern

Oppbevar dataene dine der de er

Ha kontroll og robust beskyttelse

Ha innsikt i personvernrelaterte beregninger

Evaluering av syntetisk datakvalitet

Fidelity

Utility

Rettferdighet

Hvordan komme i gang med syntetiske data i watsonx.ai

Mer fra Data og Analytics

IBM Db2 er nå tilgjengelig på Amazon RDS

Utnytte populære åpen kildekode AI-rammeverk for å infundere AI i IBM Z- og IBM LinuxONE-applikasjoner

IBM og VMware hjelper bedrifter å ta i bruk generativ AI med watsonx på stedet

Se hva som er nytt i SingleStoreDB med IBM 8.0

OpenShift versjon 4.13 nå tilgjengelig i Red Hat OpenShift på IBM Cloud – IBM Blog

Akselererer bedriftstransformasjonen med TCS' teknologiske garasje

Tennis, fotball og IBM watsonx – IBM Blog

G2 Summer Reports kaller IBM en leder – IBM Blog

IBM watsonx Assistant: Driver generativ AI-innovasjon med Conversational Search – IBM Blog

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn