Med fremveksten av nye fremskritt og applikasjoner innen maskinlæringsmodeller og kunstig intelligens, inkludert generativ AI, generative motstandsnettverk, datasyn og transformatorer, søker mange bedrifter å møte sine mest presserende datautfordringer i den virkelige verden ved å bruke begge typer syntetiske data: strukturert og ustrukturert. Strukturerte syntetiske datatyper er kvantitative og inkluderer tabelldata, for eksempel tall eller verdier, mens ustrukturerte syntetiske datatyper er kvalitative og inkluderer tekst, bilder og video. Bedriftsledere og dataforskere på tvers av ulike bransjer understreker behovet for ny datasyntese for å adressere datahull, beskytte sensitiv informasjon og forbedre deres hastighet til markedet. De identifiserer og utforsker allerede flere virkelige brukstilfeller for syntetiske data, for eksempel:
- Generering av syntetiske tabelldata for å øke prøvestørrelsen og kanter. Du kan kombinere disse dataene med ekte datasett for å forbedre AI-modellopplæring og prediktiv nøyaktighet.
- Opprette syntetiske testdata for å fremskynde testing, optimalisering og validering av nye applikasjoner og funksjoner.
- Utforske "hva-hvis"-scenarier eller nye forretningshendelser ved å bruke syntetiske data syntetisert fra agentbaserte simuleringer.
- Bruk av syntetiske data for å forhindre eksponering av sensitive data i maskinlæringsalgoritmer.
- Dele og tjene penger på en høykvalitets, personvernbeskyttet syntetisk kopi med interne interessenter eller eksterne forretningspartnere.
Når det er sagt, gir syntetisering av data mer beskyttelse mot tradisjonell datavern og dataanonymiseringsteknikker (tenk på maskering), samtidig som det gjør en bedre jobb med å bevare dataenes nytte. Det er imidlertid fortsatt mangel på tillit blant bedriftsledere. For å bygge denne tilliten og drive bred bruk, må leverandører av verktøy for generering av syntetiske data ta opp to kritiske spørsmål som mange bedriftsledere stiller: Vil syntetiske data utsette bedriften min for ytterligere datavernrisiko? Hvor nøyaktig gjenspeiler syntetiske data mine eksisterende data?
Heldigvis er det allerede på plass beste praksis for å hjelpe bedrifter med å vurdere disse spørsmålene og forhåpentligvis bygge tilliten de trenger til syntetiske data for å bli mer konkurransedyktige i dagens stadig skiftende markeder. La oss ta en titt.
Sikre syntetisk datapersonvern
Selv om de anses som kunstige data eller "falske data" fordi de er datagenerert i stedet for skapt av faktiske hendelser (som et kundekjøp, en internettpålogging eller en pasientdiagnose), kan syntetiske data fortsatt avsløre personlig identifiserbar informasjon (PII) når de brukes som treningsdata for AI-modeller. For eksempel, hvis en virksomhet prioriterer nøyaktighet ved å generere syntetiske data, kan resultatet utilsiktet inkludere for mange personlig identifiserbare attributter, og dermed øke selskapets eksponering for personvernrisiko uten å vite det. Videre, ettersom modelleringsteknikker blir stadig mer sofistikerte innen datavitenskap, inkludert dyp læring og prediktive og generative modeller, må bedrifter og leverandører jobbe hardt for å forhindre utilsiktede forbindelser som kan lekke en persons identitet og utsette dem for tredjepartsangrep.
Heldigvis kan bedrifter som er interessert i syntetiske data ta skritt for å redusere personvernrisikoen:
Oppbevar dataene dine der de er
Mens mange bedrifter migrerer sine eksisterende programvareapplikasjoner til skyen for kostnadsbesparelser, forbedret ytelse og skalerbarhet, fortsetter lokale distribusjoner å spille en sentral rolle for å forbedre personvern og beskyttelse. Dette gjelder delvis for syntetiske data. Når man arbeider med helsyntetiske data (data generert uten eksisterende data for modellopplæring) eller syntetiske data som ikke inneholder konfidensiell eller PII, er det minimal risiko forbundet med bruk av en offentlig skydistribusjonsmetode. Imidlertid bør bedrifter vurdere lokale distribusjoner når deres syntetiske data er avhengige av eksisterende sensitive data. Selv om tredjeparts skyleverandører tilbyr robuste innebygde sikkerhets- og personverntiltak, kan sending og lagring av sensitive PII-kundedata i slike skyer utsette organisasjonen din for potensielle risikoer og kan bli blokkert av personvernteamet ditt.
Ha kontroll og robust beskyttelse
Ikke alle tilfeller av syntetisk databruk krever personvern, men noen gjør det. Derfor bør ledere av risiko, sikkerhet og overholdelse implementere en mekanisme for å kontrollere ønsket nivå av personvernrisiko under prosessen for generering av syntetiske data. "Differensielt personvern" er en slik mekanisme, som gjør det mulig for dataforskere og risikoteam å administrere ønsket personvernnivå (vanligvis innenfor et epsilon-område på 1 til 10, hvor 1 representerer det høyeste personvernet). Denne metoden maskerer bidraget fra ethvert individ, og gjør det umulig å utlede spesifikk informasjon om en person, inkludert om informasjonen deres i det hele tatt ble brukt. Den identifiserer automatisk sårbare individuelle datapunkter og introduserer "støy" for å skjule deres spesifikke informasjon. Selv om det å legge til støy reduserer utdatanøyaktigheten litt (dette er "kostnaden" for differensiert personvern), går det ikke på akkord med verktøyet eller datakvaliteten sammenlignet med tradisjonelle datamaskeringsteknikker. Med andre ord, et differensielt privat syntetisk datasett gjenspeiler fortsatt de statistiske egenskapene til det virkelige datasettet ditt. I tillegg er det fordeler ved å bruke differensielle personvernteknikker, inkludert robust databeskyttelse mot potensielle personvernangrep, bevisbare personverngarantier angående kumulativ risiko fra påfølgende datautgivelser og datatransparens, ettersom det ikke er behov for å holde differensiell privat beregning eller parametere hemmelige.
Ha innsikt i personvernrelaterte beregninger
Når differensiert personvern ikke er et alternativ, bør bedriftsbrukere ha en oversikt over personvernrelaterte beregninger, for å hjelpe dem med å forstå omfanget av deres personverneksponering. Her er to vanlige beregninger som, selv om de ikke er omfattende, fungerer som et solid grunnlag:
- Lekkasjescore: Denne poengsummen måler andelen rader i det syntetiske datasettet som er identiske med det opprinnelige datasettet. Selv om et syntetisk datasett kan oppnå høy nøyaktighet, kan det kompromittere personvernet ved å inkludere for mye av de originale dataene. Datalekkasje oppstår når originaldata eller faktiske data inneholder informasjon om målet, men slike data vil ikke være tilgjengelige når AI-modellen brukes til prediksjon eller analyse.
- Proximity score: Nærhet bestemmes ved å beregne avstanden mellom de originale dataene og de syntetiske datasettene. En mindre avstand indikerer en høyere personvernrisiko fordi det gjør det lettere å isolere visse rader fra de syntetiske tabelldataene.
Evaluering av syntetisk datakvalitet
Bedriftsomfattende bruk krever også at bedriftsledere og dataforskere har tillit til kvaliteten på den syntetiske datautgangen. Spesielt må de raskt og enkelt forstå hvor tett de syntetiske dataene opprettholder de statistiske egenskapene til deres eksisterende datamodell. Mens noen brukstilfeller garanterer syntetiske data med lavere troverdighet, som illustrerende data for å lage realistiske produktdemoer, interne opplæringsressurser eller visse AI-modellopplæringsscenarier, krever andre brukstilfeller en høy grad av troskap, for eksempel ved syntetisering av pasientdata i helsevesenet. I sistnevnte brukstilfelle, siden et helseselskap kan bruke det syntetiske resultatet til å identifisere ny pasientinnsikt som informerer nedstrøms beslutningstaking, må bedriftsledere sikre at de syntetiske dataene nøyaktig gjenspeiler betingelsene for deres faktiske virksomhet.
La oss se nærmere på troskap og andre kvalitetsrelaterte beregninger:
Fidelity
En viktig beregning er "troskap". Den vurderer kvaliteten på de syntetiske dataene i forhold til dens likhet med reelle data og datamodellen. Bedrifter bør få innsikt ikke bare i kolonnefordelinger, men også i forholdet mellom andre kolonner, både en-til-en (univariat) og en-til-mange (multivariat). Å forstå sistnevnte er avgjørende på grunn av kompleksiteten og størrelsen på de fleste eksisterende datatabeller. Heldigvis utmerker de nyeste nevrale nettverkene og generative AI-modellene seg ved å fange disse intrikate relasjonene i databasetabeller og tidsseriedata. Troskapsberegninger vises ved hjelp av søylediagrammer og korrelasjonstabeller, som, selv om de er potensielt lange, gir verdifull innsikt. Hvis du ikke allerede har tilgang til fidelity analytics, kan du starte med å bruke åpen kildekode Python-pakker, som f.eks. SD-beregninger.
Utility
AI-modeller krever tilstrekkelig data for effektiv opplæring, og det kan være tidkrevende å skaffe ekte datasett. Syntetiske data gir et raskere alternativ for opplæring av maskinlæringsmodeller. Derfor er det verdifullt å forstå nytten av syntetiske data i AI-modelltrening før du deler dem med de aktuelle teamene. I hovedsak måler denne beregningen den relative prediktive nøyaktigheten til en maskinlæringsmodell når den trenes på ekte data sammenlignet med syntetiske data.
Rettferdighet
En annen viktig metrikk er "rettferdighet", et emne som får fremtredende plass på grunn av potensielle skjevheter som er tilstede i bedriftsinnsamlede datasett. Hvis det eksisterende datasettet viser skjevhet, vil de syntetiske dataene også være partiske. Å få innsikt i omfanget av denne skjevheten kan hjelpe bedrifter å gjenkjenne og potensielt korrigere den. Selv om det ikke er så utbredt i dagens syntetiske dataløsninger og ikke så kritisk som personvern, troskap eller nytte, vil forståelse av skjevhetene i dine syntetiske data hjelpe bedrifter med å ta informerte beslutninger.
Hvordan komme i gang med syntetiske data i watsonx.ai
AI-byggere og dataforskere kan generere syntetiske tabelldata ved å importere data fra en database, laste opp en fil eller lage et tilpasset dataskjema i IBM® watsonx.ai™. Denne statistikkbaserte modellen kan brukes til å generere data for å forbedre den prediktive nøyaktigheten til AI-treningsmodeller gjennom kanttilfeller og større utvalgsstørrelser. Disse dataene kan også brukes til å bidra til å forbedre realismen i klientdemoer og opplæringsmateriell for ansatte.
Watsonx.ai er et bedriftsklar neste generasjons AI-studio for maskinlæring og generativ AI, drevet av grunnmodeller. Med watsonx.ai-studioet kan AI-byggere, inkludert dataforskere, applikasjonsutviklere og forretningsanalytikere, trene, validere, justere og distribuere både tradisjonell maskinlæring og nye generative AI-funksjoner. Watsonx.ai er designet for å lette samarbeid og skalerbarhet i AI-applikasjonsutvikling og kan distribueres i hybride skymiljøer.
Sjekk ut vår syntetiske datageneratortjeneste på watsonx.ai av enten tilgang til vår gratis prøveversjon or planlegger en 30-minutters samtale med en av våre watsonx.ai produktspesialister for en guidet gjennomgang.
Utforsk fordelene med watsonx.ai
Lås opp din gratis prøveversjon i dag
Mer fra Data og Analytics
IBMs nyhetsbrev
Få våre nyhetsbrev og emneoppdateringer som gir den siste tankeledelsen og innsikt om nye trender.
Abonner nå
Flere nyhetsbrev
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- Om oss
- akselerert
- adgang
- tilgjengelighet
- tilgjengelig
- nøyaktighet
- nøyaktig
- nøyaktig
- Oppnå
- tvers
- faktiske
- legge
- Ytterligere
- I tillegg
- adresse
- adoptere
- Adopsjon
- fremskritt
- motstandere
- Annonsering
- Etter
- mot
- AI
- AI adopsjon
- AI-modeller
- AI-trening
- ai brukstilfeller
- algoritmer
- Alle
- tillater
- allerede
- også
- alternativ
- Selv
- Amazon
- Amazon RDS
- blant
- amp
- an
- analyse
- analytikere
- analytics
- og
- noen
- Søknad
- Applikasjonutvikling
- søknader
- hensiktsmessig
- ER
- Artikkel
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- AS
- spør
- Vurderer
- Eiendeler
- assosiert
- At
- Angrep
- attributter
- publikum
- August
- august 2
- forfatter
- automatisk
- tilgjengelig
- tilbake
- Bar
- basert
- BE
- fordi
- bli
- før du
- Fordeler
- BEST
- beste praksis
- Bedre
- mellom
- Bias
- forutinntatt
- skjevheter
- blokkert
- Blogg
- Blå
- både
- bringe
- bred
- bygge
- bygge tillit
- utbyggere
- Bygning
- innebygd
- virksomhet
- Bedriftsledere
- bedrifter
- men
- knapp
- by
- beregning
- CAN
- evner
- fanget
- fange
- karbon
- kort
- Kort
- saken
- saker
- CAT
- Kategori
- viss
- utfordringer
- sjekk
- sirkler
- klasse
- kunde
- tett
- Cloud
- kode
- samarbeid
- farge
- Kolonne
- kolonner
- kombinere
- Felles
- samfunnet
- Selskaper
- Selskapet
- Selskapets
- sammenlignet
- konkurranse
- kompleksitet
- samsvar
- fatte
- omfattende
- kompromiss
- kompromittert
- beregningen
- datamaskin
- Datamaskin syn
- datagenerert
- forhold
- selvtillit
- Tilkoblinger
- Vurder
- ansett
- kontakt
- Container
- inneholder
- innhold
- fortsette
- fortsetter
- bidrag
- kontroll
- korrigere
- Korrelasjon
- Kostnad
- kostnadsbesparelser
- kunne
- opprettet
- Opprette
- kritisk
- avgjørende
- CSS
- skikk
- kunde
- kunde Data
- Kunder
- daglig
- daglige transaksjoner
- dato
- datalekkasje
- datapunkter
- personvern
- databeskyttelse
- datakvalitet
- datavitenskap
- datalager
- Database
- databaser
- datasett
- Dato
- håndtering
- tiår
- Beslutningstaking
- avgjørelser
- dyp
- dyp læring
- Misligholde
- definisjoner
- Grad
- leverer
- Demonstrasjoner
- avhengig
- utplassere
- utplassert
- distribusjon
- distribusjoner
- beskrivelse
- designet
- ønsket
- bestemmes
- utviklere
- Utvikling
- diagnose
- flittig
- direkte
- avstand
- Distribusjoner
- do
- dokument
- gjør
- gjør
- stasjonen
- to
- under
- hver enkelt
- lette
- enklere
- lett
- lett
- økonomi
- Edge
- Effektiv
- enten
- veksten
- Emery
- understreke
- Ansatt
- muliggjøre
- muliggjør
- forbedre
- styrke
- sikre
- sikrer
- sikrer
- Enter
- bedrifter
- Hele
- miljøer
- hovedsak
- Eter (ETH)
- evaluere
- Selv
- hendelser
- NOEN GANG
- stadig skiftende
- evolusjon
- Excel
- Kjøreglede
- utstillinger
- eksisterende
- finnes
- Utgang
- fremskynde
- Utforske
- Eksponering
- grad
- utvendig
- legge til rette
- falsk
- FAST
- raskere
- Egenskaper
- føler
- fidelity
- filet
- følge
- etter
- fonter
- Til
- tvang
- Heldigvis
- Fundament
- brøkdel
- rammer
- Gratis
- gratis prøveperiode
- fra
- fullt
- Dess
- Gevinst
- fikk
- få
- hull
- generere
- generert
- genererer
- generasjonen
- generative
- generative adversarielle nettverk
- Generativ AI
- generator
- få
- grafer
- gripe
- Grid
- Grow
- garantier
- guidet
- HAD
- Ha
- Overskrift
- helsetjenester
- høyde
- hjelpe
- her.
- Høy
- høykvalitets
- høyere
- høyest
- forhåpentligvis
- Hvordan
- Men
- http
- HTTPS
- Hybrid
- hybrid sky
- IBM
- ICO
- ICON
- identiske
- identifiserer
- identifisere
- identifisering
- Identitet
- if
- bilde
- bilder
- fantasi
- enorme
- Påvirkning
- iverksette
- viktig
- importere
- umulig
- forbedre
- forbedret
- in
- I andre
- uforvarende
- inkludere
- inkluderer
- Inkludert
- Øke
- økt
- økende
- stadig
- indeks
- indikerer
- individuelt
- bransjer
- informere
- informasjon
- informert
- innovasjoner
- innganger
- innsikt
- innsikt
- f.eks
- Intelligens
- interessert
- intern
- Internet
- inn
- innviklet
- Introduserer
- IT
- køyring
- DET ER
- selv
- Jobb
- jpg
- Hold
- nøkkel
- maling
- lagging
- stor
- større
- siste
- ledere
- Ledelse
- lekke
- læring
- minst
- Nivå
- utnytte
- i likhet med
- linje
- lokal
- lokale
- Logg inn
- Se
- lavere
- maskin
- maskinlæring
- Mainstream
- vedlikeholde
- opprettholder
- gjøre
- GJØR AT
- Making
- administrer
- mange
- marked
- markedsandel
- Markets
- masker
- materialer
- modenhet
- max bredde
- Kan..
- midler
- målinger
- mekanisme
- metode
- metrisk
- Metrics
- Migrere
- minutter
- minimal
- minutter
- Mobil
- modell
- modellering
- modeller
- mer
- mest
- mye
- må
- my
- Navigasjon
- Trenger
- nettverk
- neural
- nevrale nettverk
- Ny
- nyhetsbrev
- neste generasjon
- Nei.
- Bråk
- ingenting
- November
- nå
- tall
- å skaffe seg
- of
- off
- tilby
- Tilbud
- on
- ONE
- bare
- åpen
- åpen kildekode
- optimisme
- optimalisering
- optimalisert
- Alternativ
- alternativer
- or
- organisasjon
- organisasjoner
- original
- Annen
- vår
- ut
- produksjon
- pakker
- side
- parametere
- Spesielt
- partnere
- pasient
- pasientdata
- ytelse
- person
- personlig
- PHP
- PII
- sentral
- Sted
- plato
- Platon Data Intelligence
- PlatonData
- Spille
- spilt
- plugg inn
- poeng
- politikk
- Populær
- popularitet
- posisjon
- Post
- potensiell
- potensielt
- powered
- praksis
- prediksjon
- prediktiv
- presentere
- bevarer
- trykke
- utbredt
- forebygge
- primære
- prioriterer
- privatliv
- Personvernteknikker
- privat
- prosess
- prosessering
- Produkt
- Progress
- fremtredende
- egenskaper
- beskytte
- beskyttelse
- påviselig
- tilbydere
- gir
- offentlig
- Offentlig sky
- Kjøp
- Python
- kvalitativ
- kvalitet
- kvantitativ
- Fjerdedel
- spørsmål
- Rask
- raskt
- område
- rask
- heller
- Lesning
- ekte
- virkelige verden
- realistisk
- nylig
- gjenkjenne
- Rød
- redusere
- reduserer
- reflektere
- Gjenspeiler
- om
- Relasjoner
- slektning
- Utgivelser
- pålitelighet
- avhengige
- renessanse
- svare
- representerer
- krever
- Krever
- forskere
- responsive
- resulterende
- avsløre
- inntekter
- Risiko
- risikoer
- roboter
- robust
- Rolle
- Kjør
- sikringstiltak
- Sa
- Besparelser
- skalerbarhet
- scenarier
- Vitenskap
- forskere
- Resultat
- Skjerm
- skript
- Secret
- sikre
- sikkerhet
- se
- Søke
- søker
- sett
- sending
- sensitive
- SEO
- betjene
- tjeneste
- sett
- flere
- Del
- deling
- bør
- vist
- Syn
- signifikant
- nettstedet
- Størrelse
- størrelser
- liten
- mindre
- Software
- solid
- løsning
- Solutions
- noen
- noe
- sofistikert
- kilde
- spesialister
- spesifikk
- spesielt
- fart
- Sponset
- firkanter
- interessenter
- Begynn
- startet
- statistisk
- Steps
- Still
- strukturert
- studio
- abonnere
- slik
- tilstrekkelig
- Survey /Inspeksjonsfartøy
- SVG
- syntese
- syntetisk
- syntetiske data
- Systemer
- Ta
- Snakk
- Target
- oppgaver
- lag
- lag
- teknikker
- vilkår
- tertiære
- test
- Testing
- tekst
- enn
- Det
- De
- verden
- deres
- Dem
- tema
- deretter
- Der.
- derved
- derfor
- Disse
- de
- tror
- tredjeparts
- denne
- trodde
- tenkte ledelse
- Gjennom
- tid
- tidkrevende
- Tittel
- til
- dagens
- sammen
- også
- verktøy
- topp
- Tema
- tradisjonelle
- Tog
- trent
- Kurs
- transaksjonell
- Transaksjoner
- transformative
- forvandlet
- transformers
- Åpenhet
- gjennomsiktig
- Trender
- prøve
- billioner
- sant
- Stol
- to
- typen
- typer
- typisk
- gjennomgår
- forstå
- forståelse
- oppdateringer
- Opplasting
- URL
- bruke
- bruk sak
- brukt
- Brukere
- ved hjelp av
- verktøyet
- VALIDERE
- validering
- Verdifull
- Verdier
- variasjon
- ulike
- leverandører
- video
- syn
- VMware
- Sårbar
- W
- Warehouse
- Warrant
- var
- we
- når
- om
- hvilken
- mens
- bredere
- vil
- med
- innenfor
- uten
- WordPress
- ord
- Arbeid
- arbeid
- verden
- Verdens
- skrevet
- år
- du
- Din
- zephyrnet