Syntetisk datagenerering: Opbygning af tillid ved at sikre privatliv og kvalitet - IBM Blog

Genudgivet af Platon

Abonnenter: 0

Med fremkomsten af nye fremskridt og applikationer inden for maskinlæringsmodeller og kunstig intelligens, herunder generativ AI, generative modstridende netværk, computervision og transformere, søger mange virksomheder at løse deres mest presserende dataudfordringer i den virkelige verden ved hjælp af begge typer syntetiske data: struktureret og ustruktureret. Strukturerede syntetiske datatyper er kvantitative og inkluderer tabeldata, såsom tal eller værdier, mens ustrukturerede syntetiske datatyper er kvalitative og inkluderer tekst, billeder og video. Virksomhedsledere og dataforskere på tværs af forskellige industrier understreger behovet for ny datasyntese for at adressere datahuller, beskytte følsomme oplysninger og forbedre deres hastighed til markedet. De er allerede ved at identificere og udforske adskillige virkelige brugssager for syntetiske data, såsom:

Generering af syntetiske tabeldata for at øge prøvestørrelsen og kanttilfælde. Du kan kombinere disse data med rigtige datasæt for at forbedre AI-modeltræning og forudsigelig nøjagtighed.
Oprettelse af syntetiske testdata for at fremskynde test, optimering og validering af nye applikationer og funktioner.
Udforskning af "hvad hvis"-scenarier eller nye forretningsbegivenheder ved hjælp af syntetiske data, der er syntetiseret fra agentbaserede simuleringer.
Brug af syntetiske data til at forhindre eksponering af følsomme data i maskinlæringsalgoritmer.
Deling og indtægtsgenerering af en højkvalitets, privatlivsbeskyttet syntetisk replika med interne interessenter eller eksterne forretningspartnere.

Når det er sagt, giver syntetisering af data mere beskyttelse mod traditionelle databeskyttelses- og dataanonymiseringsteknikker (tænk på maskering), samtidig med at det gør et bedre stykke arbejde med at bevare dataens nytte. Der er dog stadig mangel på tillid blandt virksomhedsledere. For at opbygge den tillid og fremme en bred anvendelse, skal leverandører af værktøjer til generering af syntetiske data løse to kritiske spørgsmål, som mange virksomhedsledere stiller: Vil syntetiske data udsætte min virksomhed for yderligere databeskyttelsesrisici? Hvor nøjagtigt afspejler syntetiske data mine eksisterende data?

Heldigvis er der allerede bedste praksis på plads for at hjælpe virksomheder med at vurdere disse spørgsmål og forhåbentlig opbygge den tillid, de har brug for til syntetiske data for at blive mere konkurrencedygtige på nutidens stadigt skiftende markeder. Lad os se.

Sikring af syntetisk databeskyttelse

Selvom de betragtes som kunstige data eller "falske data", fordi de er computergenereret snarere end skabt af faktiske begivenheder (såsom et kundekøb, et internetlogin eller en patientdiagnose), kan syntetiske data stadig afsløre personligt identificerbare oplysninger (PII), når de bruges som træningsdata til AI-modeller. For eksempel, hvis en virksomhed prioriterer nøjagtighed ved generering af syntetiske data, kan det resulterende output utilsigtet indeholde for mange personligt identificerbare attributter, og derved øge virksomhedens eksponering for privatlivsrisiko ubevidst. Efterhånden som modelleringsteknikker bliver stadig mere sofistikerede inden for datavidenskab, herunder dyb læring og forudsigende og generative modeller, skal virksomheder og leverandører arbejde flittigt for at forhindre utilsigtede forbindelser, der kan lække en persons identitet og udsætte dem for tredjepartsangreb.

Heldigvis kan virksomheder, der er interesseret i syntetiske data, tage skridt til at reducere deres privatlivsrisiko:

Opbevar dine data, hvor de er

Mens mange virksomheder migrerer deres eksisterende softwareapplikationer til skyen for omkostningsbesparelser, forbedret ydeevne og skalerbarhed, fortsætter implementeringer på stedet med at spille en central rolle i at forbedre privatlivets fred og beskyttelse. Dette gælder delvist for syntetiske data. Når man beskæftiger sig med fuldt syntetiske data (data genereret uden eksisterende data til modeltræning) eller syntetiske data, der ikke indeholder fortrolige eller PII, er der minimal risiko forbundet med at bruge en offentlig cloud-implementeringsmetode. Virksomheder bør dog overveje implementeringer på stedet, når deres syntetiske data er afhængige af eksisterende følsomme data. Selvom tredjeparts cloud-udbydere tilbyder robuste indbyggede sikkerheds- og beskyttelsesforanstaltninger til beskyttelse af personlige oplysninger, kan afsendelse og lagring af følsomme PII-kundedata i sådanne skyer udsætte din organisation for potentielle risici og kan blive blokeret af dit privatlivsteam.

Har kontrol og robust beskyttelse

Ikke alle tilfælde af syntetisk databrug kræver privatliv, men nogle gør det. Derfor bør ledere af risiko, sikkerhed og compliance implementere en mekanisme til at kontrollere deres ønskede niveau af privatlivsrisiko under den syntetiske datagenereringsprocessen. "Differentiel privatliv" er en sådan mekanisme, der gør det muligt for dataforskere og risikoteams at styre deres ønskede privatlivsniveau (typisk inden for et epsilon-interval på 1 til 10, hvor 1 repræsenterer det højeste privatliv). Denne metode maskerer bidraget fra ethvert individ, hvilket gør det umuligt at udlede specifikke oplysninger om en person, herunder om deres oplysninger overhovedet blev brugt. Den identificerer automatisk sårbare individuelle datapunkter og introducerer "støj" for at skjule deres specifikke information. Selvom tilføjelse af støj reducerer outputnøjagtigheden en smule (dette er "omkostningen" ved differentieret privatliv), kompromitterer det ikke nytten eller datakvaliteten sammenlignet med traditionelle datamaskeringsteknikker. Med andre ord afspejler et differentielt privat syntetisk datasæt stadig de statistiske egenskaber for dit rigtige datasæt. Derudover er der fordele ved at bruge differentielle privatlivsteknikker, herunder robust databeskyttelse mod potentielle privatlivsangreb, beviselige privatlivsgarantier vedrørende kumulativ risiko fra successive dataudgivelser og datagennemsigtighed, da der ikke er behov for at holde differentieret private beregninger eller parametre hemmelige.

Få indsigt i privatlivsrelaterede målinger

Når differentieret privatliv ikke er en mulighed, bør forretningsbrugere bevare en synslinje til privatlivsrelaterede målinger for at hjælpe dem med at forstå omfanget af deres privatlivseksponering. Her er to almindelige målinger, der, selvom de ikke er omfattende, fungerer som et solidt fundament:

Lækagescore: Denne score måler den brøkdel af rækker i det syntetiske datasæt, der er identiske med det originale datasæt. Selvom et syntetisk datasæt kan opnå høj nøjagtighed, kan det kompromittere privatlivets fred ved at inkludere for meget af de originale data. Datalækage opstår, når de originale data eller faktiske data indeholder information om målet, men sådanne data vil ikke være tilgængelige, når AI-modellen bruges til forudsigelse eller analyse.
Nærhedsscore: Nærhed bestemmes ved at beregne afstanden mellem de originale data og de syntetiske datasæt. En mindre afstand indikerer en højere privatlivsrisiko, fordi det gør det nemmere at isolere visse rækker fra de syntetiske tabeldata.

Evaluering af syntetisk datakvalitet

Virksomhedsdækkende vedtagelse kræver også, at virksomhedsledere og dataforskere har tillid til kvaliteten af det syntetiske dataoutput. Konkret skal de hurtigt og nemt forstå, hvor tæt de syntetiske data vedligeholder de statistiske egenskaber af deres eksisterende datamodel. Mens nogle brugsscenarier berettiger syntetiske data med lavere troværdighed, såsom illustrative data til at skabe realistiske produktdemoer, interne træningsaktiver eller visse AI-modeltræningsscenarier, kræver andre brugsscenarier en høj grad af troskab, såsom når man syntetiserer patientdata i sundhedsvæsenet. I sidstnævnte tilfælde, da en sundhedsvirksomhed kan bruge det syntetiske output til at identificere ny patientindsigt, der informerer downstream-beslutningstagning, skal virksomhedsledere sikre, at de syntetiske data nøjagtigt afspejler betingelserne for deres faktiske virksomhed.

Lad os se nærmere på troskab og andre kvalitetsrelaterede målinger:

Fidelity

En vigtig metrik er "troskab". Den vurderer kvaliteten af de syntetiske data i forhold til deres lighed med reelle data og datamodellen. Virksomheder bør få indsigt ikke kun i kolonnefordelinger, men også i forholdet mellem andre kolonner, både en-til-en (univariat) og en-til-mange (multivariat). At forstå sidstnævnte er afgørende på grund af kompleksiteten og størrelsen af de fleste eksisterende datatabeller. Heldigvis udmærker de nyeste neurale netværk og generative AI-modeller sig til at fange disse indviklede relationer i databasetabeller og tidsseriedata. Fidelity-metrics vises ved hjælp af søjlediagrammer og korrelationstabeller, som, selvom de er potentielt lange, giver værdifuld indsigt. Hvis du ikke allerede har adgang til fidelity analytics, kan du starte med at bruge open source Python-pakker, som f.eks. SD-målinger.

Utility

AI-modeller kræver tilstrækkelige data til effektiv træning, og det kan være tidskrævende at få rigtige datasæt. Syntetiske data giver et hurtigere alternativ til træning af maskinlæringsmodeller. Derfor er det værdifuldt at forstå nytten af syntetiske data i AI-modeltræning, før du deler dem med de relevante teams. I det væsentlige måler denne metrik den relative prædiktive nøjagtighed af en maskinlæringsmodel, når den trænes på rigtige data sammenlignet med syntetiske data.

Fairness

En anden vigtig metrik er "retfærdighed", et emne, der vinder frem på grund af potentielle skævheder, der findes i datasæt, der er indsamlet af virksomheder. Hvis det eksisterende datasæt udviser skævhed, vil de syntetiske data også være skævt. At få indsigt i omfanget af denne skævhed kan hjælpe virksomheder med at genkende og potentielt rette den. Selvom det ikke er så udbredt i nutidens syntetiske dataløsninger og ikke så kritisk som privatliv, troskab eller nytte, vil forståelsen af skævheden i dine syntetiske data hjælpe virksomheder med at træffe informerede beslutninger.

Sådan kommer du i gang med syntetiske data i watsonx.ai

AI-byggere og dataforskere kan generere syntetiske tabeldata ved at importere data fra en database, uploade en fil eller oprette et tilpasset dataskema i IBM® watsonx.ai™. Denne statistikbaserede model kan bruges til at generere data for at hjælpe med at forbedre den forudsigelige nøjagtighed af AI-træningsmodeller gennem edge cases og større stikprøvestørrelser. Disse data kan også bruges til at hjælpe med at forbedre realismen i klientdemoer og medarbejdertræningsmaterialer.

Watsonx.ai er et virksomhedsklar næste generations AI-studie til maskinlæring og generativ AI, drevet af fundamentmodeller. Med watsonx.ai-studiet kan AI-byggere, herunder dataforskere, applikationsudviklere og forretningsanalytikere, træne, validere, tune og implementere både traditionel maskinlæring og nye generative AI-funktioner. Watsonx.ai er designet til at lette samarbejde og skalerbarhed i AI-applikationsudvikling og kan implementeres i hybride cloudmiljøer.

Tjek vores syntetiske datageneratortjeneste på watsonx.ai af enten adgang til vores gratis prøveperiode or planlægning af et 30-minutters opkald med en af vores watsonx.ai produktspecialister til en guidet gennemgang.

Udforsk fordelene ved watsonx.ai

Lås op for din gratis prøveperiode i dag

Syntetiske data på IBM watsonx.ai, produktchef

Mere fra Data og Analytics

November 28, 2023

IBM Db2 er nu tilgængelig på Amazon RDS

4 min læs - IBM® Db2® gennemgår en renæssance. Vi mærker optimismen og begejstringen, når vi taler med vores kunder og samarbejdspartnere. Og vi ser det i vores tal: Kvartal efter kvartal fortsætter Db2 med at vokse omsætningen og vinde markedsandele. Kunder stoler mere end nogensinde før på Db2 til at køre deres missionskritiske applikationer og arbejdsbelastninger. Disse applikationer styrer verdensøkonomien. Db2 integrerer sig dybt i og sikrer direkte hurtig, sikker og præcis behandling af billioner af daglige transaktioner på tværs af finansielle...

November 28, 2023

Udnyttelse af populære open source AI-rammer til at infundere AI i IBM Z- og IBM LinuxONE-applikationer

2 min læs - Open source og kunstig intelligens Open source-software har haft en betydelig indflydelse på verden af kunstig intelligens (AI) og har spillet en nøglerolle i dens udvikling. Tilgængelighed for et bredere publikum, hurtig iteration og øget samarbejde mellem udviklere, dataforskere, forskere og hele AI-fællesskabet har transformeret AI og accelereret dens udvikling og modenhed. Open source og virksomheder Open source er blevet mainstream og har vundet enorm popularitet i de senere år. En O'Reilly-undersøgelse fra 2020 om åben...

November 7, 2023

IBM og VMware hjælper virksomheder med at indføre generativ kunstig intelligens med watsonx på stedet

4 min læs - IBM og VMware arbejder sammen om at bringe IBM watsonx til lokale miljøer på VMware® Private AI og Red Hat® OpenShift® for at hjælpe med at muliggøre hurtige, gennemsigtige generative AI-funktioner. I 2023 har vi set AI-adoption blive mainstream, da virksomheder søger at drive transformative innovationer. Generativ AI, især, har fanget fantasien hos organisationer som et middel til at generere nyt indhold baseret på en række input. Generative AI-brugssager og -opgaver spænder vidt - fra kodegenerering til kontaktcentre...

August 2, 2023

Se, hvad der er nyt i SingleStoreDB med IBM 8.0

3 min læs - På trods af årtiers fremskridt inden for databasesystemer er bygherrer gået på kompromis med mindst én af følgende: hastighed, pålidelighed eller lethed. De har to muligheder: Én, de kunne få en dokumentdatabase, der er hurtig og nem, men som ikke kan stoles på til missionskritiske transaktionsapplikationer. Eller to, de kunne stole på et cloud-datavarehus, der er nemt at konfigurere, men som kun tillader haltende analyser. Selv da mangler hver løsning noget, hvilket tvinger bygherrer til at implementere andre databaser til...

IBM nyhedsbreve

Få vores nyhedsbreve og emneopdateringer, der leverer den seneste tankelederskab og indsigt i nye trends.

Tilmeld nu

Flere nyhedsbreve

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Tidsstempel: November 29, 2023

Tidsstempel: Jan 3, 2024