Syntetisk datagenerering: bygga förtroende genom att säkerställa integritet och kvalitet - IBM Blog

Återutgiven av Platon

anhängare: 0

Med framväxten av nya framsteg och tillämpningar inom maskininlärningsmodeller och artificiell intelligens, inklusive generativ AI, generativa motstridiga nätverk, datorseende och transformatorer, försöker många företag ta itu med sina mest pressande datautmaningar i den verkliga världen med hjälp av båda typerna av syntetisk data: strukturerad och ostrukturerad. Strukturerade syntetiska datatyper är kvantitativa och inkluderar tabelldata, såsom siffror eller värden, medan ostrukturerade syntetiska datatyper är kvalitativa och inkluderar text, bilder och video. Företagsledare och datavetare inom olika branscher betonar behovet av ny datasyntes för att åtgärda dataluckor, skydda känslig information och förbättra deras hastighet till marknaden. De identifierar och utforskar redan flera verkliga användningsfall för syntetisk data, som:

Genererar syntetiska tabelldata för att öka provstorleken och kantfall. Du kan kombinera dessa data med riktiga datamängder för att förbättra AI-modellträning och prediktiv noggrannhet.
Skapa syntetiska testdata för att påskynda testning, optimering och validering av nya applikationer och funktioner.
Utforska "vad-om"-scenarier eller nya affärshändelser med hjälp av syntetisk data syntetiserad från agentbaserade simuleringar.
Användning av syntetisk data för att förhindra exponering av känslig data i maskininlärningsalgoritmer.
Dela och tjäna pengar på en högkvalitativ, integritetsskyddad syntetisk replika med interna intressenter eller externa affärspartners.

Som sagt, syntetisering av data ger mer skydd mot traditionell datasekretess och dataanonymiseringstekniker (tänk på maskering), samtidigt som det gör ett bättre jobb med att bevara datas användbarhet. Men det råder fortfarande brist på förtroende bland företagsledare. För att bygga upp det förtroendet och driva bred användning måste leverantörer av verktyg för syntetisk datagenerering ta itu med två kritiska frågor som många företagsledare ställer: Kommer syntetisk data att utsätta mitt företag för ytterligare dataintegritetsrisker? Hur exakt återspeglar syntetiska data mina befintliga data?

Lyckligtvis finns det redan bästa praxis på plats för att hjälpa företag att utvärdera dessa frågor och förhoppningsvis bygga upp det förtroende de behöver för syntetisk data för att bli mer konkurrenskraftiga på dagens ständigt föränderliga marknader. Låt oss ta en titt.

Säkerställande av syntetisk datasekretess

Även om de betraktas som konstgjorda data eller "falska data" eftersom de är datorgenererade snarare än skapade av faktiska händelser (som ett kundköp, en internetinloggning eller en patientdiagnos), kan syntetisk data fortfarande avslöja personlig identifierbar information (PII) när den används som träningsdata för AI-modeller. Till exempel, om ett företag prioriterar noggrannhet vid generering av syntetisk data, kan resultatet av misstag inkludera för många personligt identifierbara attribut, vilket ökar företagets integritetsriskexponering omedvetet. Eftersom modelleringstekniker blir allt mer sofistikerade inom datavetenskap, inklusive djupinlärning och prediktiva och generativa modeller, måste företag och leverantörer arbeta hårt för att förhindra oavsiktliga kopplingar som kan läcka en persons identitet och utsätta dem för attacker från tredje part.

Lyckligtvis kan företag som är intresserade av syntetisk data vidta åtgärder för att minska sin integritetsrisk:

Behåll din data där den är

Medan många företag migrerar sina befintliga mjukvaruapplikationer till molnet för kostnadsbesparingar, förbättrad prestanda och skalbarhet, fortsätter installationer på plats att spela en avgörande roll för att förbättra integritet och skydd. Detta gäller delvis för syntetiska data. När man hanterar helsyntetisk data (data genererad utan befintlig data för modellträning) eller syntetisk data som inte innehåller några konfidentiella eller PII, finns det minimal risk förknippad med att använda en offentlig molndistributionsmetod. Företag bör dock överväga lokala distributioner när deras syntetiska data är beroende av befintliga känsliga data. Även om tredjepartsmolnleverantörer erbjuder robusta inbyggda säkerhets- och integritetsskydd, kan sändning och lagring av känslig PII-kunddata i sådana moln utsätta din organisation för potentiella risker och kan blockeras av ditt integritetsteam.

Ha kontroll och robust skydd

Inte alla fall av syntetisk dataanvändning kräver integritet, men vissa gör det. Därför bör ledare för risk, säkerhet och efterlevnad implementera en mekanism för att kontrollera sin önskade nivå av integritetsrisk under den syntetiska datagenereringsprocessen. "Differentiell integritet" är en sådan mekanism, som gör det möjligt för datavetare och riskteam att hantera sin önskade integritetsnivå (vanligtvis inom ett epsilon-intervall på 1 till 10, där 1 representerar högsta integritet). Denna metod maskerar bidraget från varje individ, vilket gör det omöjligt att sluta sig till specifik information om en person, inklusive om deras information överhuvudtaget användes. Den identifierar automatiskt sårbara individuella datapunkter och introducerar "brus" för att dölja deras specifika information. Även om att lägga till brus något minskar utdatanoggrannheten (detta är "kostnaden" för differentiell integritet), äventyrar det inte användbarheten eller datakvaliteten jämfört med traditionella datamaskeringstekniker. Med andra ord, en differentiellt privat syntetisk datauppsättning återspeglar fortfarande de statistiska egenskaperna för din riktiga datauppsättning. Dessutom finns det fördelar med att använda differentiell integritetsteknik, inklusive robust dataskydd mot potentiella integritetsattacker, bevisbara integritetsgarantier avseende kumulativ risk från successiva datasläpp och datatransparens, eftersom det inte finns något behov av att hålla differentiell privat beräkning eller parametrar hemliga.

Ha insikt i sekretessrelaterade mätvärden

När differentiell integritet inte är ett alternativ, bör företagsanvändare ha en syn på integritetsrelaterade mätvärden för att hjälpa dem att förstå omfattningen av deras integritetsexponering. Här är två vanliga mått som, även om de inte är heltäckande, fungerar som en solid grund:

Läckagepoäng: Denna poäng mäter andelen rader i den syntetiska datamängden som är identiska med den ursprungliga datamängden. Även om en syntetisk datauppsättning kan uppnå hög noggrannhet, kan den äventyra integriteten genom att inkludera för mycket av originaldata. Dataläckage uppstår när originaldata eller faktiska data innehåller information om målet, men sådan data kommer inte att vara tillgänglig när AI-modellen används för förutsägelse eller analys.
Närhetspoäng: Närhet bestäms genom att beräkna avståndet mellan originaldata och syntetiska datamängder. Ett mindre avstånd indikerar en högre integritetsrisk eftersom det gör det lättare att isolera vissa rader från de syntetiska tabelldata.

Utvärdera syntetisk datakvalitet

Företagsomfattande användning kräver också att företagsledare och datavetare har förtroende för kvaliteten på den syntetiska datautmatningen. Specifikt måste de snabbt och enkelt förstå hur nära den syntetiska datan upprätthåller de statistiska egenskaperna hos deras befintliga datamodell. Medan vissa användningsfall motiverar syntetiska data med lägre kvalitet, som illustrativa data för att skapa realistiska produktdemos, interna utbildningstillgångar eller vissa AI-modellutbildningsscenarier, kräver andra användningsfall en hög grad av trohet, till exempel när man syntetiserar patientdata i sjukvården. I det senare användningsfallet, eftersom ett vårdföretag kan använda den syntetiska produktionen för att identifiera nya patientinsikter som informerar nedströms beslutsfattande, måste företagsledare se till att den syntetiska informationen korrekt återspeglar villkoren för deras faktiska verksamhet.

Låt oss titta närmare på trohet och andra kvalitetsrelaterade mätvärden:

Fidelity

Ett viktigt mått är "trohet". Den bedömer kvaliteten på den syntetiska datan i termer av dess likhet med verkliga data och datamodellen. Företag bör få insikt inte bara i kolumnfördelningar utan också i relationerna mellan andra kolumner, både en-till-en (univariat) och en-till-många (multivariat). Att förstå det senare är avgörande på grund av komplexiteten och storleken hos de flesta befintliga datatabeller. Lyckligtvis utmärker sig de senaste neurala nätverken och generativa AI-modellerna när det gäller att fånga dessa intrikata relationer i databastabeller och tidsseriedata. Tillförlitlighetsmått visas med hjälp av stapeldiagram och korrelationstabeller, som, även om de kan vara långa, ger värdefulla insikter. Om du inte redan har tillgång till trohetsanalys kan du börja med att använda Python-paket med öppen källkod, som t.ex. SD-mått.

Verktyget

AI-modeller kräver tillräckligt med data för effektiv träning och att få riktiga datamängder kan vara tidskrävande. Syntetisk data ger ett snabbare alternativ för att träna maskininlärningsmodeller. Därför är det värdefullt att förstå nyttan av syntetisk data i AI-modellträning innan du delar den med lämpliga team. I huvudsak mäter detta mått den relativa prediktiva noggrannheten hos en maskininlärningsmodell när den tränas på verklig data jämfört med syntetisk data.

Rättvisa

Ett annat viktigt mått är "rättvisa", ett ämne som får framträdande plats på grund av potentiella fördomar som finns i företagsinsamlade datamängder. Om den befintliga datamängden uppvisar partiskhet kommer den syntetiska datan också att vara partisk. Att få insikt i omfattningen av denna snedvridning kan hjälpa företag att känna igen och eventuellt korrigera den. Även om det inte är lika utbrett i dagens syntetiska datalösningar och inte lika kritiskt som integritet, trohet eller användbarhet, kommer en förståelse för partiskheten i din syntetiska data att hjälpa företag att fatta välgrundade beslut.

Hur man kommer igång med syntetisk data i watsonx.ai

AI-byggare och datavetare kan generera syntetiska tabelldata genom att importera data från en databas, ladda upp en fil eller skapa ett anpassat dataschema i IBM® watsonx.ai™. Denna statistikbaserade modell kan användas för att generera data för att förbättra den prediktiva noggrannheten hos AI-träningsmodeller genom kantfall och större urvalsstorlekar. Dessa data kan också användas för att förbättra realismen i klientdemos och utbildningsmaterial för anställda.

Watsonx.ai är en företagsklar nästa generations AI-studio för maskininlärning och generativ AI, driven av grundmodeller. Med studion watsonx.ai kan AI-byggare, inklusive datavetare, applikationsutvecklare och affärsanalytiker, träna, validera, trimma och distribuera både traditionell maskininlärning och nya generativa AI-funktioner. Watsonx.ai är designad för att underlätta samarbete och skalbarhet i AI-applikationsutveckling och kan distribueras i hybridmolnmiljöer.

Kolla in vår tjänst för syntetisk datagenerator på watsonx.ai av endera tillgång till vår kostnadsfria provperiod or schemalägger ett 30-minuterssamtal med en av våra watsonx.ai produktspecialister för en guidad genomgång.

Utforska fördelarna med watsonx.ai

Lås upp din kostnadsfria provperiod idag

Syntetisk data om IBM watsonx.ai, produktchef

Mer från Data och Analytics

November 28, 2023

IBM Db2 är nu tillgänglig på Amazon RDS

4 min läs - IBM® Db2® genomgår en renässans. Vi känner optimismen och spänningen när vi pratar med våra kunder och affärspartners. Och vi ser det i våra siffror: kvartal efter kvartal fortsätter Db2 att öka intäkterna och ta marknadsandelar. Kunder litar mer än någonsin på Db2 för att köra sina verksamhetskritiska applikationer och arbetsbelastningar. Dessa applikationer styr världens ekonomi. Db2 fördjupar sig djupt i och säkerställer direkt snabb, säker och korrekt bearbetning av biljoner dagliga transaktioner över finansiella...

November 28, 2023

Utnyttja populära ramverk för öppen källkod för AI för att ingjuta AI i IBM Z- och IBM LinuxONE-applikationer

2 min läs - Öppen källkod och artificiell intelligens Programvara med öppen källkod har haft en betydande inverkan på världen av artificiell intelligens (AI) och har spelat en nyckelroll i dess utveckling. Tillgänglighet för en bredare publik, snabb iteration och ökat samarbete mellan utvecklare, datavetare, forskare och hela AI-gemenskapen har förändrat AI och påskyndat dess utveckling och mognad. Öppen källkod och företag Öppen källkod har blivit mainstream och vunnit enorm popularitet de senaste åren. En O'Reilly-undersökning 2020 om öppen...

November 7, 2023

IBM och VMware hjälper företag att använda generativ AI med watsonx på plats

4 min läs - IBM och VMware arbetar tillsammans för att föra IBM watsonx till lokala miljöer på VMware® Private AI och Red Hat® OpenShift®, för att möjliggöra snabba, transparenta generativa AI-funktioner. År 2023 har vi sett AI-antagande bli mainstream när företag försöker driva transformativa innovationer. Generativ AI, i synnerhet, har fångat organisationers fantasi som ett sätt att generera nytt innehåll baserat på en mängd olika input. Generativa AI-användningsfall och -uppgifter sträcker sig långt – från kodgenerering till kontaktcenter...

Augusti 2, 2023

Se vad som är nytt i SingleStoreDB med IBM 8.0

3 min läs - Trots årtionden av framsteg inom databassystem har byggare kompromissat med minst ett av följande: hastighet, tillförlitlighet eller lätthet. De har två alternativ: ett, de kan få en dokumentdatabas som är snabb och enkel, men som inte går att lita på för affärskritiska transaktionsapplikationer. Eller två, de kan lita på ett molndatalager som är lätt att konfigurera, men som bara tillåter eftersläpande analyser. Även då saknar varje lösning något, vilket tvingar byggare att distribuera andra databaser för...

IBMs nyhetsbrev

Få våra nyhetsbrev och ämnesuppdateringar som ger det senaste tankeledarskapet och insikter om nya trender.

Prenumerera nu

Fler nyhetsbrev

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Tidsstämpel: November 29, 2023

Tidsstämpel: Jan 3, 2024