Att övervinna en värld som svämmar över av smutsiga data

Att övervinna en värld som svämmar över av smutsiga data

Källnod: 2574986

Som ett osynligt virus plågar "smutsiga data" dagens affärsvärld. Det vill säga, felaktiga, ofullständiga och inkonsekventa data sprider sig i dagens "big data"-centrerade värld.

Att arbeta med smutsig data kostar företag miljontals dollar årligen. Det minskar effektiviteten och effektiviteten hos avdelningar som spänner över företaget och begränsar ansträngningarna att växa och skala. Det hämmar konkurrenskraften, ökar säkerhetsriskerna och ger problem med efterlevnaden.

De som ansvarar för Datahantering har brottats med denna utmaning i flera år. Många av de för närvarande tillgängliga verktygen kan hantera datahanteringsproblem för silade team inom avdelningar, men inte för företaget i stort eller för bredare dataekosystem. Ännu värre är att dessa verktyg ofta skapar ännu mer data som måste hanteras – och även den data kan bli smutsig, vilket orsakar mer huvudvärk och förlust av intäkter.

Förstå Dirty Data

Smutsig data hänvisar till alla uppgifter som är vilseledande, duplicerad, felaktig eller felaktig, ännu inte integrerad, bryter mot affärsregler, saknar enhetlig formatering eller innehåller fel i skiljetecken eller stavning.

För att förstå hur smutsig data har blivit allestädes närvarande under de senaste decennierna, föreställ dig följande scenario: 

Långivare på en stor bank blir förbryllade när de upptäcker att nästan alla bankens kunder är astronauter. Med tanke på att NASA bara har en några dussin astronauter, det går inte ihop. 

Vid ytterligare utforskning upptäcker utlåningsavdelningen att banktjänstemän som öppnade nya konton hade infogat "astronaut" i kundyrket. Långivarna får veta att arbetsbeskrivningen är irrelevant för deras motsvarigheter som ansvarar för nya konton. Banktjänstemännen hade valt "astronaut", det första tillgängliga alternativet, helt enkelt för att gå snabbare för att skapa nya konton.

Långivarna måste dock ha sina kunders korrekta sysselsättningar registrerade för att få sina årliga bonusar. För att råda bot på situationen utvecklar låneavdelningen en egen, separat databas. De kontaktar varje kund, lär sig rätt yrke och infogar det i sin databas.

Nu har banken två databaser med i stort sett samma information, förutom ett fält. Om en tredje avdelning vill komma åt informationen i dessa databaser finns det inget system för att avgöra vilken databas som är korrekt. Så den tredje avdelningen kan också skapa sin egen databas.

Liknande scenarier har utspelat sig i organisationer över hela landet i decennier.

Spirande deponier för digitala data

Problemet började på 1990-talet med digital omvandling bom. Företag implementerade företagsprogramvara för att förbättra sina affärsprocesser. Software-as-a-service-produkter från Salesforce, till exempel, möjliggjorde bättre sätt att hantera försäljnings- och marknadsföringssystem.

Men 30 år senare har en sådan äldre infrastruktur resulterat i en Data Management-mardröm. Olika datasilos med mängder av duplicerad, ofullständig och felaktig information peppar företagens och den offentliga sektorns landskap. Dessa silor omfattar verksamhetsgrenar, geografier och funktioner som äger respektive övervakar deras datakällor.

Utöver det har datagenereringen ökat exponentiellt under decennierna. Varje affärsprocess kräver nu sin egen programvara, som producerar allt mer data. Applikationer loggar varje åtgärd i sina egna databaser, och hinder för att bryta de nyskapade datatillgångarna har dykt upp.

Under tidigare decennier var ordförråd som definierade data specifik för den affärsprocess som skapade den. Ingenjörer var tvungna att översätta dessa lexikon till diskreta ordböcker för de system som förbrukar data. Kvalitetsgarantier fanns vanligtvis inte. Som i astronautexemplet ovan var data som var användbar av en affärsfunktion oanvändbar av andra. Och tillgängligheten till data från ursprungliga affärsprocesser var i bästa fall begränsad för funktioner som annars skulle ha uppnått optimering.

The Copy Conundrum

För att lösa detta problem började ingenjörer göra kopior av originaldatabaser eftersom det tills nyligen var det bästa tillgängliga alternativet. De omvandlade sedan dessa kopior för att uppfylla kraven för den konsumerande funktionen, och tillämpade regler för datakvalitet och korrigeringslogik exklusivt för den konsumerande funktionen. De gjorde många kopior och laddade in dem i flera datalager och analyssystem.

Resultatet? Ett överflöd av datauppsättningskopior som läses som "smutsiga" för vissa delar av organisationen, vilket skapar förvirring om vilken kopia som är den rätta. Företag har idag hundratals kopior av källdata över operativa datalager, databaser, datalager, datasjöar, analyssandlådor och kalkylblad inom datacenter och flera moln. Ändå har informationschefer och datachefer varken kontroll över antalet genererade kopior eller vetskap om vilken version som representerar en verklig källa till sanning.

En mängd mjukvaruprodukter för datastyrning finns tillgängliga för att få ordning på den här röran. Dessa inkluderar datakataloger, datakvalitetsmätning och problemlösningssystem, referensdatahanteringssystem, masterdatahanteringssystem, upptäckt av datalinje och ledningssystem.

Men dessa botemedel är dyra och tidskrävande. Ett typiskt projekt för hantering av masterdata för att integrera kunddata från flera datakällor från olika produktlinjer kan ta år och kosta miljontals dollar. Samtidigt ökar mängden smutsiga data i hastigheter som går snabbare än organisatoriska ansträngningar för att installera kontroller och styrning.

Dessa tillvägagångssätt är fulla av brister. De förlitar sig på manuella processer, utvecklingslogik eller affärsregler för att utföra uppgifterna att inventera, mäta och åtgärda data. 

Återställer kontroll

Tre nya teknologier är bäst lämpade för att ta itu med den nuvarande situationen: AI- och maskininlärningsdriven datastyrning, semantiska interoperabilitetsplattformar som kunskapsgrafer och datadistributionssystem som distribuerade reskontra: 

1. AI- och maskininlärningsdrivna Data Governance-lösningar minska beroendet av människor och kod. AI och maskininlärning ersätter manuellt arbete med åtgärder som inkluderar automatisk taggning, organisering och övervakning av stora mängder data. Data Management-transformation och migrering minskar IT-kostnaderna. Organisationer kan också bygga mer robusta och hållbara arkitekturer som uppmuntrar datakvalitet i stor skala.

2. Kunskapsdiagram tillåta inbyggd interoperabilitet för olika datatillgångar så att information kan kombineras och förstås i ett gemensamt format. Genom att utnyttja semantiska ontologier kan organisationer framtidssäkra data med sammanhang och ett gemensamt format för återanvändning av flera intressenter.

3. Distribuerade reskontra, differentiell integritet och virtualisering eliminera behovet av att fysiskt kopiera data. Distribuerade reskontra består av federerade och styrda databaser som kan användas över affärsenheter och organisationer. Differentiell integritet gör det möjligt att maskera data för att följa efterlevnadskraven, samtidigt som de delas med intressenter. Virtualisering tillåter spinn upp av data i en virtuell snarare än fysisk miljö.

När CIO:er och CDO:er förstår att problemets rot är äldre infrastruktur som skapar datasilos, kan de förbättra underliggande arkitekturer och datainfrastrukturstrategier.

Smutsiga data begränsar en organisations förmåga att fatta välgrundade beslut och arbeta med precision och smidighet. Organisationer måste ta kontroll över sina data och uppmuntra datainteroperabilitet, kvalitet och tillgänglighet. Att göra det kommer att ge konkurrensfördelar och radera säkerhets- och efterlevnadssårbarheter.

Tidsstämpel:

Mer från DATAVERSITET