A piszkos adatok világáradatának leküzdése

A piszkos adatok világáradatának leküzdése

Forrás csomópont: 2574986

Mint egy láthatatlan vírus, a „piszkos adatok” sújtják a mai üzleti világot. Vagyis a mai „big data”-központú világban szaporodnak a pontatlan, hiányos és inkonzisztens adatok.

A piszkos adatokkal való munka évente több millió dollárba kerül a vállalatoknak. Csökkenti a vállalaton átívelő részlegek hatékonyságát és eredményességét, és csökkenti a növekedésre és a méretezésre irányuló erőfeszítéseket. Gátolja a versenyképességet, növeli a biztonsági kockázatokat, és megfelelési problémákat vet fel.

A felelősök Mérési adatok kezelése évek óta küzdenek ezzel a kihívással. A jelenleg rendelkezésre álló eszközök közül sok képes megoldani az adatkezelési problémákat a részlegeken belüli összefüggő csapatok esetében, de nem a vállalat egésze vagy a tágabb adatökoszisztémák esetében. Ami még rosszabb, ezek az eszközök gyakran még több kezelendő adatot hoznak létre – és ezek az adatok is piszkossá válhatnak, ami több fejfájást és bevételkiesést okoz.

A piszkos adatok megértése

Piszkos adatok bármilyen adatra utal amely félrevezető, ismétlődő, hibás vagy pontatlan, még nem integrált, üzleti szabályokat sért, nem egységes formázást tartalmaz, illetve írás- vagy helyesírási hibákat tartalmaz.

Képzelje el a következő forgatókönyvet, hogy megértse, milyen piszkos adatok váltak mindenütt az elmúlt évtizedekben: 

Egy nagy bank hitelezői megzavarodnak, amikor rájönnek, hogy a bank ügyfelei közül szinte minden űrhajós. Figyelembe véve, hogy a NASA csak a néhány tucat űrhajós, ennek semmi értelme. 

További kutatások során a hitelezési osztály rájön, hogy az új számlát nyitó banki tisztviselők „űrhajós”-t írnak be az ügyfélfoglalkozási mezőbe. A hitelezők megtudják, hogy a munkaköri leírás irreleváns az új számlákért felelős partnereik számára. A banktisztek az „űrhajóst”, az első elérhető lehetőséget választották, egyszerűen azért, hogy gyorsabban hozhassanak létre új számlákat.

A hitelezőknek azonban fel kell tüntetniük ügyfeleik megfelelő foglalkozását, hogy megkaphassák éves bónuszukat. A helyzet orvoslására a hitelezési osztály saját, külön adatbázist fejleszt. Minden ügyféllel felveszik a kapcsolatot, megtanulják a megfelelő foglalkozást, és beillesztik az adatbázisukba.

Jelenleg a banknak két olyan adatbázisa van, amelyek egy mezőn kívül lényegében azonos információkat tartalmaznak. Ha egy harmadik részleg hozzá akar férni az adatbázisokban lévő információkhoz, akkor nincs olyan rendszer, amely meghatározná, melyik adatbázis pontos. Tehát ez a harmadik részleg is létrehozhat saját adatbázist.

Hasonló forgatókönyvek évtizedek óta játszódnak a szervezetekben országszerte.

Növekvő digitális adatlerakók

A bajok az 1990-es években kezdődtek azzal digitális átalakítás bumm. A vállalatok vállalati szoftvereket vezettek be üzleti folyamataik javítása érdekében. A Salesforce szoftver-as-a-service termékei például jobb módszereket tettek lehetővé az értékesítési és marketingrendszerek kezelésében.

De 30 évvel később egy ilyen örökölt infrastruktúra egy adatkezelési rémálmot eredményezett. Különböző adattárolók duplikált, hiányos és helytelen információkkal borítják a vállalati és a közszféra tájait. Ezek a silók olyan üzletágakat, földrajzi területeket és funkciókat foglalnak magukban, amelyek birtokolják és felügyelik adatforrásaikat.

Ezen túlmenően az adattermelés exponenciálisan nőtt az évtizedek során. Minden üzleti folyamathoz ma már saját szoftverre van szükség, amely egyre több adatot állít elő. Az alkalmazások minden műveletet naplóznak natív adatbázisaikban, és akadályok merültek fel az újonnan létrehozott adatvagyon bányászatában.

A korábbi évtizedekben az adatokat meghatározó szókincs az azokat létrehozó üzleti folyamatra volt jellemző. A mérnököknek ezeket a lexikonokat külön szótárakká kellett lefordítaniuk az adatokat fogyasztó rendszerek számára. A minőségi garanciák általában nem léteztek. A fenti űrhajós példához hasonlóan az egyik üzleti funkció által használható adatok mások számára nem voltak használhatók. Az eredeti üzleti folyamatokból származó adatokhoz való hozzáférés pedig a legjobb esetben is korlátozott volt azoknál a funkcióknál, amelyek egyébként optimalizáltak volna.

A Copy Conundrum

A probléma megoldására a mérnökök elkezdtek másolatokat készíteni az eredeti adatbázisokról, mert egészen a közelmúltig ez volt a rendelkezésre álló legjobb megoldás. Ezt követően átalakították ezeket a másolatokat, hogy megfeleljenek a fogyasztó funkció követelményeinek, az adatminőségi szabályokat és a fogyasztási funkcióra kizárólagos helyreállítási logikát alkalmazva. Sok másolatot készítettek és több adattárházba és elemző rendszerbe töltötték be.

Az eredmény? Az adatkészlet-példányok túlcsordulása, amelyek „piszkosnak” tűnnek a szervezet egyes részei számára, zavart okozva, hogy melyik példány a megfelelő. A vállalatok ma több száz másolattal rendelkeznek a forrásadatokból operatív adattárolókban, adatbázisokban, adattárházakban, adattókban, analitikai sandboxokban és adatközpontokban és több felhőben lévő táblázatokban. A vezető információs tisztek és a vezető adatfelügyelők azonban nem tudják ellenőrizni a másolatok számát, és nem tudják, hogy melyik verzió jelenti az igazság valódi forrását.

Számos Data Governance szoftvertermék áll rendelkezésre, amelyek némi rendet teremtenek ebben a zűrzavarban. Ide tartoznak az adatkatalógusok, az adatminőség-mérő és problémamegoldó rendszerek, a referenciaadat-kezelő rendszerek, a törzsadat-kezelő rendszerek, az adatsor-felderítés és a menedzsmentrendszerek.

De ezek a jogorvoslatok drágák és időigényesek. Egy tipikus törzsadat-kezelési projekt, amelynek célja a különböző termékcsaládokból származó, több adatforrásból származó ügyféladatok integrálása, évekig tarthat, és dollármilliókba kerülhet. Ugyanakkor a piszkos adatok mennyisége olyan sebességgel növekszik, amely meghaladja a vezérlők és irányítás telepítésére irányuló szervezeti erőfeszítéseket.

Ezek a megközelítések hemzsegnek a hibáktól. Kézi folyamatokra, fejlesztési logikára vagy üzleti szabályokra támaszkodnak az adatok leltározási, mérési és javítási feladatainak végrehajtása során. 

A vezérlés helyreállítása

Három feltörekvő technológia a legalkalmasabb a jelenlegi helyzet kezelésére: a mesterséges intelligencia és a gépi tanulás által vezérelt adatirányítás, a szemantikai interoperabilitási platformok, például a tudásgráfok és az adatelosztó rendszerek, például az elosztott főkönyvek: 

1. AI és gépi tanulás által vezérelt adatkezelési megoldások csökkenti az emberektől és kódoktól való függőséget. A mesterséges intelligencia és a gépi tanulás felváltja a kézi munkát olyan műveletekkel, amelyek magukban foglalják az automatikus címkézést, a rendszerezést és a hatalmas adatsávok felügyeletét. Az adatkezelés átalakítása és migrációja csökkenti az informatikai költségeket. A szervezetek robusztusabb és fenntarthatóbb architektúrákat is építhetnek, amelyek nagyarányú adatminőséget biztosítanak.

2. Tudásgráfok lehetővé teszik a különböző adateszközök natív interoperabilitását, hogy az információk egy közös formátumban kombinálhatók és megérthetők legyenek. A szemantikai ontológiák kihasználásával a szervezetek jövőbiztos adatokat állíthatnak elő kontextussal és közös formátummal, amelyet több érdekelt fél újra felhasználhat.

3. Elosztott főkönyvek, differenciált adatvédelem és virtualizáció nincs szükség az adatok fizikai másolására. Az elosztott főkönyvek egyesített és szabályozott adatbázisokat tartalmaznak, amelyek az üzleti egységek és szervezetek között használhatók. A differenciált adatvédelem lehetővé teszi az adatok elfedését, hogy megfeleljenek a megfelelőségi követelményeknek, miközben egyidejűleg megosztják azokat az érdekelt felekkel. A virtualizáció lehetővé teszi az adatok virtuális, nem pedig fizikai környezetben történő felpörgetését.

Amint az informatikai igazgatók és a CDO-k megértik, hogy a probléma gyökere az adatsilókat létrehozó örökölt infrastruktúra, javíthatják a mögöttes architektúrákat és adatinfrastruktúra-stratégiákat.

A piszkos adatok korlátozzák a szervezet azon képességét, hogy megalapozott döntéseket hozzanak, és precízen és agilisan működjenek. A szervezeteknek át kell venniük az irányítást adataik felett, és ösztönözniük kell az adatok interoperabilitását, minőségét és hozzáférhetőségét. Ha így tesz, versenyelőnyökhöz vezet, és törli a biztonsági és megfelelőségi sebezhetőségeket.

Időbélyeg:

Még több ADATVERZITÁS