4 könnyen elkerülhető nagy hatású adatminőségi probléma

4 könnyen elkerülhető nagy hatású adatminőségi probléma

Forrás csomópont: 1897409

Amikor a leendő ügyfelekkel beszélgetünk, az első kérdésük általában az adatminőség alapjait érinti, beleértve azt, hogy mi az, hogyan mérjük, mi történik dél felé, és hogyan előzhetők meg az adatminőséggel kapcsolatos problémák.

Válaszaink mindig visszatérnek a küldetésünk alapját képező maghoz: az adatok a modern vállalat éltető elemei, és kritikus fontosságú az adatokon alapuló üzleti döntések meghozatalához szükséges bizalom. Az adatminőség tehát ennek az éltető elemnek a minősége. Annak érdekében, hogy megfelelően működtesse az üzleti motort, fontos, hogy folyamatosan pontos és átfogó adatminőség-ellenőrzéseket végezzen. Az is fontos, hogy ezeket az ellenőrzéseket azokra az adatokra összpontosítsuk, amelyek potenciálisan a legnagyobb hatással lehetnek az üzleti döntéshozatalra – különösen akkor, ha az adatok minőségét nagyarányúan próbálja nyomon követni.

Mi a nehéz az adatminőség nagyarányú megfigyelésében?

Az „adatminőség” minden említése azt a képet festi, hogy egy tartományi szakértő fárasztóan ellenőrzi és kézzel értelmezi az adatrekordokat egyenként. Olyan ez, mint egy elemzési gyakorlat, amely tele van manuális ítéletekkel, amelyek az évek során felhalmozott kontextus és törzsi ismeretek bányaiból merítenek. És ez olyan folyamatnak tűnik, amelyet nem lehet átméretezni.

Méltányos a szkepticizmus a nagyarányú adatminőség-ellenőrzések kiépítésével kapcsolatban. Az adatminőséggel kapcsolatos kérdések hagyományosan az üzletághoz kapcsolódnak. Ilyen kérdések az adatok végül árnyalt hibák, például helytelen nyitvatartási idő online megjelenítése egy hagyományos üzlethelyiségnél, ami hatással lehet az ügyfelek marketingkampányban való elköteleződésére; vagy egy újonnan tervezett ruhadarab helytelenül van felcímkézve; vagy az értékesítés helyén a helytelen méretet adják meg, ami helytelen adatokat vezetne be a készletjelentésbe vagy az értékesítési előrejelzésekbe egy adott piacra vonatkozóan.

Az adatminőség manapság sokkal szélesebb spektrumot jelent a kicsinyített modern adathalmazban. Különösen azok a problémák, amelyek a nagy léptékű adatműveletekből fakadnak, különböznek a szubjektív üzletági adatminőségi problémáktól. Tehát bár a szubjektív ellenőrzéseket nehéz skálázni, talán a probléma, amelyet valóban nagymértékben kell megoldani, mégsem olyan szubjektív.

Nem minden adatminőségi probléma szubjektív

A modern adathalmazban az adatminőségi kérdések a szemantikai és szubjektív – nehezen definiálható – a könnyen meghatározható működési és objektívekig terjedhetnek. Például objektív és könnyebben meghatározható problémák lehetnek az üres mezőkkel megjelenő adatok, a duplikált tranzakciók rögzítése vagy akár a hiányzó tranzakciók. Konkrétabb, működési problémák lehetnek a kritikus jelentéskészítéshez nem időben történő adatfeltöltés, vagy az adatséma változása, amely egy fontos területet kihagy.

Az, hogy egy adatminőségi probléma erősen szubjektív vagy egyértelműen objektív, attól függ, hogy az adathalom melyik rétegéből származik. Egy modern adathalom és az azt támogató csapatok általában két nagy rétegre tagolódnak: 1) az adatplatform vagy az infrastruktúra réteg; és 2) az analitikai és jelentési réteg. A platform csapat, amelyből áll adatmérnökök, karbantartja az adatinfrastruktúrát és az adatok előállítójaként működik. Ez a csapat az elemző mérnököktől az adatelemzőkig és az üzleti érdekelt felekig terjedő elemző réteg fogyasztóit szolgálja ki.

A verem legfelsőbb rétegeiben a problémák általában tartományspecifikusak, szubjektívek, és nehezen észlelhetők automatikusan. A platformrétegben az adatminőséggel kapcsolatos problémák az adatműveletek hibáiból erednek. És bár ezeket a platformszintű problémákat túl gyakran feltételezik ahhoz, hogy szubjektívek és bonyolultak legyenek a nyomon követésükhöz, ezek általában „kivágott és száraz” problémák.

A működési adatminőséggel kapcsolatos kérdések támogatják az SLI-k/SLO-k/SLA-k specifikációján alapuló objektív kritériumok csatolását, ellentétben a szubjektív kérdésekkel, amelyek egy üzleti érdekelt féltől, például egy elemzőtől manuális megítélést igényelnek. És ezek a problémák általában egy kis közös kategóriákba csoportosulnak különféle vállalkozások és adathalmok között. Ez lehetővé teszi a megfelelő eszköz számára, hogy készenléti primitíveket biztosítson az ilyen problémák észleléséhez, és könnyen támogassa a vállalaton átívelő munkafolyamatot.

Tehát pontosan mi az a gyakori működési adatminőségi probléma, amely könnyen elkerülhető?

Gyakori működési adatminőségi buktatók

Nyilvánvaló okokból a működési adatminőséggel kapcsolatos problémák óriási hatással lehetnek egy vállalkozásra, és általában a négy csoport egyikébe esnek.

1. Az adatok elérhetőségével kapcsolatos problémák: Az adatok túl későn, a jövőben vagy egyáltalán nem jelennek meg; adatmennyiség csökkenése; az adatok duplikációban jelennek meg.

2. Adatmegfelelőségi problémák: Az adatok rossz sémával vagy rossz adattípusokkal jelennek meg; az adatok nem egyeznek a várt reguláris kifejezéssel (pl. hibás számú hitelkártya számjegy); alfanumerikus karakterláncok a számok helyére.

3. Adatérvényességi problémák: Az adatok nem várt értékekkel jelennek meg, még akkor is, ha a megfelelő kötettel a megfelelő időben és formátumban állnak rendelkezésre. Ha például a pénzügyi adatokat nézi, akkor dollár helyett centben jelenhet meg, ami azt jelenti, hogy 100-szorosára csökken ahhoz képest, ahogyan általában kinéznek.

4. Adategyeztetési problémák: Az adatok inkonzisztensek az adatfolyam két különböző pontján. Ez úgy tűnhet, mint egy olyan értékesítési tranzakció, amely nem egyezik a BI irányítópultot tápláló feldolgozott táblázattal, vagy egy kereskedő fizetési tranzakcióinak összege, amely nem egyezik a bank által kifizetett teljesítéssel.

Bár ezek az üzemi adatminőségi problémák meglehetősen gyakoriak, automatizált, proaktív felügyelettel könnyen elkerülhetők.

Hogyan lehet elkerülni a működési adatminőséggel kapcsolatos problémákat

Minden adatprobléma hozzárendelhető idősoros mérőszámokhoz, amelyeket Data Quality Indicators (DQI) neveznek, amelyek folyamatosan számíthatók és proaktívan figyelhetők. A DQI-k gyakorlatilag az adatréteghez csatolt SLI-k. A DQI anomáliának tekintendő kritériumai a szolgáltatási szintű célkitűzésekből (SLO-k) és a szolgáltatási szintű megállapodásokból (SLA-k) származnak, amelyeket a vállalkozás és az adattulajdonosok hoztak létre.

Az adatfolyam működésével kapcsolatos működési adatminőségi problémák és a kapcsolódó DQI-k univerzálisak. Például egy DQI lehet egy tábla adatfrisssége (a legújabb sor kora). A DQI elvárása annak a ütemnek a meghatározása, amelyen az adatfolyamatnak futnia kell, és frissítenie kell a táblát. Lehet óránként, naponta vagy percenként. Ellentétben a KPI-kkel, amelyek a vállalkozás állapotát mérik, és gyakran szubjektívek, a DQI-k az adatműveletek állapotát mérik, és egyértelműen az adatfolyam specifikációi alapján kerülnek kiértékelésre. Ezen túlmenően a korábban említett működési adatminőségi problémák nyomon követéséhez szükséges DQI-készlet univerzális – vagyis egy adatfolyamra vonatkozik, függetlenül az üzletágtól vagy sajátosságaitól.

Mivel a DQI-k univerzálisak, a platformok beépített DQI-ket biztosíthatnak, amelyek az összes adatvagyonon (táblázatok, nézetek és oszlopok) megvilágíthatók egy adatfolyamon kis konfigurációval vagy anélkül. Gyorsan telepíthetik a minőségellenőrzéseket a teljes adatkörnyezetben, azonnali rálátást biztosítva az adatok anomáliáira, és az adatminőségi intelligencia a legmagasabb szintű adatállapotot biztosítva. Ez lehetővé tette az adatcsoportok számára, hogy tízszer gyorsabban érjék el adatminőségi lefedettségi céljaikat, mint a régi adatminőségi megoldások. A DQI-k egyedi konfigurációja könnyen lehetővé teszi a mutatók finomhangolását, így az adatok skálázásakor az AI-technológia azonnali elemzés céljából észleli a nem megfelelő adatokat vagy anomáliákat, így végső soron megszabadítja az utat az optimális döntéshozatalhoz, amely előremozdítja az üzletet. .

Eredetileg a Lightup blog.

Időbélyeg:

Még több ADATVERZITÁS