4 helposti vältettävissä olevaa suurta datan laatuongelmaa

4 helposti vältettävissä olevaa suurta datan laatuongelmaa

Lähdesolmu: 1897409

Kun puhumme mahdollisille asiakkaille, heidän ensimmäiset kysymyksensä liittyvät yleensä tietojen laadun perustekijöihin, kuten siihen, mitä se on, miten mittaamme sen, mitä tapahtuu, kun se siirtyy etelään ja kuinka tiedon laatuongelmat voidaan estää.

Vastauksemme tulevat aina takaisin ytimeen, joka ohjaa tehtäväämme: Data on nykyaikaisen yrityksen elinehto, ja luottamus tehdä dataan perustuvia liiketoimintapäätöksiä on erittäin tärkeää. Tietojen laatu on siis tuon elinvoiman laatu. Jotta se voisi toimia oikein, on tärkeää suorittaa jatkuvasti tarkkoja ja kattavia tietojen laaduntarkistuksia. On myös tärkeää keskittää nämä tarkistukset tietoihin, joilla on suurin vaikutus yrityksen päätöksentekoon – varsinkin kun yrität seurata tietojen laatua laajasti.

Mitä vaikeaa on tietojen laadun tarkkailussa mittakaavassa?

Kaikilla maininnoilla "tietojen laadusta" on taipumus maalata kuva toimialueen asiantuntijasta, joka ikävästi tarkastaa ja tulkitsee tietueita käsin yksi kerrallaan. Se tuntuu analyysiharjoittelulta, joka on täynnä manuaalista harkintaa, joka piirtää vuosien varrella kertynyttä kontekstia ja heimotietoa. Ja se tuntuu prosessilta, jota on mahdoton skaalata.

Skeptisyys tietojen laaduntarkastusten toteuttamiseen mittakaavassa on oikeudenmukaista. Perinteisesti tiedon laatukysymykset ovat olleet lähellä toimialaa. Sellaisia ​​kysymyksiä tiedot päätyvät vivahteiksi virheiksi, kuten virheellisten aukioloaikojen näyttämiseen verkossa kivijalkamyymälän sijainnissa, mikä voi vaikuttaa asiakkaiden sitoutumiseen markkinointikampanjaan. tai äskettäin suunniteltu vaatekappale on merkitty väärin; tai väärä koko syötetään myyntipisteessä, mikä syöttäisi väärää tietoa varastoraportointiin tai myyntiennusteisiin tietyille markkinoille.

Tietojen laatu on nykyään paljon laajempi kirjo nykyaikaisessa skaalatussa tietopinossa. Erityisesti mittakaavassa tapahtuvasta datatoiminnasta syntyvät ongelmat eroavat subjektiivisista toimialakohtaisista tietojen laatukysymyksistä. Joten vaikka subjektiivisia tarkastuksia on vaikea skaalata, ehkä ongelma, joka todella tarvitsee ratkaista mittakaavassa, ei olekaan niin subjektiivinen.

Kaikki tiedon laatuongelmat eivät ole subjektiivisia

Nykyaikaisessa tietopinossa tiedon laatuongelmat voivat vaihdella semanttisista ja subjektiivisista – joita on vaikea määritellä – toiminnallisiin ja objektiivisiin, jotka on helppo määritellä. Esimerkiksi objektiivisia ja helpommin määriteltäviä ongelmia olisivat tiedot, jotka näkyvät tyhjillä kentillä, päällekkäisiä tapahtumia tallennetaan tai jopa puuttuvia tapahtumia. Konkreettisempia, toiminnallisia ongelmia voivat olla tietojen lataukset, jotka eivät tapahdu ajoissa kriittistä raportointia varten, tai tietoskeeman muutos, joka jättää tärkeän kentän.

Se, onko datan laatuongelma erittäin subjektiivinen vai yksiselitteisesti objektiivinen, riippuu tietopinon kerroksesta, josta se on peräisin. Nykyaikainen tietopino ja sitä tukevat tiimit rakentuvat yleisesti kahteen laajaan kerrokseen: 1) tietoalusta tai infrastruktuurikerros; ja 2) analyyttinen ja raportoiva kerros. Alustatiimi, joka koostuu data-insinöörit, ylläpitää tietoinfrastruktuuria ja toimii tiedon tuottajana. Tämä tiimi palvelee analyyttisen kerroksen kuluttajia analytiikkainsinööreistä, data-analyytikoista ja liiketoiminnan sidosryhmistä.

Pinon ylimmällä tasolla ongelmat ovat yleensä verkkotunnuskohtaisia, subjektiivisia ja vaikeasti havaittavissa automaattisesti. Alustakerroksessa tiedon laatuongelmat johtuvat datatoimintojen epäonnistumisista. Ja vaikka näiden alustakerroksen ongelmien oletetaan liian usein olevan subjektiivisia ja monimutkaisia ​​seurata, ne ovat yleensä leikattuja ja kuivattuja ongelmia.

Toiminnalliset tiedon laatukysymykset tukevat objektiivisten kriteerien liittämistä SLI:n/SLO:n/SLA:n määrittelyyn, toisin kuin subjektiiviset asiat, jotka edellyttävät manuaalista harkintaa liikesidosryhmiltä, ​​kuten analyytikoilta. Ja nämä ongelmat yleensä ryhmittyvät pieneen joukkoon yhteisiä luokkia useissa yrityksissä ja tietopinoissa. Tämä mahdollistaa oikean työkalun tarjoamaan valmiita primitiivisiä tällaisten ongelmien havaitsemiseen ja helposti tukemaan työnkulkua, joka skaalautuu koko yritykseen.

Joten mitkä tarkalleen ovat yleiset toimintatietojen laatuongelmat, jotka voidaan helposti välttää?

Yleiset operatiivisten tietojen laadun sudenkuopat

Ilmeisistä syistä toiminnallisten tietojen laatuongelmilla voi olla valtava vaikutus yritykseen, ja ne kuuluvat yleensä johonkin neljästä ryhmästä.

1. Tietojen saatavuusongelmat: Tiedot näkyvät liian myöhään, tulevaisuudessa tai eivät ollenkaan; datamäärä putoaa; tiedot näkyvät kaksoiskappaleina.

2. Tietojen yhteensopivuusongelmat: Tiedot näkyvät väärällä skeemalla tai väärillä tietotyypeillä; tiedot eivät vastaa odotettua säännöllistä lauseketta (esim. virheellinen määrä luottokortin numeroita); aakkosnumeerisia merkkijonoja numeroiden tilalle.

3. Tietojen kelpoisuusongelmat: Tiedot näkyvät odottamattomina arvoina, vaikka ne ovat saatavilla oikealla äänenvoimakkuudella oikeaan aikaan ja oikeassa muodossa. Jos tarkastelet esimerkiksi taloustietoja, ne voivat näkyä sentteinä dollareiden sijaan, mikä tarkoittaa, että se on 100-kertainen verrattuna siihen, miltä se normaalisti näyttää.

4. Tietojen täsmäytysongelmat: Tiedot ovat epäjohdonmukaisia ​​kahdessa eri kohdassa dataputkessa. Tämä saattaa näyttää siltä, ​​että laskeutumistaulukkoon on siirretty useita myyntitapahtumia, jotka eivät vastaa BI-hallintapaneeliin syötettyä käsiteltyä taulukkoa, tai kauppiaan maksutapahtumien summa, joka ei vastaa pankin maksamia suorituksia.

Vaikka nämä operatiivisten tietojen laatuongelmat ovat melko yleisiä, ne voidaan helposti välttää automaattisella, ennakoivalla valvonnalla.

Toiminnallisten tietojen laatuongelmien välttäminen

Kullekin tietoongelmalle voidaan määrittää aikasarjamittareita, joita kutsutaan Data Quality Indicators (DQI) -indikaattoreiksi, joita voidaan jatkuvasti laskea ja seurata ennakoivasti. DQI:t ovat käytännössä tietokerrokseen liitettyjä SLI:itä. Kriteerit, joiden mukaan DQI:tä voidaan pitää poikkeavana, johtuvat yrityksen ja tiedon omistajien asettamista palvelutason tavoitteista (SLO) ja palvelutasosopimuksista (SLA).

Operatiiviset datan laatuongelmat ja niihin liittyvät dataputken toimintaan liittyvät DQI:t ovat yleisiä. Esimerkiksi DQI voi olla taulukon tietojen tuoreus (uusimman rivin ikä). Tämän DQI:n odotus on määritys poljinnopeudesta, jolla dataliukuhihnan tulee toimia ja päivittää taulukko. Se voi olla tunnin, päivittäisen tai minuutin välein. Toisin kuin KPI:t, jotka mittaavat liiketoiminnan kuntoa ja ovat usein subjektiivisia, DQI:t mittaavat datatoimintojen kuntoa ja niitä arvioidaan yksiselitteisesti tietoputken spesifikaatioiden perusteella. Lisäksi aiemmin mainittujen toiminnallisten tietojen laatuongelmien seurantaan tarvittava DQI-joukko on universaali – eli ne pätevät tietoputkeen riippumatta liiketoiminnan vertikaalista tai erityispiirteistä.

Koska DQI:t ovat universaaleja, alustat voivat tarjota sisäänrakennettuja DQI:itä, jotka voidaan sytyttää tietoputkeen kaikissa tietoresursseissa (taulukoissa, näkymissä ja sarakkeissa) ilman määrityksiä tai vain vähän. Ne voivat ottaa nopeasti käyttöön laaduntarkistuksia koko tietomaisemassasi, mikä tarjoaa välittömän näkyvyyden datan poikkeavuuksiin ja tietojen laatutietoa, joka varmistaa tietojen korkeimman kunnon. Tämän ansiosta datatiimit ovat saavuttaneet tiedon laadun kattavuustavoitteensa 10 kertaa nopeammin kuin vanhat tiedonlaaturatkaisut. Räätälöity DQI:n konfiguraatio mahdollistaa helposti indikaattoreiden hienosäädön niin, että tietosi skaalatautuessa tekoälyteknologia havaitsee kaikki yhteensopimattomat tiedot tai poikkeamat välitöntä analysointia varten, mikä lopulta vapauttaa tietä optimaaliselle päätöksenteolle, joka vie liiketoimintaa eteenpäin. .

Alun perin julkaistu Lightup blogi.

Aikaleima:

Lisää aiheesta DATAVERSITEETTI