Overcoming A World Awash In Dirty Data

Julkaissut Platon

seuraajia: 0

Näkymättömän viruksen tavoin "likainen data" vaivaa tämän päivän yritysmaailmaa. Toisin sanoen epätarkka, epätäydellinen ja epäjohdonmukainen data lisääntyy nykypäivän "big data" -keskeisessä maailmassa.

Likaisen tiedon käsittely maksaa yrityksille miljoonia dollareita vuosittain. Se heikentää yrityksen kattavien osastojen tehokkuutta ja tehokkuutta ja vähentää pyrkimyksiä kasvaa ja skaalautua. Se heikentää kilpailukykyä, lisää turvallisuusriskejä ja aiheuttaa vaatimustenmukaisuusongelmia.

Vastuussa olevat Tiedonhallinta ovat taistelleet tämän haasteen kanssa vuosia. Monet tällä hetkellä saatavilla olevista työkaluista voivat käsitellä tiedonhallinta-ongelmia osastoissa sijaitseville ryhmille, mutta eivät koko yritykselle tai laajemmille tietoekosysteemeille. Mikä pahempaa, nämä työkalut päätyvät usein luomaan entistä enemmän hallittavia tietoja – ja myös tiedot voivat likaista, mikä aiheuttaa lisää päänsärkyä ja tulonmenetyksiä.

Likaisten tietojen ymmärtäminen

Likaiset tiedot viittaa mihin tahansa dataan joka on harhaanjohtava, päällekkäinen, virheellinen tai epätarkka, ei vielä integroitu, rikkoo liikesääntöä, vailla yhtenäistä muotoilua tai sisältää väli- tai kirjoitusvirheitä.

Kuvittele seuraava skenaario ymmärtääksesi, kuinka likaisesta datasta on tullut kaikkialla viime vuosikymmeninä:

Suuren pankin lainanantajat hämmentyvät, kun he huomaavat, että lähes kaikki pankin asiakkaat ovat astronauteja. Ottaen huomioon, että NASA:lla on vain a muutama kymmenkunta astronauttia, tässä ei ole mitään järkeä.

Lisäselvityksessä lainanantoosasto havaitsee, että uusia tilejä avaavat pankkivirkailijat olivat lisänneet "astronautin" asiakkaan ammattikenttään. Lainanantajat oppivat, että työnkuvalla ei ole merkitystä heidän uusista tileistä vastaaville kollegoilleen. Pankkivirkailijat olivat valinneet "astronautin", ensimmäisen saatavilla olevan vaihtoehdon, yksinkertaisesti edetäkseen nopeammin uusien tilien luomisessa.

Lainanantajilla on kuitenkin oltava asiakkaidensa oikeat ammatit tiedoissa saadakseen vuosibonuksensa. Tilanteen korjaamiseksi lainausosasto kehittää oman, erillisen tietokannan. He ottavat yhteyttä jokaiseen asiakkaaseen, oppivat oikean ammatin ja lisäävät sen tietokantaansa.

Nyt pankilla on kaksi tietokantaa, joissa on olennaisesti samat tiedot, yhtä kenttää lukuun ottamatta. Jos kolmas osasto haluaa päästä käsiksi näiden tietokantojen tietoihin, ei ole olemassa järjestelmää, jonka avulla voitaisiin määrittää, mikä tietokanta on oikea. Joten tämä kolmas osasto voi myös luoda oman tietokannan.

Samanlaisia skenaarioita on esiintynyt organisaatioissa valtakunnallisesti vuosikymmeniä.

Kasvavat digitaalisen datan kaatopaikat

Ongelmat alkoivat 1990-luvulla digitaalinen muunnos puomi. Yritykset ottivat käyttöön yritysohjelmistoja parantaakseen liiketoimintaprosessejaan. Esimerkiksi Salesforcen ohjelmisto-as-a-service -tuotteet mahdollistivat entistä parempia tapoja hallita myynti- ja markkinointijärjestelmiä.

Mutta 30 vuotta myöhemmin tällainen vanha infrastruktuuri on johtanut tiedonhallinnan painajaiseen. Erilaiset tietosiilot, joissa on päällekkäisiä, epätäydellisiä ja virheellisiä tietoja, pitävät yritysten ja julkisen sektorin maisemia. Nämä siilot käsittävät liiketoiminta-alueita, maantieteellisiä alueita ja toimintoja, jotka vastaavasti omistavat ja valvovat tietolähteitään.

Lisäksi tiedontuotanto on lisääntynyt eksponentiaalisesti vuosikymmenten aikana. Jokainen liiketoimintaprosessi vaatii nyt oman ohjelmistonsa, joka tuottaa yhä enemmän dataa. Sovellukset kirjaavat jokaisen toiminnon omiin tietokantoihinsa, ja vasta luotujen tietoresurssien louhinnalle on ilmaantunut esteitä.

Aiempina vuosikymmeninä sanasto, joka määrittelee datan, oli nimenomaan liiketoimintaprosessille, joka loi sen. Insinöörien oli käännettävä nämä sanastot erillisiksi sanakirjoiksi tietoja kuluttaville järjestelmille. Laatutakuita ei yleensä ollut. Kuten yllä olevassa astronauttiesimerkissä, tiedot, jotka olivat yhden liiketoiminnon käytettävissä, eivät olleet muiden käytettävissä. Alkuperäisten liiketoimintaprosessien tietojen saatavuus oli parhaimmillaankin rajoitettu sellaisille toiminnoille, jotka olisivat muuten saaneet aikaan optimoinnin.

Copy Conundrum

Tämän ongelman ratkaisemiseksi insinöörit alkoivat kopioida alkuperäisiä tietokantoja, koska se oli viime aikoihin asti paras saatavilla oleva vaihtoehto. Sitten he muunsivat nämä kopiot kuluttavan toiminnon vaatimusten mukaisiksi soveltaen tietojen laatusääntöjä ja korjauslogiikkaa, joka rajoittui kuluttavaan toimintoon. He tekivät monia kopioita ja ladasivat ne useisiin tietovarastoihin ja analytiikkajärjestelmiin.

Lopputulos? Ylivuoto tietojoukon kopioita, jotka luetaan "likaiseksi" joissakin organisaation osissa, mikä aiheuttaa sekaannusta siitä, mikä kopio on oikea. Nykyään yrityksillä on satoja kopioita lähdetiedoista operatiivisista tietovarastoista, tietokannoista, tietovarastoista, datajärvistä, analytiikan hiekkalaatikoista ja laskentataulukoista palvelinkeskuksissa ja useissa pilvissä. Tietopäälliköillä ja tietopäälliköillä ei kuitenkaan ole valtaa syntyvien kopioiden määrään eikä tietoa siitä, mikä versio edustaa aitoa totuuden lähdettä.

Saatavilla on joukko Data Governance -ohjelmistotuotteita, jotka tuovat järjestystä tähän sotkuun. Näitä ovat tietoluettelot, tiedonlaadun mittaus- ja ongelmanratkaisujärjestelmät, viitetiedonhallintajärjestelmät, perustiedonhallintajärjestelmät, datalinjan etsintä ja hallintajärjestelmät.

Mutta nämä korjaustoimenpiteet ovat kalliita ja aikaa vieviä. Tyypillinen perustietojen hallintaprojekti asiakastietojen integroimiseksi useista tietolähteistä eri tuotelinjoista voi kestää vuosia ja maksaa miljoonia dollareita. Samaan aikaan likaisen tiedon määrä kasvaa nopeammin, kuin organisaation pyrkimykset asentaa ohjaimia ja hallintoa.

Nämä lähestymistavat ovat täynnä puutteita. He luottavat manuaalisiin prosesseihin, kehityslogiikkaan tai liiketoimintasääntöihin tietojen inventoinnin, mittaamisen ja korjaamisen tehtävien suorittamisessa.

Ohjauksen palauttaminen

Kolme nousevaa teknologiaa soveltuvat parhaiten selviytymään nykyisestä ahdingosta: tekoäly- ja koneoppimiseen perustuva tiedonhallinta, semanttiset yhteentoimivuusalustat, kuten tietokaaviot, ja tiedonjakelujärjestelmät, kuten hajautetut pääkirjat:

1. Tekoäly- ja koneoppimiseen perustuvat tiedonhallintaratkaisut vähentää riippuvuutta ihmisistä ja koodista. Tekoäly ja koneoppiminen korvaavat manuaalisen työn toiminnoilla, joihin kuuluu valtavien tietomäärien automaattinen merkitseminen, järjestäminen ja valvonta. Tiedonhallinnan muutos ja migraatio pienentävät IT-kustannuksia. Organisaatiot voivat myös rakentaa kestävämpiä ja kestävämpiä arkkitehtuureja, jotka edistävät datan laatua mittakaavassa.

2. Tietokaaviot mahdollistaa erilaisten tietoresurssien alkuperäisen yhteentoimivuuden, jotta tiedot voidaan yhdistää ja ymmärtää yhteisessä muodossa. Hyödyntämällä semanttisia ontologioita, organisaatiot voivat tarjota tulevaisuuden kannalta varmaa tietoa kontekstilla ja yhteisellä muodolla useiden sidosryhmien uudelleenkäyttöä varten.

3. Jaetut pääkirjat, erilainen yksityisyys ja virtualisointi poistaa tarpeen kopioida tietoja fyysisesti. Hajautetut pääkirjat sisältävät hajautettuja ja hallinnoituja tietokantoja, joita voidaan käyttää liiketoimintayksiköiden ja organisaatioiden välillä. Differentiaalinen yksityisyys mahdollistaa tietojen peittämisen vaatimustenmukaisuusvaatimusten noudattamiseksi ja samalla jakaa ne sidosryhmien kanssa. Virtualisointi mahdollistaa tietojen pyörittämisen virtuaalisessa eikä fyysisessä ympäristössä.

Kun tietohallintojohtajat ja CDO:t ymmärtävät, että ongelman juuret ovat vanhassa infrastruktuurissa, joka luo datasiilot, he voivat parantaa taustalla olevia arkkitehtuureja ja tietoinfrastruktuuristrategioita.

Likainen data rajoittaa organisaation kykyä tehdä tietoisia päätöksiä ja toimia tarkasti ja ketterästi. Organisaatioiden on otettava tietonsa hallintaansa ja edistettävä tietojen yhteentoimivuutta, laatua ja saatavuutta. Tämä tarjoaa kilpailuetuja ja poistaa tietoturva- ja vaatimustenmukaisuushaavoittuvuudet.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
Lähde: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/

Aikaleima: Huhtikuu 10, 2023

Lisää aiheesta DATAVERSITEETTI

Onnistuneen tiedonlaatustrategian luominen – DATAVERSITY

DATAVERSITEETTI

Lähdesolmu: 2854562

Aikaleima: Elokuu 30, 2023

Tekoälyn etiikka ja innovaatio tuotekehitykseen

Lähde klusteri:

DATAVERSITEETTI

Lähdesolmu: 2625763

Aikaleima: Voi 3, 2023

Julkaissut Platon

Onnistuneen tiedonlaatustrategian luominen – DATAVERSITY

Couchbase-demo: Nykyaikaisten sovellusten ohjaamisen vaatimukset – DATAVERSITY

Zero-Trust Architecture Explained – DATAVERSITY

Datan painovoiman uhmaaminen paremman pilven puolesta

SingleStore esittelee uusia ominaisuuksia reaaliaikaiselle tietoalustalle – DATAVERSITY

Data-Ed Slides: Tiedonhallinnan parhaat käytännöt

Urani datassa, jakso 47: Evan Levy, kumppani, Integral Data – DATAVERSITY

Tekoälyn etiikka ja innovaatio tuotekehitykseen

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili