Dataobservabilitet: Hva det er og hvorfor det betyr noe – DATAVERSITET

Dataobservabilitet: Hva det er og hvorfor det betyr noe – DATAVERSITET

Kilde node: 2691645
data observerbarhetdata observerbarhet

Som en prosess brukes dataobservabilitet av virksomheter som arbeider med enorme mengder data. Mange store, moderne organisasjoner prøver å overvåke dataene sine ved hjelp av en rekke applikasjoner og verktøy. Dessverre er det få virksomheter som utvikler den synligheten som er nødvendig for en realistisk oversikt. 

Dataobserverbarhet gir denne oversikten, for å eliminere dataflytproblemer så raskt som mulig.

Observerbarhetsprosessen inkluderer en rekke metoder og teknologier som hjelper til med å identifisere og løse dataproblemer i sanntid. Denne prosessen bygger et flerdimensjonalt kart over hele en virksomhets dataflyt, og gir dypere innsikt i systemets ytelse og datakvalitet. 

På spørsmål om observerbarhet av data, kommenterte Ryan Yackel, CMO for Databand, et IBM-selskap,

«Ettersom volumet, hastigheten og kompleksiteten til big data-pipelines fortsetter å vokse, stoler selskaper på dataingeniør- og plattformteam som ryggraden i deres datadrevne virksomheter. Problemet er at de fleste av disse lagene har arbeidet sitt for dem. De bekjemper data med pålitelighet og kvalitetshendelser, noe som gjør det vanskelig å fokusere på strategiske initiativer som involverer AL/ML, analyser og dataprodukter. Dataobservabilitet gir en løsning."

I utgangspunktet kan observerbarhet av data se ut til å være en form for datalinje, men de to prosessene tjener forskjellige formål. 

Dataobservabilitet fokuserer på å løse problemer med dataene raskt og effektivt ved bruk av et målesystem. Dataavstamning brukes imidlertid først og fremst til å samle inn og lagre data av høy kvalitet – data som kan stole på.

I tillegg kan dataavstamning brukes som en komponent for å støtte et observerbarhetsprogram. (Noen artikler fremmer dataobservabilitet som tjener samme formål som dataavstamning, og det er en viss sannhet i påstanden. Dataavstamning er en komponent av dataobserverbarhet.) 

Begrepet "observerbarhet" var opprinnelig et filosofisk konsept utviklet av Heraclitus rundt 510 fvt. Han bestemte at observerbarhet krevde komparative forskjeller - kulde kan observeres sammenlignet med varme. I 1871 utviklet James C. Maxwell, en fysiker, ideen om at det var umulig å vite plasseringen av alle partikler i et termodynamikkeksperiment, men ved å observere "visse nøkkelresultater" for komparative endringer, kunne nøyaktige spådommer gjøres. 

Maxwells beskrivelse av observerbarhet ved bruk av nøkkelutganger ble tilpasset og brukt på en rekke automatiserte applikasjoner, alt fra fabrikkutstyr til flysensorer. Konseptet ble deretter omfavnet av DevOps for feilsøking og håndtering av «produksjonshendelser» i omtrent 2016. I 2019 utviklet Barr Moses – administrerende direktør og medgründer av Monte Carlo – en observerbarhetsprosess designet for å gi en oversikt over en organisasjons dataflyt . 

Moses skrev

"Data observerbarhet er en organisasjons evne til å fullt ut forstå helsen til dataene i systemene deres. Observerbarhet av data eliminerer nedetid for data ved å bruke beste praksis lært fra DevOps til observerbarhet av datapipeline».

Fem pilarer for dataobservabilitet

Dataobservabilitet fungerer for å løse data- og informasjonsproblemer ved å gi et grundig kart over dataene i sanntid. Det gir synlighet for dataaktivitetene til en organisasjon. Mange virksomheter har data som er siloer, og blokkerer observerbarhet. Datasiloer må elimineres for å støtte et dataobservasjonsprogram. 

Når aktiviteter som sporing, overvåking, varsling, analyse, logging og "sammenligninger" utføres uten et observerbarhetsdashbord, kan en form for organisatorisk oppdeling finne sted. Folk i en avdeling innser ikke at innsatsen deres har utilsiktede konsekvenser i en annen avdeling – for eksempel manglende/siloisert informasjon som fremmer dårlige beslutninger eller deler av systemet er nede og ingen innser det. 

Husk at observerbarhet handler om å ta målinger av visse nøkkelresultater. De fem pilarene (eller nøkkelutgangene) Barr Moses utviklet for måleformål er: 

  • Kvalitet: Data av høy kvalitet anses som nøyaktige, mens data av lav kvalitet ikke er det. Målinger av datakvaliteten gir innsikt i om dataene dine kan stole på. Det finnes en rekke måter å måle Datakvalitet.
  • Skjema: Dette innebærer endringer i hvordan dataene er organisert, og skjemamålinger kan vise brudd i dataflyten. Å bestemme når, hvordan og hvem som gjorde endringene kan være nyttig når det gjelder forebyggende vedlikehold. 
  • Volum: Store mengder data er nyttige for forsknings- og markedsføringsformål. Dette kan gi organisasjoner et integrert syn på sine kunder og marked. Jo mer aktuelle og historiske data som brukes under forskning, jo mer innsikt.
  • Dataavstamning: Et godt datalinjeprogram registrerer endringer i dataene og dens plasseringer, og brukes vanligvis til å forbedre datakvaliteten. Den kan imidlertid også brukes som en del av et dataobservasjonsprogram. I denne egenskapen brukes den til å feilsøke brudd som kan oppstå, og liste opp hva som ble gjort før skaden. 
  • Friskhet: Dette handler i hovedsak om å ikke bruke gammel informasjon, eller, som Barr Moses refererer til det, foreldede data. Friskhet legger vekt på oppdaterte data, noe som er viktig når man tar datadrevne beslutninger. Tidsstempler brukes ofte for å avgjøre om dataene er gamle. 

Når de kombineres, kan målingene til disse komponentene, eller pilarene, gi verdifull innsikt i problemer som utvikler seg – eller rett og slett dukker opp – og fremme muligheten til å foreta reparasjoner så raskt som mulig.

Dataobservasjonsutfordringer

Den riktige dataobservasjonsplattformen kan transformere hvordan virksomheter vedlikeholder og administrerer dataene sine. Dessverre kan implementering av plattformen by på noen utfordringer. Kompatibilitetsproblemer vil dukke opp når plattformen passer dårlig. 

Observerbarhetsplattformer og -verktøy kan begrenses hvis datapipelinen, programvaren, serverne og databasene ikke er fullstendig kompatible. Disse plattformene fungerer ikke i et vakuum, noe som gjør det viktig å eliminere noen datasiloer fra systemet og sørge for at alle datasystemer i organisasjonen er integrert. 

Det er viktig å teste en dataobservasjonsplattform før du signerer en kontrakt.

Dessverre, selv når alle virksomhetens interne og eksterne datakilder er integrert riktig i plattformen, annerledes datamodeller kan forårsake problemer. Mange virksomheter støtter 400 eller flere datakilder, og hver ekstern kilde kan by på et problem hvis den ikke bruker de samme standardene og formatene.

Bortsett fra åpen kildekode-verktøy, er observerbarhetsplattformer skybaserte, og de kan tilby en viss fleksibilitet som støtter finjustering. 

De beste observerbarhetsplattformene er fokusert på en standardisert måleprosess og retningslinjer for logging. Dette fremmer effektiv korrelasjon av informasjon, men eksterne datakilder og tilpassede datapipelines kan forårsake problemer og kreve ytterligere manuell innsats for å utføre oppgaver som burde vært automatisert.

I tillegg kan noen verktøy komme med uvanlige lagringskostnader som begrenser skalerbarheten.

Dataobservasjonsplattformer

Dataobservasjonsplattformer inneholder vanligvis en rekke nyttige verktøy. Disse inkluderer ofte automatisert støtte for automatisert datalinje, rotårsaksanalyse, datakvalitet og overvåking for å identifisere, løse og forhindre uregelmessigheter i dataflyten. 

Plattformene fremmer økt produktivitet, sunnere rørledninger og fornøyde kunder. Noen populære dataobservasjonsplattformer er:

  • Databånd gir en svært funksjonell observerbarhetsplattform som kan oppdage og løse dataproblemer veldig raskt, ved å bruke en kontinuerlig observerbarhetsprosess som identifiserer dataproblemer før de påvirker virksomheten din. 
  • Monte Carlo tilbyr en observerbarhetsplattform som kan beskrives som å gi observerbarhet «fra rørledning til business intelligence." Det gir datapålitelighet til orkestreringen av ulike datatjenester og verktøy. 
  • Metaplan har ende-til-ende observerbarhet.
  • Det finnes en rekke åpen kildekode observerbarhetsverktøy tilgjengelig, noe som ville være verdt å undersøke.

Viktigheten av observerbarhet av data

For organisasjoner som arbeider med store datastrømmer, kan observerbarhet brukes til å overvåke datasystemet som helhet og sende ut røde flagg når et problem melder seg. 

Når bedrifter samler inn enorme mengder data fra en rekke kilder, utvikler de systemer for å håndtere det, lag på lag. Disse systemene inkluderer datalagring, datapipelines og en rekke verktøy. Hvert ekstra lag med kompleksitet øker sjansene for nedetid for data på grunn av problemer som inkompatibilitet eller gamle og manglende data.

I følge Yackel, "Kontinuerlig bruk av dataobservabilitet for å overvåke datapipelines, datasett og datatabeller varsler datateam når en datahendelse oppstår og viser hvordan man kan fikse grunnårsaken, før den påvirker virksomheten deres. Med dataobservabilitet kan ingeniørarbeid fokusere på å bygge gode dataprodukter i stedet for å opprettholde ødelagte prosesser." 

Dataobservabilitet vil hjelpe virksomheter til proaktivt å identifisere kilden til rørledningsproblemer, datafeil og dataflytinkonsistens for å styrke kunderelasjoner og forbedre datakvaliteten.

Bildet brukes under lisens fra Shutterstock.com

Tidstempel:

Mer fra DATAVERSITET