Dataobservabilitet: Hvad det er, og hvorfor det betyder noget - DATAVERSITET

Dataobservabilitet: Hvad det er, og hvorfor det betyder noget – DATAVERSITET

Kildeknude: 2691645
data observerbarheddata observerbarhed

Som en proces bruges dataobservabilitet af virksomheder, der arbejder med enorme mængder data. Mange store, moderne organisationer forsøger at overvåge deres data ved hjælp af en række forskellige applikationer og værktøjer. Desværre er det få virksomheder, der udvikler den synlighed, der er nødvendig for et realistisk overblik. 

Dataobservabilitet giver det overblik, for at eliminere dataflowproblemer så hurtigt som muligt.

Observerbarhedsprocessen omfatter en række forskellige metoder og teknologier, der hjælper med at identificere og løse dataproblemer i realtid. Denne proces bygger et multi-dimensionelt kort over en virksomheds hele dataflow og giver en dybere indsigt i systemets ydeevne og datakvalitet. 

Da han blev spurgt om dataobservabilitet, kommenterede Ryan Yackel, CMO for Databand, en IBM-virksomhed,

"Efterhånden som volumen, hastigheden og kompleksiteten af ​​big data-pipelines fortsætter med at vokse, stoler virksomheder på dataingeniør- og platformsteams som rygraden i deres datadrevne virksomheder. Problemet er, at de fleste af disse teams har deres arbejde skåret for dem. De bekæmper data med pålidelighed og kvalitetshændelser, hvilket gør det vanskeligt at fokusere på strategiske initiativer, der involverer AL/ML, analytics og dataprodukter. Dataobservabilitet giver en løsning."

I første omgang kan dataobservabilitet synes at være en form for data afstamning, men de to processer tjener forskellige formål. 

Dataobservabilitet fokuserer på at løse problemer med dataene hurtigt og effektivt ved brug af et målesystem. Dataafstamning bruges dog primært til at indsamle og opbevare data af høj kvalitet - data, der kan stole på.

Derudover kan datalinje bruges som en komponent til at understøtte et observerbarhedsprogram. (Nogle artikler fremmer dataobservabilitet som tjener det samme formål som dataafstamning, og der er en vis sandhed i påstanden. Dataafstamning er en komponent i dataobservation). 

Udtrykket "observation" var oprindeligt et filosofisk begreb udviklet af Heraklit omkring 510 fvt. Han fastslog, at observerbarhed krævede komparative forskelle - kulde kan observeres i forhold til varme. I 1871 udviklede James C. Maxwell, en fysiker, ideen om, at det var umuligt at kende placeringen af ​​alle partikler i et termodynamisk eksperiment, men ved at observere "visse nøgleudgange" for komparative ændringer, kunne der laves nøjagtige forudsigelser. 

Maxwells beskrivelse af observerbarhed ved hjælp af nøgleoutput blev tilpasset og anvendt til en række automatiserede applikationer, lige fra fabriksudstyr til flysensorer. Konceptet blev derefter omfavnet af DevOps til debugging og håndtering af "produktionshændelser" i cirka 2016. I 2019 udviklede Barr Moses – CEO og medstifter af Monte Carlo – en observerbarhedsproces designet til at give et overblik over en organisations dataflow . 

Moses skrev

“Dataobservabilitet er en organisations evne til fuldt ud at forstå sundheden for dataene i deres systemer. Dataobservabilitet eliminerer datanedetid ved at anvende bedste praksis, man har lært af DevOps til observerbarhed af datapipeline".

Fem søjler af dataobservabilitet

Dataobservabilitet arbejder for at løse data- og informationsproblemer ved at give et grundigt kort over dataene i realtid. Det giver synlighed for en organisations dataaktiviteter. Mange virksomheder har data, der er i silo, hvilket blokerer observerbarhed. Datasiloer skal elimineres for at understøtte et dataobservationsprogram. 

Når aktiviteter såsom sporing, overvågning, alarmering, analyse, logning og "sammenligninger" udføres uden et observerbarhedsdashboard, kan en form for organisatorisk opdeling finde sted. Folk i én afdeling er ikke klar over, at deres indsats har utilsigtede konsekvenser i en anden afdeling – såsom manglende/siloiseret information, der fremmer dårlig beslutningstagning, eller en del af systemet er nede, og ingen indser det. 

Husk, observerbarhed handler om at tage målinger af visse nøgleoutput. De fem søjler (eller nøgleudgange), som Barr Moses udviklede til måleformål er: 

  • Kvalitet: Data af høj kvalitet anses for at være nøjagtige, mens data af lav kvalitet ikke er det. Målinger af datakvaliteten giver indsigt i, om dine data kan stole på. Der er en række forskellige måder at måle Datakvalitet.
  • Skema: Dette involverer ændringer i, hvordan data er organiseret, og skemamålinger kan vise brud i datastrømmen. Det kan være nyttigt at bestemme hvornår, hvordan og hvem der har foretaget ændringerne i forhold til forebyggende vedligeholdelse. 
  • Volumen: Store mængder data er nyttige til forsknings- og marketingformål. Dette kan give organisationer et integreret overblik over deres kunder og marked. Jo mere aktuelle og historiske data der bruges under forskning, jo flere indsigter.
  • Data afstamning: Et godt dataafstamningsprogram registrerer ændringer af dataene og dets placeringer og bruges normalt til at forbedre datakvaliteten. Det kan dog også bruges som en del af et dataobservationsprogram. I denne egenskab bruges den til at fejlfinde brud, der måtte opstå, og liste, hvad der blev gjort før skaden. 
  • Friskhed: Dette handler i bund og grund om ikke at bruge gammel information, eller, som Barr Moses henviser til det, uaktuelle data. Friskhed lægger vægt på opdaterede data, hvilket er vigtigt, når der skal træffes datadrevne beslutninger. Tidsstempler bruges almindeligvis til at afgøre, om dataene er gamle. 

Når de kombineres, kan målingerne af disse komponenter, eller søjler, give værdifuld indsigt i problemer, der udvikler sig – eller blot dukker op – og fremme muligheden for at foretage reparationer så hurtigt som muligt.

Dataobservationsudfordringer

Den rigtige dataobservationsplatform kan transformere, hvordan virksomheder vedligeholder og administrerer deres data. Desværre kan implementeringen af ​​platformen give nogle udfordringer. Kompatibilitetsproblemer vil dukke op, når platformen passer dårligt. 

Observerbarhedsplatforme og værktøjer kan begrænses, hvis datapipelinen, softwaren, serverne og databaserne ikke er fuldstændig kompatible. Disse platforme fungerer ikke i et vakuum, hvilket gør det vigtigt at eliminere evt datasiloer fra systemet og sikre, at alle datasystemer i organisationen er integreret. 

Det er vigtigt at teste en dataobservationsplatform, før du underskriver en kontrakt.

Desværre, selv når alle virksomhedens interne og eksterne datakilder er integreret korrekt i platformen, anderledes datamodeller kan give problemer. Mange virksomheder understøtter 400 eller flere datakilder, og hver ekstern kilde kan udgøre et problem, hvis den ikke bruger de samme standarder og formater.

Bortset fra open source-værktøjer er observationsplatforme cloud-baserede, og de kan tilbyde en vis fleksibilitet, der understøtter finjustering. 

De bedste observerbarhedsplatforme er fokuseret på en standardiseret måleproces og retningslinjer for logning. Dette fremmer effektiv korrelation af information, men eksterne datakilder og tilpassede datapipelines kan forårsage problemer og kræve yderligere manuel indsats for at udføre opgaver, der burde have været automatiseret.

Derudover kan nogle værktøjer komme med usædvanlige lageromkostninger, der begrænser skalerbarheden.

Dataobservationsplatforme

Dataobservationsplatforme indeholder typisk en række nyttige værktøjer. Disse omfatter ofte automatiseret understøttelse af automatiseret datalinje, rodårsagsanalyse, datakvalitet og overvågning for at identificere, løse og forhindre uregelmæssigheder i datastrømmen. 

Platformene fremmer øget produktivitet, sundere pipelines og gladere kunder. Nogle populære dataobservationsplatforme er:

  • Databånd leverer en yderst funktionel observerbarhedsplatform, der kan opdage og løse dataproblemer meget hurtigt, ved hjælp af en kontinuerlig observerbarhedsproces, der identificerer dataproblemer, før de påvirker din virksomhed. 
  • Monte Carlo tilbyder en observerbarhedsplatform, der kan beskrives som at give observerbarhed "fra pipeline til business intelligence." Det bringer datapålidelighed til orkestreringen af ​​forskellige datatjenester og værktøjer. 
  • Metaplan har ende-til-ende observerbarhed.
  • Der er en række open source tilgængelige observerbarhedsværktøjer, som ville være værd at undersøge.

Vigtigheden af ​​dataobservabilitet

For organisationer, der beskæftiger sig med store datastrømme, kan observerbarhed bruges til at overvåge datasystemet som helhed og udsende røde flag, når et problem melder sig. 

Efterhånden som virksomheder indsamler enorme mængder data fra en række forskellige kilder, udvikler de systemer til at håndtere dem, lag på lag. Disse systemer omfatter datalagring, datapipelines og en række værktøjer. Hvert ekstra kompleksitetslag øger chancerne for datanedetid på grund af problemer som inkompatibilitet eller gamle og manglende data.

Ifølge Yackel, "Den kontinuerlige brug af dataobservabilitet til at overvåge datapipelines, datasæt og datatabeller advarer datateams, når der opstår en datahændelse, og viser, hvordan man løser årsagen, før det påvirker deres forretning. Med dataobservabilitet kan teknik fokusere på at bygge fantastiske dataprodukter frem for at vedligeholde ødelagte processer." 

Dataobservabilitet vil hjælpe virksomheder med proaktivt at identificere kilden til pipelineproblemer, datafejl og dataflow-inkonsistens for at styrke kunderelationer og forbedre datakvaliteten.

Billede brugt under licens fra Shutterstock.com

Tidsstempel:

Mere fra DATAVERSITET