Akkurat som leverandører er avhengige av amerikansk post eller UPS for å få varene sine til kundene, stoler arbeidere på datapipelines for å levere informasjonen de trenger for å få forretningsinnsikt og ta beslutninger. Dette nettverket av datakanaler, som opererer i bakgrunnen, distribuerer behandlet data på tvers av datasystemer, et essensielt rammeverk og funksjon for alle data-drevet bedrift.
Verdien av å koble datasystemer med rørledninger fortsetter å vokse ettersom selskaper trenger å konsumere mye strømmedata raskere, servert i ulike formater. Så ledere som forstår datapipelines på et høyt nivå, kan bedre flytte rådata mot informasjonen som vises på dashboards eller rapporter, mest økonomisk.
Hva er datarørledninger?
Datarørledninger beskriver databehandlingselementer koblet i serie, med datautgangen til en kanal som fungerer som inngang for den neste. Disse kanalene starter ved kilden, der systemene inntar den ved å flytte eller replikere den og flytte den til en ny destinasjon.
Dataprogrammer lager, modifiserer, transformerer eller pakker inn inputene deres til et mer raffinert dataprodukt på det nye stedet. Deretter kan et annet datasystem ta de behandlede datautgangene, i sin datapipeline, som innganger.
Dataene fortsetter langs hver tilkobling og gjennom forskjellige renseprosesser og rørledninger til de når en forbrukstilstand. Deretter bruker de ansatte det på jobben, eller at data blir lagret i et depot, som en datalager.
I tillegg til å transportere data, renser, konverterer og transformerer enkelte kanaler dataene når de beveger seg gjennom dem, på samme måte som hvordan en persons fordøyelseskanal bryter ned mat. Andre datakanaler samler inn og analyserer data om det organisasjonsomfattende rørledningsnettverket, og gir ende-til-ende overvåking av dets helse, også kjent som data observerbarhet.
Hvorfor bruker selskaper datarørledninger?
Bedrifter finner gode datapipelines skalerbare, fleksible, vedlikeholdbare og raske. Automatiserte datapipelines, opprettet og administrert av algoritmer, kan vises eller trekkes tilbake ved behov. Datarørledninger kan også omdirigere data til andre kanaler, unngå datastopp og transportere data raskt.
Datapipelines bidrar til ulike kritiske Dataledelse behov på tvers av virksomheten. Eksempler på dette er:
- Dataintegrasjon: Koblinger som pakker og transporterer data fra ett system til et annet og inkluderer hendelsesbasert og batchbehandling av datastrømmer
- Datakvalitet/dataforvaltning: Kanaler som definerer og håndhever regler for datakvalitet i henhold til bedriftens retningslinjer og bransjeforskrifter for datautgangen
- Datakatalogisering/metadatabehandling: Rørledninger som kobler sammen og skanner metadata for alle typer databaser og gir bedriftsdatakontekst
- Datasikkerhet: Kanaler som oppdage sensitive data og beskytte mot brudd
Tre utfordringer organisasjoner står overfor
Organisasjoner som utnytter datapipelines står overfor minst tre utfordringer: kompleksitet, økte kostnader og sikkerhet.
kompleksitet
Ingeniører må legge ved eller endre datapipelines etter hvert som kravene til forretningsdata endres, noe som øker kompleksiteten ved bruk og vedlikehold av kanalene. Videre må ansatte flytte data på tvers av sammenkoblede hybride skymiljøer, inkludert lokale som er offentlig tilgjengelige, som Microsoft Azure.
Håndterer mange forskjellige cloud computing lokasjoner legger til frustrasjoner med datarørledninger på grunn av utfordringer med å skalere datarørledningsnettverket. Når ingeniører ikke klarer å arkitekte kompetent, datakanalene på tvers av en organisasjon, databevegelsen avtar, eller ansatte ikke får tak i dataene de trenger og må gjøre ytterligere data rensing.
Gur Steif, president for digital business automation hos BMC Software, forteller om hvordan selskaper sliter å bygge inn et intrikat rørledningssystem i sine kritiske applikasjoner. Følgelig vil bedrifter måtte investere i plattformer for orkestrering av dataarbeidsflyt som holder dataene flytende og krever sofistikerte DataOps kunnskap.
Økte kostnader
Etter hvert som nyere datateknologier dukker opp, står bedrifter overfor økte kostnader å modernisere hver av sine datarørledninger for å tilpasse seg. I tillegg må bedriftene bruke mer på vedlikehold av rørledninger og fremme teknisk kunnskap.
En annen kostnadskilde stammer fra endringer gjort av ingeniører oppstrøms, nærmere kilden. Noen ganger kan disse utviklerne ikke direkte se konsekvensene av koden deres, og bryter minst én dataprosess mens dataene går nedover rørledningene.
Data Security
Ingeniører må sikre datasikkerhet for overholdelse ettersom data flyter ned forskjellige datakanaler til publikum. For eksempel kan bedriftsregnskapsførere trenge sensitiv kredittkortinformasjon sendt gjennom rørledningene som ikke skal gå til kundeservicepersonell.
Så sikkerhetsrisikoen øker hvis ingeniører ikke har en måte å se dataene når de strømmer nedover rørledningen. Ponemon Research bemerker det 63% av sikkerhetsanalytikere kaller mangelen på synlighet i nettverket og infrastrukturen som en stressfaktor.
Beste praksis for bruk av datarørledninger
Bruk av datapipelines krever en delikat balanse i å gjøre nødvendig data tilgjengelig for brukere så raskt som mulig til lavest mulig kostnad for opprettelse og vedlikehold. Selvsagt må bedrifter velge det beste Dataarkitektur med sikre, smidige og operativt robuste datapipelines.
I tillegg må selskaper vurdere følgende:
- AI og maskinlæring (ML) teknologier: Organisasjoner vil stole på ML for å identifisere dataflytmønstre, og optimalisere dataflyten til alle deler av organisasjonen. I tillegg vil gode ML-tjenester gjøre dataflyten mer effektiv ved å legge til rette for selvintegrering, healing og tuning av datapipelines. Innen 2025 vil AI-modeller erstatte opp til 60% av eksisterende, inkludert de med datapipelines bygget på tradisjonelle data.
- Observerbarhet av data: Data observerbarhet gir ingeniører en helhetlig oversikt over hele datarørledningsnettverket, inkludert dets orkestrering. Med hjelp fra dataobservabilitet vet ingeniører hvordan datarørledningene fungerer og hva de skal endre, fikse eller beskjære.
- Metadatabehandling: Å få god dataobservabilitet krever best mulig bruk av metadata, også kjent som data som beskriver data. Følgelig vil bedrifter søke en metadatahåndtering struktur for å kombinere eksisterende med nye aktive metadata for å få ønsket automatisering, innsikt og engasjement på tvers av datapipelines.
Verktøy som hjelper til med å administrere datapipelines
Bedrifter er avhengige av datapipeline-verktøy for å bygge, distribuere og vedlikeholde dataforbindelser. Disse ressursene flytter data fra flere kilder til destinasjoner mer effektivt, støtte ende-til-ende prosesser.
Mens noen virksomheter planlegger å utvikle og vedlikeholde spesialiserte interne verktøy, kan de tappe organisasjonens ressurser for å administrere dem, spesielt når data sirkulerer i miljøer med flere skyer. Som et resultat vil noen virksomheter henvende seg til tredjepartsleverandører for å spare disse kostnadene.
Tredjeparts datapipelineverktøy kommer i to varianter. Noen generiske samler inn, behandler og leverer data på tvers av flere skytjenester. Eksempler inkluderer:
- AWS lim: En serverløs plattform for lav kode, uttrekk, transformasjon, last (ETL) som har et sentralt metadatalager og bruker ML å deduplisere og rense data
- Azure Data Factory: En tjeneste for orkestrering av databevegelse og transformering av data mellom Azure-ressurser, ved å bruke data observerbarhet, metadataog maskinlæring
- Cloudera: Datatjenester som håndterer data på tvers av flere bedriftsskyer, effektiviserer datareplikering og bruk NiFi – et raskt, enkelt og sikkert dataintegreringsverktøy
- Google Cloud Data Fusion: Et avansert produkt og grunnlaget for Google Data Integration som inkluderer data observerbarhet og integrasjon metadata.
- IBM Information Server for IBM Cloud Pak for Data: En server med dataintegrasjon, kvalitet og styringsevner, som bruker ML-funksjoner
- IBM Infosphere Information Server: En administrert tjeneste på hvilken som helst sky eller selvadministrert for en kundeinfrastruktur som bruker ML
- Informatikk: En intelligent dataplattform som inkluderer innebygd tilkobling, inntak, kvalitet, styring, katalogisering gjennom bedriftsomfattende metadata, personvern og masterdataadministrasjon på tvers av flere skyer
- Talent: Et helt dataøkosystem som er skyuavhengig og bygger inn ML i hele datastrukturen
Andre verktøy spesialiserer seg på å klargjøre og pakke data for levering:
- Fivetran: En datapipeline med lavt oppsett, uten konfigurasjon og vedlikehold som løfter data fra operasjonelle kilder og leverer dem til et moderne skylager
- Matillion: En dynamisk ETL-plattform som gjør sanntidsjusteringer hvis dataprosesser tar for lang tid eller mislykkes
- Alooma: Et datapipelineverktøy fra Google for enklere kontroll og synlighet av automatiserte dataprosesser
- Sting: Et ETL- og datavarehusverktøy, sammenkoblet med Talend, som flytter og administrerer data fra flere kilder
På bedriftsnivå vil bedrifter bruke minst én generisk datapipelineressurs som spenner over tjenester på tvers av flere skyer og en annen spesialisert for å håndtere vanskelighetene med dataforberedelse.
konklusjonen
Enhver moderne dataarkitektur krever et datarørledningsnettverk for å flytte data fra sin rå tilstand til en brukbar. Datapipelines gir fleksibiliteten og hastigheten til best mulig transport av data for å møte forretnings- og dataadministrasjonsbehov.
Mens dårlig utførte datapipelines fører til økt kompleksitet, kostnader og sikkerhetsrisikoer, maksimerer implementering av en god dataarkitektur med gode dataverktøy datapipelines potensial på tvers av organisasjonen.
As Chris Gladwin, medgründer og administrerende direktør i Ocient, bemerker, datarørledninger vil bli mer viktige for å innta et bredt utvalg av data godt. Fremtiden bringer forbedringer i datapipeline med mer sofistikert dataintegrasjon som er enklere å administrere.
Bildet brukes under lisens fra Shutterstock.com
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Om oss
- tilgjengelig
- tvers
- aktiv
- tilpasse
- tillegg
- I tillegg
- Legger
- justeringer
- mot
- smidig
- AI
- algoritmer
- Alle
- Amazon
- analytikere
- analysere
- og
- og infrastruktur
- En annen
- vises
- søknader
- Påfør
- arkitektur
- feste
- publikum
- Automatisert
- Automatisering
- tilgjengelig
- unngå
- AWS
- Azure
- bakgrunn
- Balansere
- fordi
- bli
- BEST
- Bedre
- BMC
- Breaking
- pauser
- Bringer
- bygge
- bygget
- virksomhet
- bedrifter
- ring
- kan ikke
- evner
- kort
- sentral
- konsernsjef
- Gjerne
- utfordringer
- endring
- Kanal
- kanaler
- Velg
- nærmere
- Cloud
- skytjenester
- Med-grunnlegger
- kode
- samle
- kombinere
- Kom
- Selskaper
- Selskapet
- kompleksitet
- samsvar
- datamaskin
- Koble
- Tilkobling
- tilkobling
- Tilkoblinger
- Tilkobling
- Følgelig
- Vurder
- forbruke
- fortsetter
- bidra
- kontroll
- konvertere
- Bedriftens
- Kostnad
- Kostnader
- skape
- opprettet
- skaperverket
- kreditt
- kredittkort
- kritisk
- kunde
- Kundeservice
- Kunder
- dato
- dataintegrasjon
- Dataledelse
- Dataplattform
- Dataklargjøring
- databehandling
- datakvalitet
- datasikkerhet
- datalager
- databaser
- DATAVERSITET
- avgjørelser
- leverer
- leverer
- levering
- utplassere
- destinasjonen
- utviklere
- utvikle
- forskjellig
- digitalt
- direkte
- ned
- dynamisk
- hver enkelt
- enklere
- økosystem
- effektiv
- effektivt
- Emery
- ansatte
- ende til ende
- engasjement
- Ingeniører
- sikre
- Enterprise
- bedrifter
- Hele
- miljøer
- spesielt
- avgjørende
- Eter (ETH)
- eksempel
- eksempler
- eksisterende
- trekke ut
- Face
- møtt
- tilrettelegging
- fabrikk
- FAIL
- FAST
- raskere
- Finn
- Fix
- fleksibilitet
- fleksibel
- flyten
- Rennende
- Flows
- etter
- mat
- Fundament
- Rammeverk
- fra
- frustrasjoner
- funksjon
- funksjon
- Dess
- fusjon
- framtid
- Gevinst
- Gartner
- få
- få
- Gi
- Go
- god
- varer
- styresett
- Regjeringen
- Grow
- håndtere
- Helse
- hjelpe
- Høy
- helhetlig
- Hvordan
- HTML
- HTTPS
- Hybrid
- hybrid sky
- IBM
- IBM Cloud
- identifisere
- implementere
- forbedringer
- in
- inkludere
- inkluderer
- Inkludert
- økt
- økende
- industri
- informasjon
- Infrastruktur
- inngang
- innsikt
- innsikt
- integrering
- Intelligent
- sammenkobling
- intern
- forviklinger
- Investere
- IT
- Jobb
- Hold
- Vet
- kunnskap
- kjent
- maling
- føre
- læring
- Nivå
- utnytte
- Tillatelse
- laste
- steder
- Lang
- Lav
- maskin
- maskinlæring
- vedlikeholde
- Vedlikeholdbar
- vedlikehold
- gjøre
- GJØR AT
- Making
- administrer
- fikk til
- ledelse
- Ledere
- forvalter
- mange
- Master
- max bredde
- Maksimerer
- Møt
- metadata
- Microsoft
- Microsoft Azure
- ML
- modeller
- Moderne
- modern
- modifisere
- overvåking
- mer
- mer effektivt
- mest
- flytte
- bevegelse
- trekk
- flytting
- flere
- innfødt
- nødvendig
- Trenger
- nødvendig
- behov
- nettverk
- Ny
- neste
- Merknader
- ONE
- drift
- operasjonell
- orkestre
- organisasjon
- organisasjoner
- Annen
- oppsyn
- oversikt
- pakke
- emballasje
- sammen
- deler
- mønstre
- rørledning
- fly
- plattform
- Plattformer
- plato
- Platon Data Intelligence
- PlatonData
- Politikk
- mulig
- potensiell
- praksis
- forbereder
- president
- privatliv
- prosess
- Prosesser
- prosessering
- Produkt
- programmer
- beskytte
- gi
- gir
- gi
- offentlig
- kvalitet
- raskt
- Raw
- rådata
- Når
- sanntids
- forskrifter
- erstatte
- replikering
- Rapporter
- Repository
- krever
- Krav
- Krever
- forskning
- ressurs
- Ressurser
- resultere
- risikoer
- robust
- regler
- Spar
- skalerbar
- skalering
- skanne
- sikre
- sikkerhet
- sikkerhetsrisiko
- sensitive
- server~~POS=TRUNC
- tjeneste
- Tjenester
- flere
- SKIFTENDE
- bør
- Shutterstock
- lignende
- bremser
- So
- Software
- noen
- sofistikert
- kilde
- Kilder
- spenn
- spesialister
- spesialisert
- fart
- bruke
- Spot
- Staff
- Begynn
- Tilstand
- lagret
- streaming
- effektivisere
- struktur
- Støtte
- system
- Systemer
- Ta
- Snakker
- Teknisk
- Technologies
- De
- Fremtiden
- informasjonen
- Kilden
- deres
- tredjeparts
- tre
- Gjennom
- hele
- til
- også
- verktøy
- verktøy
- mot
- tradisjonelle
- Transform
- transformere
- transportere
- transporter
- reiser
- SVING
- typer
- oss
- etter
- forstå
- UPS
- bruke
- Brukere
- verdi
- variasjon
- ulike
- leverandører
- Se
- synlighet
- Warehouse
- Hva
- HVEM
- bred
- vil
- arbeidere
- arbeidsflyt
- zephyrnet