Ligesom leverandører er afhængige af amerikansk post eller UPS for at få deres varer til kunderne, regner medarbejderne med datapipelines til at levere den information, de har brug for for at få forretningsindsigt og træffe beslutninger. Dette netværk af datakanaler, der opererer i baggrunden, distribuerer behandlede data på tværs af computersystemer, en væsentlig ramme og funktion for evt. datastyret forretning.
Værdien af at forbinde datasystemer med pipelines fortsætter med at vokse, da virksomheder skal forbruge masser af streaming data hurtigere, serveret i forskellige formater. Så ledere, der forstår datapipelines på et højt niveau, kan bedre flytte rå data mod de oplysninger, der ses på dashboards eller rapporter, mest økonomisk.
Hvad er datapipelines?
Datapipelines beskriver databehandlingselementer forbundet i serie, hvor dataoutputtet fra en kanal fungerer som input for den næste. Disse ledninger starter ved kilden, hvor systemer indtager det ved at flytte eller replikere det og flytte det til en ny destination.
Computerprogrammer skaber, ændrer, transformerer eller pakker deres input til et mere raffineret dataprodukt på det nye sted. Derefter kan et andet computersystem tage de behandlede dataoutput i sin datapipeline som input.
Dataene fortsætter langs hver forbindelse og gennem forskellige renseprocesser og rørledninger, indtil de når en forbrugstilstand. Så bruger medarbejderne det på jobbet, eller at data bliver gemt i et depot, som f.eks datalager.
Ud over at transportere data renser, konverterer og transformerer nogle kanaler dataene, når de bevæger sig gennem dem, på samme måde som en persons fordøjelseskanal nedbryder mad. Andre datakanaler indsamler og analyserer data om det organisationsdækkende pipeline-netværk og giver ende-til-ende overvågning af dets helbred, også kendt som data observerbarhed.
Hvorfor bruger virksomheder datapipelines?
Virksomheder finder gode datapipelines skalerbare, fleksible, vedligeholdelige og hurtige. Automatiserede datapipelines, skabt og administreret af algoritmer, kan vises eller trækkes tilbage efter behov. Datapipelines kan også omdirigere data til andre kanaler, hvilket undgår datastop og transporterer data hurtigt.
Datapipelines bidrager til forskellige kritiske Data Management behov på tværs af virksomheden. Eksempler indbefatter:
- Dataintegration: Connectors, der pakker og transporterer data fra et system til et andet og inkluderer hændelsesbaseret og batchbehandling af datastrømme
- Datakvalitet/dataforvaltning: Kanaler, der definerer og håndhæver regler for datakvalitet i henhold til virksomhedens politikker og branchebestemmelser for dataoutput
- Datakatalogisering/metadatastyring: Pipelines, der forbinder og scanner metadata for alle typer databaser og giver virksomhedens datakontekst
- Databeskyttelse: Kanaler, der opdage følsomme data og beskytte mod brud
Tre udfordringer for organisationer
Organisationer, der udnytter datapipelines, står over for mindst tre udfordringer: kompleksitet, øgede omkostninger og sikkerhed.
Kompleksitet
Ingeniører skal vedhæfte eller ændre datapipelines, efterhånden som forretningsdatakravene ændrer sig, hvilket øger kompleksiteten ved at bruge og vedligeholde kanalerne. Desuden skal medarbejderne flytte data på tværs af sammenkædede hybride cloudmiljøer, herunder lokale, offentligt tilgængelige, som Microsoft Azure.
Håndtering af mange forskellige cloud computing lokationer tilføjer frustrationer med datapipelines på grund af udfordringer med at skalere datapipeline-netværket. Når ingeniører ikke formår at arkitekte kompetent, datakanalerne på tværs af en organisation, datas bevægelser bliver langsommere, eller medarbejdere undlader at få de data, de har brug for, og skal gøre yderligere data rensning.
Gur Steif, præsident for digital business automation hos BMC Software, fortæller om hvordan virksomheder kæmper at integrere et indviklet rørledningssystem i deres kritiske applikationer. Derfor bliver virksomheder nødt til at investere i dataworkflow-orkestreringsplatforme, der holder dataene flydende og kræver sofistikerede DataOps viden.
Øgede omkostninger
Efterhånden som nyere datateknologier dukker op, står virksomheder over for øgede omkostninger at modernisere hver af deres datapipelines for at tilpasse dem. Derudover skal virksomhederne bruge mere på vedligeholdelse af rørledninger og fremme teknisk viden.
En anden kilde til omkostninger stammer fra foretagne ændringer af ingeniører opstrøms, tættere på kilden. Nogle gange kan disse udviklere ikke direkte se konsekvenserne af deres kode, hvilket bryder mindst én dataproces, mens dataene bevæger sig ned ad rørledningerne.
Datasikkerhed
Ingeniører skal sikre datasikkerhed for overholdelse, da data strømmer ned ad forskellige datakanaler til publikum. For eksempel kan virksomhedsrevisorer have brug for følsomme kreditkortoplysninger, der sendes gennem pipelines, og som ikke bør gå til kundeservicepersonale.
Så sikkerhedsrisiciene vokser, hvis ingeniører ikke har en måde at se dataene på, når de flyder ned ad rørledningen. Ponemon Research bemærker det 63 % af sikkerhedsanalytikere kalder manglen på synlighed i netværket og infrastrukturen som en stressfaktor.
Bedste praksis for brug af datapipelines
Brug af datapipelines kræver at finde en hårfin balance i at gøre nødvendige data tilgængelige for brugerne så hurtigt som muligt til den laveste pris for oprettelse og vedligeholdelse. Det er klart, at virksomheder skal vælge det bedste Dataarkitektur med sikre, agile og operationelt robuste datapipelines.
Derudover skal virksomhederne overveje følgende:
- AI og machine learning (ML) teknologier: Organisationer vil stole på ML til at identificere dataflowmønstre, der bedst optimerer dataflowet til alle dele af organisationen. Derudover vil gode ML-tjenester gøre dataflowet mere effektivt ved at lette selvintegration, healing og tuning af datapipelines. I 2025 vil AI-modeller erstatte op til 60 % af eksisterende, herunder dem med datapipelines bygget på traditionelle data.
- Data observerbarhed: Data observerbarhed giver ingeniører et holistisk overblik over hele datapipeline-netværket, inklusive dets orkestrering. Med hjælp fra dataobservabilitet ved ingeniører, hvordan datapipelines fungerer, og hvad de skal ændre, rette eller beskære.
- Metadatahåndtering: At få god dataobservabilitet kræver at man udnytter metadata bedst muligt, også kendt som data, der beskriver data. Som følge heraf vil virksomheder anvende en metadata management struktur for at kombinere eksisterende med nye aktive metadata for at få den ønskede automatisering, indsigt og engagement på tværs af datapipelines.
Værktøjer, der hjælper med at administrere datapipelines
Virksomheder er afhængige af datapipeline-værktøjer til at hjælpe med at opbygge, implementere og vedligeholde dataforbindelser. Disse ressourcer flytter data fra flere kilder til destinationer mere effektivt og understøtter end-to-end processer.
Mens nogle virksomheder planlægger at udvikle og vedligeholde specialiserede interne værktøjer, kan de dræne organisationernes ressourcer til at administrere dem, især når data cirkulerer i multi-cloud-miljøer. Som følge heraf vil nogle virksomheder henvende sig til tredjepartsleverandører for at spare disse omkostninger.
Tredjeparts datapipelineværktøjer kommer i to varianter. Nogle generiske indsamler, behandler og leverer data på tværs af flere cloud-tjenester. Eksempler omfatter:
- AWS lim: En serverløs platform med lav kode, ekstraktion, transformation, load (ETL), der har et centralt metadatalager og bruger ML at deduplikere og rense data
- Azure Data Factory: En tjeneste til at orkestrere databevægelse og transformere data imellem Azure-ressourcerved hjælp af data observerbarhed, metadataog machine learning
- Cloudera: Datatjenester, der håndterer data på tværs af flere virksomhedsskyer, strømliner datareplikering og brug NiFi – et hurtigt, nemt og sikkert dataintegrationsværktøj
- Google Cloud Data Fusion: Et avanceret produkt og grundlaget for Google Data Integration, der omfatter data observerbarhed og integrationsmetadata.
- IBM Information Server til IBM Cloud Pak til Data: En server med dataintegration, kvalitet og styringsfunktioner, der bruger ML-funktioner
- IBM Infosphere Information Server: En administreret tjeneste på enhver sky eller selvadministreret til en kundeinfrastruktur, der bruger ML
- Informatik: En intelligent dataplatform, der inkluderer indbygget tilslutning, indtagelse, kvalitet, styring, katalogisering gennem virksomhedsdækkende metadata, privatliv og masterdatastyring på tværs af flere skyer
- Talent: Et helt dataøkosystem, der er cloud-uafhængigt og integrerer ML i hele dets datastruktur
Andre værktøjer specialiserer sig i at forberede og pakke data til levering:
- Fivetran: En datapipeline med lav opsætning, ingen konfiguration og ingen vedligeholdelse, der løfter data fra operationelle kilder og leverer dem til et moderne cloud-varehus
- Matillion: En dynamisk ETL-platform, der foretager justeringer i realtid, hvis dataprocesser tager for lang tid eller fejler
- Alooma: Et datapipelineværktøj fra Google til lettere kontrol og synlighed af automatiserede dataprocesser
- Søm: Et ETL- og datavarehusværktøj, parret med Talend, der flytter og administrerer data fra flere kilder
På virksomhedsniveau vil virksomheder bruge mindst én generisk datapipeline-ressource, der spænder over tjenester på tværs af flere skyer, og en anden specialiseret til at håndtere de indviklede dataforberedelser.
Konklusion
Enhver moderne dataarkitektur kræver et datapipeline-netværk for at flytte data fra dens rå tilstand til en brugbar. Datapipelines giver fleksibiliteten og hastigheden til den bedste transport af data for at opfylde forretnings- og datastyringsbehov.
Mens dårligt udførte datapipelines fører til øget kompleksitet, omkostninger og sikkerhedsrisici, maksimerer implementering af en god dataarkitektur med gode dataværktøjer datapipelines' potentiale på tværs af organisationen.
As Chris Gladwin, medstifter og CEO hos Ocient, bemærker, vil datapipelines blive mere afgørende for at indtage en bred vifte af data godt. Fremtiden bringer datapipelineforbedringer med mere sofistikeret dataintegration, der er nemmere at administrere.
Billede brugt under licens fra Shutterstock.com
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Om
- tilgængelig
- tværs
- aktiv
- tilpasse
- Desuden
- Derudover
- Tilføjer
- justeringer
- mod
- adræt
- AI
- algoritmer
- Alle
- Amazon
- Analytikere
- analysere
- ,
- og infrastruktur
- En anden
- vises
- applikationer
- Indløs
- arkitektur
- vedhæfte
- høringer
- Automatiseret
- Automation
- til rådighed
- undgå
- AWS
- Azure
- baggrund
- Balance
- fordi
- bliver
- BEDSTE
- Bedre
- BMC
- Breaking
- pauser
- Bringer
- bygge
- bygget
- virksomhed
- virksomheder
- ringe
- kan ikke
- kapaciteter
- kort
- central
- Direktør
- sikkert
- udfordringer
- lave om
- Kanal
- kanaler
- Vælg
- tættere
- Cloud
- cloud-tjenester
- Medstifter
- kode
- indsamler
- kombinerer
- Kom
- Virksomheder
- selskab
- kompleksitet
- Compliance
- computer
- Tilslut
- Tilslutning
- tilslutning
- Tilslutninger
- Connectivity
- følgelig
- Overvej
- forbruge
- fortsætter
- bidrage
- kontrol
- konvertere
- Corporate
- Koste
- Omkostninger
- skabe
- oprettet
- skabelse
- kredit
- kreditkort
- kritisk
- kunde
- Kundeservice
- Kunder
- data
- dataintegration
- datastyring
- Dataplatform
- Dataforberedelse
- databehandling
- datakvalitet
- datasikkerhed
- datalager
- databaser
- DATAVERSITET
- afgørelser
- levere
- leverer
- levering
- indsætte
- destination
- udviklere
- udvikling
- forskellige
- digital
- direkte
- ned
- dynamisk
- hver
- lettere
- økosystem
- effektiv
- effektivt
- smergel
- medarbejdere
- ende til ende
- engagement
- Ingeniører
- sikre
- Enterprise
- virksomheder
- Hele
- miljøer
- især
- væsentlig
- Ether (ETH)
- eksempel
- eksempler
- eksisterende
- ekstrakt
- Ansigtet
- konfronteret
- faciliterende
- fabrik
- FAIL
- FAST
- hurtigere
- Finde
- Fix
- Fleksibilitet
- fleksibel
- flow
- Flowing
- strømme
- efter
- mad
- Foundation
- Framework
- fra
- Frustrationer
- funktion
- fungerer
- Endvidere
- fusion
- fremtiden
- Gevinst
- Gartner
- få
- få
- Giv
- Go
- godt
- varer
- regeringsførelse
- Regering
- Grow
- håndtere
- Helse
- hjælpe
- Høj
- holistisk
- Hvordan
- HTML
- HTTPS
- Hybrid
- Hybrid sky
- IBM
- IBM Cloud
- identificere
- gennemføre
- forbedringer
- in
- omfatter
- omfatter
- Herunder
- øget
- stigende
- industrien
- oplysninger
- Infrastruktur
- indgang
- indsigt
- indsigt
- integration
- Intelligent
- sammenkobling
- interne
- snørklede
- Invest
- IT
- Job
- Holde
- Kend
- viden
- kendt
- Mangel
- føre
- læring
- Niveau
- løftestang
- Licens
- belastning
- placeringer
- Lang
- Lav
- maskine
- machine learning
- vedligeholde
- Vedligeholdelig
- vedligeholdelse
- lave
- maerker
- Making
- administrere
- lykkedes
- ledelse
- Ledere
- administrerer
- mange
- Master
- max-bredde
- Maksimerer
- Mød
- Metadata
- microsoft
- Microsoft Azure
- ML
- modeller
- Moderne
- modernisere
- ændre
- overvågning
- mere
- mere effektiv
- mest
- bevæge sig
- bevægelse
- bevæger sig
- flytning
- flere
- indfødte
- nødvendig
- Behov
- behov
- behov
- netværk
- Ny
- næste
- Noter
- ONE
- drift
- operationelle
- orkestrering
- organisation
- organisationer
- Andet
- Tilsyn
- oversigt
- pakke
- emballage
- parret
- dele
- mønstre
- pipeline
- fly
- perron
- Platforme
- plato
- Platon Data Intelligence
- PlatoData
- politikker
- mulig
- potentiale
- praksis
- forberede
- præsident
- Beskyttelse af personlige oplysninger
- behandle
- Processer
- forarbejdning
- Produkt
- Programmer
- beskytte
- give
- giver
- leverer
- offentligt
- kvalitet
- hurtigt
- Raw
- rådata
- når
- realtid
- regler
- erstatte
- replikation
- Rapporter
- Repository
- kræver
- Krav
- Kræver
- forskning
- ressource
- Ressourcer
- resultere
- risici
- robust
- regler
- Gem
- skalerbar
- skalering
- scanne
- sikker
- sikkerhed
- sikkerhedsrisici
- følsom
- Serverless
- tjeneste
- Tjenester
- flere
- SKIFT
- bør
- Shutterstock
- lignende
- bremser
- So
- Software
- nogle
- sofistikeret
- Kilde
- Kilder
- spændvidder
- specialisere
- specialiserede
- hastighed
- tilbringe
- Spot
- Personale
- starte
- Tilstand
- opbevaret
- streaming
- strømline
- struktur
- Støtte
- systemet
- Systemer
- Tag
- Talks
- Teknisk
- Teknologier
- Fremtiden
- oplysninger
- The Source
- deres
- tredjepart
- tre
- Gennem
- hele
- til
- også
- værktøj
- værktøjer
- mod
- traditionelle
- Transform
- omdanne
- transportere
- transport
- rejser
- TUR
- typer
- os
- under
- forstå
- UPS
- brug
- brugere
- værdi
- række
- forskellige
- leverandører
- Specifikation
- synlighed
- Warehouse
- Hvad
- WHO
- bred
- vilje
- arbejdere
- workflow
- zephyrnet