Data Pipelines: An Overview - Plato AiStream V2.1

Genudgivet af Platon

Abonnenter: 0

Ligesom leverandører er afhængige af amerikansk post eller UPS for at få deres varer til kunderne, regner medarbejderne med datapipelines til at levere den information, de har brug for for at få forretningsindsigt og træffe beslutninger. Dette netværk af datakanaler, der opererer i baggrunden, distribuerer behandlede data på tværs af computersystemer, en væsentlig ramme og funktion for evt. datastyret forretning.

Værdien af at forbinde datasystemer med pipelines fortsætter med at vokse, da virksomheder skal forbruge masser af streaming data hurtigere, serveret i forskellige formater. Så ledere, der forstår datapipelines på et højt niveau, kan bedre flytte rå data mod de oplysninger, der ses på dashboards eller rapporter, mest økonomisk.

Hvad er datapipelines?

Datapipelines beskriver databehandlingselementer forbundet i serie, hvor dataoutputtet fra en kanal fungerer som input for den næste. Disse ledninger starter ved kilden, hvor systemer indtager det ved at flytte eller replikere det og flytte det til en ny destination.

Computerprogrammer skaber, ændrer, transformerer eller pakker deres input til et mere raffineret dataprodukt på det nye sted. Derefter kan et andet computersystem tage de behandlede dataoutput i sin datapipeline som input.

Dataene fortsætter langs hver forbindelse og gennem forskellige renseprocesser og rørledninger, indtil de når en forbrugstilstand. Så bruger medarbejderne det på jobbet, eller at data bliver gemt i et depot, som f.eks datalager.

Ud over at transportere data renser, konverterer og transformerer nogle kanaler dataene, når de bevæger sig gennem dem, på samme måde som en persons fordøjelseskanal nedbryder mad. Andre datakanaler indsamler og analyserer data om det organisationsdækkende pipeline-netværk og giver ende-til-ende overvågning af dets helbred, også kendt som data observerbarhed.

Hvorfor bruger virksomheder datapipelines?

Virksomheder finder gode datapipelines skalerbare, fleksible, vedligeholdelige og hurtige. Automatiserede datapipelines, skabt og administreret af algoritmer, kan vises eller trækkes tilbage efter behov. Datapipelines kan også omdirigere data til andre kanaler, hvilket undgår datastop og transporterer data hurtigt.

Datapipelines bidrager til forskellige kritiske Data Management behov på tværs af virksomheden. Eksempler indbefatter:

Dataintegration: Connectors, der pakker og transporterer data fra et system til et andet og inkluderer hændelsesbaseret og batchbehandling af datastrømme
Datakvalitet/dataforvaltning: Kanaler, der definerer og håndhæver regler for datakvalitet i henhold til virksomhedens politikker og branchebestemmelser for dataoutput
Datakatalogisering/metadatastyring: Pipelines, der forbinder og scanner metadata for alle typer databaser og giver virksomhedens datakontekst
Databeskyttelse: Kanaler, der opdage følsomme data og beskytte mod brud

Tre udfordringer for organisationer

Organisationer, der udnytter datapipelines, står over for mindst tre udfordringer: kompleksitet, øgede omkostninger og sikkerhed.

Kompleksitet

Ingeniører skal vedhæfte eller ændre datapipelines, efterhånden som forretningsdatakravene ændrer sig, hvilket øger kompleksiteten ved at bruge og vedligeholde kanalerne. Desuden skal medarbejderne flytte data på tværs af sammenkædede hybride cloudmiljøer, herunder lokale, offentligt tilgængelige, som Microsoft Azure.

Håndtering af mange forskellige cloud computing lokationer tilføjer frustrationer med datapipelines på grund af udfordringer med at skalere datapipeline-netværket. Når ingeniører ikke formår at arkitekte kompetent, datakanalerne på tværs af en organisation, datas bevægelser bliver langsommere, eller medarbejdere undlader at få de data, de har brug for, og skal gøre yderligere data rensning.

Gur Steif, præsident for digital business automation hos BMC Software, fortæller om hvordan virksomheder kæmper at integrere et indviklet rørledningssystem i deres kritiske applikationer. Derfor bliver virksomheder nødt til at investere i dataworkflow-orkestreringsplatforme, der holder dataene flydende og kræver sofistikerede DataOps viden.

Øgede omkostninger

Efterhånden som nyere datateknologier dukker op, står virksomheder over for øgede omkostninger at modernisere hver af deres datapipelines for at tilpasse dem. Derudover skal virksomhederne bruge mere på vedligeholdelse af rørledninger og fremme teknisk viden.

En anden kilde til omkostninger stammer fra foretagne ændringer af ingeniører opstrøms, tættere på kilden. Nogle gange kan disse udviklere ikke direkte se konsekvenserne af deres kode, hvilket bryder mindst én dataproces, mens dataene bevæger sig ned ad rørledningerne.

Datasikkerhed

Ingeniører skal sikre datasikkerhed for overholdelse, da data strømmer ned ad forskellige datakanaler til publikum. For eksempel kan virksomhedsrevisorer have brug for følsomme kreditkortoplysninger, der sendes gennem pipelines, og som ikke bør gå til kundeservicepersonale.

Så sikkerhedsrisiciene vokser, hvis ingeniører ikke har en måde at se dataene på, når de flyder ned ad rørledningen. Ponemon Research bemærker det 63 % af sikkerhedsanalytikere kalder manglen på synlighed i netværket og infrastrukturen som en stressfaktor.

Bedste praksis for brug af datapipelines

Brug af datapipelines kræver at finde en hårfin balance i at gøre nødvendige data tilgængelige for brugerne så hurtigt som muligt til den laveste pris for oprettelse og vedligeholdelse. Det er klart, at virksomheder skal vælge det bedste Dataarkitektur med sikre, agile og operationelt robuste datapipelines.

Derudover skal virksomhederne overveje følgende:

AI og machine learning (ML) teknologier: Organisationer vil stole på ML til at identificere dataflowmønstre, der bedst optimerer dataflowet til alle dele af organisationen. Derudover vil gode ML-tjenester gøre dataflowet mere effektivt ved at lette selvintegration, healing og tuning af datapipelines. I 2025 vil AI-modeller erstatte op til 60 % af eksisterende, herunder dem med datapipelines bygget på traditionelle data.
Data observerbarhed: Data observerbarhed giver ingeniører et holistisk overblik over hele datapipeline-netværket, inklusive dets orkestrering. Med hjælp fra dataobservabilitet ved ingeniører, hvordan datapipelines fungerer, og hvad de skal ændre, rette eller beskære.
Metadatahåndtering: At få god dataobservabilitet kræver at man udnytter metadata bedst muligt, også kendt som data, der beskriver data. Som følge heraf vil virksomheder anvende en metadata management struktur for at kombinere eksisterende med nye aktive metadata for at få den ønskede automatisering, indsigt og engagement på tværs af datapipelines.

Værktøjer, der hjælper med at administrere datapipelines

Virksomheder er afhængige af datapipeline-værktøjer til at hjælpe med at opbygge, implementere og vedligeholde dataforbindelser. Disse ressourcer flytter data fra flere kilder til destinationer mere effektivt og understøtter end-to-end processer.

Mens nogle virksomheder planlægger at udvikle og vedligeholde specialiserede interne værktøjer, kan de dræne organisationernes ressourcer til at administrere dem, især når data cirkulerer i multi-cloud-miljøer. Som følge heraf vil nogle virksomheder henvende sig til tredjepartsleverandører for at spare disse omkostninger.

Tredjeparts datapipelineværktøjer kommer i to varianter. Nogle generiske indsamler, behandler og leverer data på tværs af flere cloud-tjenester. Eksempler omfatter:

AWS lim: En serverløs platform med lav kode, ekstraktion, transformation, load (ETL), der har et centralt metadatalager og bruger ML at deduplikere og rense data
Azure Data Factory: En tjeneste til at orkestrere databevægelse og transformere data imellem Azure-ressourcerved hjælp af data observerbarhed, metadataog machine learning
Cloudera: Datatjenester, der håndterer data på tværs af flere virksomhedsskyer, strømliner datareplikering og brug NiFi – et hurtigt, nemt og sikkert dataintegrationsværktøj
Google Cloud Data Fusion: Et avanceret produkt og grundlaget for Google Data Integration, der omfatter data observerbarhed og integrationsmetadata.
IBM Information Server til IBM Cloud Pak til Data: En server med dataintegration, kvalitet og styringsfunktioner, der bruger ML-funktioner
IBM Infosphere Information Server: En administreret tjeneste på enhver sky eller selvadministreret til en kundeinfrastruktur, der bruger ML
Informatik: En intelligent dataplatform, der inkluderer indbygget tilslutning, indtagelse, kvalitet, styring, katalogisering gennem virksomhedsdækkende metadata, privatliv og masterdatastyring på tværs af flere skyer
Talent: Et helt dataøkosystem, der er cloud-uafhængigt og integrerer ML i hele dets datastruktur

Andre værktøjer specialiserer sig i at forberede og pakke data til levering:

Fivetran: En datapipeline med lav opsætning, ingen konfiguration og ingen vedligeholdelse, der løfter data fra operationelle kilder og leverer dem til et moderne cloud-varehus
Matillion: En dynamisk ETL-platform, der foretager justeringer i realtid, hvis dataprocesser tager for lang tid eller fejler
Alooma: Et datapipelineværktøj fra Google til lettere kontrol og synlighed af automatiserede dataprocesser
Søm: Et ETL- og datavarehusværktøj, parret med Talend, der flytter og administrerer data fra flere kilder

På virksomhedsniveau vil virksomheder bruge mindst én generisk datapipeline-ressource, der spænder over tjenester på tværs af flere skyer, og en anden specialiseret til at håndtere de indviklede dataforberedelser.

Konklusion

Enhver moderne dataarkitektur kræver et datapipeline-netværk for at flytte data fra dens rå tilstand til en brugbar. Datapipelines giver fleksibiliteten og hastigheden til den bedste transport af data for at opfylde forretnings- og datastyringsbehov.

Mens dårligt udførte datapipelines fører til øget kompleksitet, omkostninger og sikkerhedsrisici, maksimerer implementering af en god dataarkitektur med gode dataværktøjer datapipelines' potentiale på tværs af organisationen.

As Chris Gladwin, medstifter og CEO hos Ocient, bemærker, vil datapipelines blive mere afgørende for at indtage en bred vifte af data godt. Fremtiden bringer datapipelineforbedringer med mere sofistikeret dataintegration, der er nemmere at administrere.

Billede brugt under licens fra Shutterstock.com

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://www.dataversity.net/data-pipelines-an-overview/

Tidsstempel: Marts 2, 2023

Tidsstempel: December 22, 2023

Datapipelines: et overblik

Genudgivet af Platon

Hvad er datapipelines?

Hvorfor bruger virksomheder datapipelines?

Tre udfordringer for organisationer

Bedste praksis for brug af datapipelines

Værktøjer, der hjælper med at administrere datapipelines

Konklusion

Mere fra DATAVERSITET

25. jan ADV-webinar: Emerging Trends in Data Architecture – What’s the Next Big Thing?

My Career in Data Sæson 2 Episode 3: Nikita Patel, Senior Data Analyst, Softrams – DATAVERSITY

My Career in Data Episode 30: Lauren Maffeo, Service Designer, Steampunk

1. februar EEDL-webinar: Læsefærdighed er en tovejsgade – sagen for både forretnings- og datafærdigheder

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto