Proprio come i venditori si affidano alla posta statunitense o a UPS per consegnare le merci ai clienti, i lavoratori contano su pipeline di dati per fornire le informazioni di cui hanno bisogno per ottenere informazioni aziendali e prendere decisioni. Questa rete di canali di dati, operando in background, distribuisce i dati elaborati attraverso i sistemi informatici, una struttura e una funzione essenziali per chiunque data-driven attività commerciale.
Il valore della connessione dei sistemi di dati con le pipeline continua a crescere poiché le aziende hanno bisogno di consumare grandi quantità di dati in streaming più velocemente, serviti in vari formati. Pertanto, i manager che comprendono le pipeline di dati ad alto livello possono spostare meglio i dati grezzi verso le informazioni visualizzate su dashboard o report, nel modo più economico.
Cosa sono le pipeline di dati?
Le pipeline di dati descrivono elementi di elaborazione dei dati collegati in serie, con l'uscita dati di un canale che funge da ingresso per quello successivo. Questi condotti iniziano alla fonte, dove i sistemi lo ingeriscono spostandolo o replicandolo e spostandolo verso una nuova destinazione.
I programmi per computer creano, modificano, trasformano o impacchettano i loro input in un altro prodotto di dati raffinato in quel nuovo posto. Quindi, un altro sistema informatico può prendere gli output dei dati elaborati, nella sua pipeline di dati, come input.
I dati continuano lungo ciascuna connessione e attraverso diversi processi e pipeline di pulizia fino a raggiungere uno stato consumabile. Quindi i dipendenti lo utilizzano sul lavoro o i dati vengono archiviati in un repository, come un file data warehouse.
Oltre a trasportare i dati, alcuni condotti puliscono, convertono e trasformano i dati mentre si muovono al loro interno, in modo simile a come il tratto digestivo di una persona scompone il cibo. Altri canali dati raccolgono e analizzano i dati sulla rete di condutture dell'intera organizzazione, fornendo un monitoraggio end-to-end della sua integrità, noto anche come osservabilità dei dati.
Perché le aziende utilizzano le pipeline di dati?
Le aziende ritengono che le buone pipeline di dati siano scalabili, flessibili, manutenibili e veloci. Le pipeline di dati automatizzate, create e gestite da algoritmi, possono apparire o ritirarsi quando necessario. Inoltre, le pipeline di dati possono reindirizzare i dati ad altri conduttori evitando un inceppamento dei dati e trasportando i dati rapidamente.
Le pipeline di dati contribuiscono a diversi aspetti critici Gestione dei dati esigenze in tutta l’azienda. Gli esempi includono:
- Integrazione dei dati: Connettori che impacchettano e trasportano dati da un sistema a un altro e includono l'elaborazione batch e basata su eventi dei flussi di dati
- Qualità dei dati/Governo dei dati: Condotti che definiscono e applicano le regole di qualità dei dati in base alle politiche aziendali e alle normative di settore per l'output dei dati
- Catalogazione dei dati/Gestione dei metadati: Pipeline che collegano ed eseguono la scansione dei metadati per tutti i tipi di database e forniscono il contesto dei dati aziendali
- Privacy dei dati: Canalizza quello rilevare i dati sensibili e proteggerli dalle violazioni
Tre sfide affrontate dalle organizzazioni
Le organizzazioni che sfruttano le pipeline di dati devono affrontare almeno tre sfide: complessità, aumento dei costi e sicurezza.
Complessità
Gli ingegneri devono collegare o modificare le pipeline di dati man mano che cambiano i requisiti dei dati aziendali, aumentando la complessità dell'utilizzo e della manutenzione dei canali. Inoltre, i dipendenti devono spostare i dati tra ambienti cloud ibridi interconnessi, compresi quelli locali disponibili al pubblico, come Microsoft Azure.
Gestirne molti diversi il cloud computing ubicazioni aggiungono frustrazioni con le pipeline di dati a causa delle sfide nel ridimensionare la rete di pipeline di dati. Quando gli ingegneri non riescono a progettare in modo competente, i canali di dati all'interno di un'organizzazione, il movimento dei dati rallenta o i dipendenti non riescono a ottenere i dati di cui hanno bisogno e devono fare ulteriori pulizia dei dati.
Gur Steif, presidente della divisione Digital Business Automation di BMC Software, spiega come le multinazionali lottano per incorporare un intricato sistema di condutture nelle loro applicazioni critiche. Di conseguenza, le aziende dovranno investire in piattaforme di orchestrazione del flusso di lavoro dei dati che mantengano il flusso dei dati e richiedano soluzioni sofisticate DataOps conoscenza.
Aumento dei costi
Con l’emergere di nuove tecnologie di dati, le aziende si trovano ad affrontare aumento dei costi modernizzare ciascuna delle loro pipeline di dati per adattarsi. Inoltre, le aziende devono investire di più nella manutenzione delle condutture e nel miglioramento delle conoscenze tecniche.
Un'altra fonte di costi ha origine da modifiche apportate dagli ingegneri a monte, più vicini alla fonte. A volte, questi sviluppatori non riescono a vedere direttamente le ramificazioni del loro codice, interrompendo almeno un processo di dati mentre i dati viaggiano lungo le pipeline.
Sicurezza dei dati
Gli ingegneri devono garantire la sicurezza dei dati per la conformità poiché i dati fluiscono lungo diversi canali di dati verso il pubblico. Ad esempio, i contabili aziendali potrebbero aver bisogno che i dati sensibili delle carte di credito vengano inviati attraverso i canali che non dovrebbero arrivare al personale del servizio clienti.
Pertanto, i rischi per la sicurezza aumentano se gli ingegneri non hanno un modo per visualizzare i dati mentre scorrono lungo la pipeline. Ponemon Research lo rileva 63% degli analisti di sicurezza individua nella mancanza di visibilità della rete e dell’infrastruttura un fattore di stress.
Migliori pratiche per l'utilizzo delle pipeline di dati
L'utilizzo delle pipeline di dati richiede il raggiungimento di un delicato equilibrio nel rendere i dati necessari accessibili agli utenti il più rapidamente possibile al minor costo di creazione e manutenzione. Certamente le imprese devono scegliere il meglio Architettura dei dati con pipeline di dati sicure, agili e robuste dal punto di vista operativo.
Inoltre, le aziende devono considerare quanto segue:
- Tecnologie di intelligenza artificiale e machine learning (ML): Le organizzazioni faranno affidamento sul machine learning per identificare i modelli di flusso dei dati, ottimizzando al meglio il flusso di dati verso tutte le parti dell'organizzazione. Inoltre, buoni servizi di ML renderanno il flusso di dati più efficiente facilitando l’autointegrazione, la riparazione e l’ottimizzazione delle pipeline di dati. Entro il 2025, i modelli di intelligenza artificiale sostituiranno fino a 60% di quelli esistenti, compresi quelli con pipeline di dati basate su dati tradizionali.
- Osservabilità dei dati: Osservabilità dei dati fornisce agli ingegneri una supervisione olistica dell'intera rete di pipeline di dati, inclusa la sua orchestrazione. Con l'aiuto dell'osservabilità dei dati, gli ingegneri sanno come funzionano le pipeline di dati e cosa modificare, correggere o eliminare.
- Gestione dei metadati: Per ottenere una buona osservabilità dei dati è necessario utilizzare al meglio i metadati, noti anche come dati che descrivono i dati. Di conseguenza, le aziende applicheranno a gestione dei metadati struttura per combinare i metadati attivi esistenti con quelli emergenti per ottenere l'automazione, le informazioni e il coinvolgimento desiderati attraverso le pipeline di dati.
Strumenti che aiutano a gestire le pipeline di dati
Le aziende dipendono dagli strumenti della pipeline di dati per creare, distribuire e mantenere le connessioni dati. Queste risorse spostano i dati da più risorse fonti alle destinazioni in modo più efficiente, supportando i processi end-to-end.
Sebbene alcune aziende pianifichino di sviluppare e mantenere strumenti interni specializzati, possono drenare le risorse delle organizzazioni per gestirli, soprattutto quando i dati circolano in ambienti multi-cloud. Di conseguenza, alcune aziende si rivolgeranno a fornitori di terze parti per risparmiare su questi costi.
Gli strumenti per la pipeline di dati di terze parti sono disponibili in due versioni. Alcuni generici raccolgono, elaborano e forniscono dati su diversi servizi cloud. Esempi inclusi:
- Colla AWS: Una piattaforma serverless Low Code, Extract, Transform, Load (ETL) dotata di un repository centrale di metadati e utilizza ML per deduplicare e pulire i dati
- Fabbrica dati di Azure: Un servizio per orchestrare lo spostamento dei dati e trasformare i dati tra Risorse di Azure, utilizzando l'osservabilità dei dati, metadatie machine learning
- Cloudera: Servizi dati che gestiscono i dati su diversi cloud aziendali, semplificano la replica e l'utilizzo dei dati salvo che – uno strumento di integrazione dei dati veloce, facile e sicuro
- Fusione dei dati di Google Cloud: Un prodotto di fascia alta e base dell'integrazione dei dati di Google inclusi osservabilità dei dati e integrazione dei metadati.
- IBM Information Server per IBM Cloud Pak for Data: Un server con funzionalità di integrazione, qualità e governance dei dati, che utilizza funzionalità ML
- IBM Infosphere Information Server: Un servizio gestito su qualsiasi cloud o autogestito per un'infrastruttura del cliente che utilizza il machine learning
- Informatica: Una piattaforma dati intelligente che include connettività nativa, acquisizione, qualità, governance, catalogazione tramite metadati a livello aziendale, privacy e gestione dei dati master su più cloud
- Talento: Un intero ecosistema di dati indipendente dal cloud e che incorpora il machine learning in tutta la struttura dei dati
Altri strumenti sono specializzati nella preparazione e nel confezionamento dei dati per la consegna:
- Fivetran: Una pipeline di dati a basso setup, senza configurazione e senza manutenzione, che preleva i dati da fonti operative e li consegna a un moderno cloud warehouse
- Miliardi: Una piattaforma ETL dinamica che apporta modifiche in tempo reale se i processi dei dati impiegano troppo tempo o falliscono
- Alooma: Uno strumento per la pipeline dei dati di Google per un controllo e una visibilità più semplici dei processi automatizzati dei dati
- Punto: Uno strumento ETL e data warehouse, abbinato a Talend, che sposta e gestisce dati da più fonti
A livello aziendale, le aziende utilizzeranno almeno una risorsa generica per la pipeline di dati che estende i servizi su più cloud e un'altra specializzata per gestire le complessità della preparazione dei dati.
Conclusione
Qualsiasi architettura di dati moderna richiede una rete di pipeline di dati per spostare i dati dallo stato grezzo a uno utilizzabile. Le pipeline di dati forniscono la flessibilità e la velocità necessarie per trasportare i dati al meglio per soddisfare le esigenze aziendali e di gestione dei dati.
Mentre le pipeline di dati mal eseguite comportano un aumento della complessità, dei costi e dei rischi per la sicurezza, l'implementazione di una buona architettura dei dati con buoni strumenti di dati massimizza il potenziale delle pipeline di dati all'interno dell'organizzazione.
As Chris Gladwin, co-fondatore e CEO di Ocient, osserva, le pipeline di dati diventeranno sempre più essenziali per acquisire al meglio un'ampia varietà di dati. Il futuro porta miglioramenti alla pipeline di dati con un’integrazione dei dati più sofisticata e più facile da gestire.
Immagine utilizzata su licenza di Shutterstock.com
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Chi siamo
- accessibile
- operanti in
- attivo
- adattare
- aggiunta
- Inoltre
- Aggiunge
- regolazioni
- contro
- agile
- AI
- Algoritmi
- Tutti
- Amazon
- Gli analisti
- analizzare
- ed
- e infrastruttura
- Un altro
- apparire
- applicazioni
- APPLICA
- architettura
- allegare
- udienze
- Automatizzata
- Automazione
- disponibile
- evitando
- AWS
- azzurro
- sfondo
- Equilibrio
- perché
- diventare
- MIGLIORE
- Meglio
- BMC
- Rottura
- pause
- Porta
- costruire
- costruito
- affari
- aziende
- chiamata
- non può
- funzionalità
- carta
- centrale
- ceo
- certamente
- sfide
- il cambiamento
- canale
- canali
- Scegli
- più vicino
- Cloud
- servizi cloud
- Co-fondatore
- codice
- raccogliere
- combinare
- Venire
- Aziende
- azienda
- complessità
- conformità
- computer
- Connettiti
- Collegamento
- veloce
- Connessioni
- Connettività
- conseguentemente
- Prendere in considerazione
- consumare
- continua
- contribuire
- di controllo
- convertire
- Aziende
- Costo
- Costi
- creare
- creato
- creazione
- credito
- carta di credito
- critico
- cliente
- Servizio clienti
- Clienti
- dati
- integrazione dei dati
- gestione dei dati
- Piattaforma dati
- Preparazione dei dati
- elaborazione dati
- qualità dei dati
- la sicurezza dei dati
- data warehouse
- banche dati
- VERSITÀ DEI DATI
- decisioni
- consegnare
- fornisce un monitoraggio
- consegna
- schierare
- destinazione
- sviluppatori
- in via di sviluppo
- diverso
- digitale
- direttamente
- giù
- dinamico
- ogni
- più facile
- ecosistema
- efficiente
- in modo efficiente
- emergenti del mondo
- dipendenti
- da un capo all'altro
- Fidanzamento
- Ingegneri
- garantire
- Impresa
- aziende
- Intero
- ambienti
- particolarmente
- essential
- Etere (ETH)
- esempio
- Esempi
- esistente
- estratto
- Faccia
- di fronte
- facilitando
- fabbrica
- FAIL
- FAST
- più veloce
- Trovare
- Fissare
- Flessibilità
- flessibile
- flusso
- fluente
- flussi
- i seguenti
- cibo
- Fondazione
- Contesto
- da
- frustrazioni
- function
- funzionamento
- Inoltre
- fusione
- futuro
- Guadagno
- Gartner
- ottenere
- ottenere
- Dare
- Go
- buono
- merce
- la governance
- Enti Pubblici
- Crescere
- maniglia
- Salute e benessere
- Aiuto
- Alta
- olistica
- Come
- HTML
- HTTPS
- IBRIDO
- nuvola ibrida
- IBM
- IBM Cloud
- identificare
- Implementazione
- miglioramenti
- in
- includere
- inclusi
- Compreso
- è aumentato
- crescente
- industria
- informazioni
- Infrastruttura
- ingresso
- intuizione
- intuizioni
- integrazione
- Intelligente
- interconnessione
- interno
- complessità
- Investire
- IT
- Lavoro
- mantenere
- Sapere
- conoscenze
- conosciuto
- Dipingere
- portare
- apprendimento
- Livello
- leveraging
- Licenza
- caricare
- posizioni
- Lunghi
- Basso
- macchina
- machine learning
- mantenere
- Mantenibile
- manutenzione
- make
- FA
- Fare
- gestire
- gestito
- gestione
- I gestori
- gestisce
- molti
- Mastercard
- max-width
- massimizza
- Soddisfare
- Metadati
- Microsoft
- Microsoft Azure
- ML
- modelli
- moderno
- modernizzare
- modificare
- monitoraggio
- Scopri di più
- più efficiente
- maggior parte
- cambiano
- movimento
- si muove
- in movimento
- multiplo
- nativo
- necessaria
- Bisogno
- di applicazione
- esigenze
- Rete
- New
- GENERAZIONE
- Note
- ONE
- operativo
- operativa
- orchestrazione
- organizzazione
- organizzazioni
- Altro
- svista
- panoramica
- pacchetto
- imballaggio
- accoppiato
- Ricambi
- modelli
- conduttura
- piano
- piattaforma
- Piattaforme
- Platone
- Platone Data Intelligence
- PlatoneDati
- Termini e Condizioni
- possibile
- potenziale
- pratiche
- preparazione
- Presidente
- Privacy
- processi
- i processi
- lavorazione
- Prodotto
- Programmi
- protegge
- fornire
- fornisce
- fornitura
- pubblicamente
- qualità
- rapidamente
- Crudo
- dati grezzi
- raggiunge
- tempo reale
- normativa
- sostituire
- replicazione
- Report
- deposito
- richiedere
- Requisiti
- richiede
- riparazioni
- risorsa
- Risorse
- colpevole
- rischi
- robusto
- norme
- Risparmi
- scalabile
- scala
- scansione
- sicuro
- problemi di
- rischi per la sicurezza
- delicata
- serverless
- servizio
- Servizi
- alcuni
- MUTEVOLE
- dovrebbero
- shutterstock
- simile
- rallenta
- So
- Software
- alcuni
- sofisticato
- Fonte
- fonti
- campate
- specializzarsi
- specializzata
- velocità
- spendere
- Spot
- STAFF
- inizia a
- Regione / Stato
- memorizzati
- Streaming
- snellire
- La struttura
- Supporto
- sistema
- SISTEMI DI TRATTAMENTO
- Fai
- trattativa
- Consulenza
- Tecnologie
- I
- Il futuro
- le informazioni
- L’ORIGINE
- loro
- di parti terze standard
- tre
- Attraverso
- per tutto
- a
- pure
- strumenti
- verso
- tradizionale
- Trasformare
- trasformazione
- trasporto
- trasporto
- viaggia
- TURNO
- Tipi di
- noi
- per
- capire
- UPS
- uso
- utenti
- APPREZZIAMO
- varietà
- vario
- fornitori
- Visualizza
- visibilità
- Magazzino
- Che
- OMS
- largo
- volere
- lavoratori
- flusso di lavoro
- zefiro