Tout comme les fournisseurs comptent sur le courrier américain ou UPS pour acheminer leurs marchandises jusqu'aux clients, les travailleurs comptent sur les pipelines de données pour fournir les informations dont ils ont besoin pour obtenir des informations commerciales et prendre des décisions. Ce réseau de canaux de données, fonctionnant en arrière-plan, distribue les données traitées à travers les systèmes informatiques, un cadre et une fonction essentiels pour tout data-driven Entreprise.
La valeur de la connexion des systèmes de données aux pipelines continue de croître, car les entreprises doivent consommer plus rapidement de nombreuses données en streaming, diffusées dans différents formats. Ainsi, les responsables qui comprennent les pipelines de données à un niveau élevé peuvent mieux déplacer les données brutes vers les informations affichées sur les tableaux de bord ou les rapports, de la manière la plus économique.
Que sont les pipelines de données ?
Les pipelines de données décrivent les éléments de traitement des données connectées en série, avec la sortie de données d'un canal servant d'entrée pour le suivant. Ces conduits commencent à la source, où les systèmes l'ingèrent en le déplaçant ou en le répliquant et en le déplaçant vers une nouvelle destination.
Les programmes informatiques créent, modifient, transforment ou regroupent leurs entrées en un plus produit de données raffiné à ce nouvel endroit. Ensuite, un autre système informatique peut prendre les sorties de données traitées, dans son pipeline de données, comme entrées.
Les données continuent le long de chaque connexion et à travers différents processus et pipelines de nettoyage jusqu'à ce qu'elles atteignent un état consommable. Ensuite, les employés l'utilisent au travail, ou ces données sont stockées dans un référentiel, comme un entrepôt de données.
En plus de transporter des données, certains conduits nettoient, convertissent et transforment les données au fur et à mesure qu'elles les traversent, de la même manière que le tube digestif d'une personne décompose les aliments. D'autres canaux de données collectent et analysent des données sur le réseau de pipelines à l'échelle de l'organisation, fournissant une surveillance de bout en bout de sa santé, également appelée observabilité des données.
Pourquoi les entreprises utilisent-elles des pipelines de données ?
Les entreprises trouvent de bons pipelines de données évolutifs, flexibles, maintenables et rapides. Des pipelines de données automatisés, créés et gérés par des algorithmes, peuvent apparaître ou se rétracter en cas de besoin. En outre, les pipelines de données peuvent rediriger les données vers d'autres conduits en évitant un bourrage de données et en transportant rapidement les données.
Les pipelines de données contribuent à différents Gestion des données besoins dans l'ensemble de l'entreprise. Les exemples incluent:
- Intégration de données: Connecteurs qui regroupent et transportent les données d'un système à un autre et incluent le traitement basé sur les événements et par lots des flux de données
- Qualité des données/Gouvernement des données : Conduits qui définissent et appliquent les règles de qualité des données conformément aux politiques de l'entreprise et aux réglementations du secteur pour la sortie des données
- Catalogage des données/Gestion des métadonnées : Des pipelines qui connectent et analysent les métadonnées pour tous les types de bases de données et donnent un contexte aux données d'entreprise
- Confidentialité des données: Des chaînes qui détecter les données sensibles et se protéger contre les violations
Trois défis auxquels sont confrontées les organisations
Les organisations qui exploitent les pipelines de données sont confrontées à au moins trois défis : complexité, augmentation des coûts et sécurité.
Complexité
Les ingénieurs doivent attacher ou modifier les pipelines de données à mesure que les besoins en données de l'entreprise changent, ce qui augmente la complexité de l'utilisation et de la maintenance des canaux. De plus, les employés doivent déplacer des données dans des environnements de cloud hybride interconnectés, y compris ceux sur site accessibles au public, comme Microsoft Azure.
Manipulation de nombreux différents le cloud computing les emplacements ajoutent des frustrations avec les pipelines de données en raison des défis liés à la mise à l'échelle du réseau de pipelines de données. Lorsque les ingénieurs ne parviennent pas à concevoir une architecture compétente, les canaux de données à travers une organisation, le mouvement des données ralentit ou les employés ne parviennent pas à obtenir les données dont ils ont besoin et doivent faire des efforts supplémentaires. nettoyage des données.
Gur Steif, président de l'automatisation des affaires numériques chez BMC Software, explique comment lutte des entreprises pour intégrer un système de pipeline complexe dans leurs applications critiques. Par conséquent, les entreprises devront investir dans des plates-formes d'orchestration de flux de données qui maintiennent le flux de données et nécessitent des Opérations de données connaissance.
Augmentation des coûts
À mesure que de nouvelles technologies de données émergent, les entreprises sont confrontées augmentation des coûts moderniser chacun de leurs pipelines de données pour s'adapter. De plus, les entreprises doivent dépenser davantage pour l'entretien des pipelines et l'amélioration des connaissances techniques.
Une autre source de coûts provient de Modifications effectuées par des ingénieurs en amont, au plus près de la source. Parfois, ces développeurs ne peuvent pas voir directement les ramifications de leur code, interrompant au moins un processus de données lorsque les données voyagent dans les pipelines.
Sécurité des données
Les ingénieurs doivent assurer la sécurité des données pour la conformité, car les données circulent sur différents canaux de données vers le public. Par exemple, les comptables de l'entreprise peuvent avoir besoin d'informations sensibles sur les cartes de crédit envoyées via les pipelines qui ne doivent pas être transmises au personnel du service client.
Ainsi, les risques de sécurité augmentent si les ingénieurs ne disposent pas d'un moyen de visualiser les données au fur et à mesure qu'elles circulent dans le pipeline. Ponemon Research note que 63% des analystes en sécurité dénoncent le manque de visibilité sur le réseau et l'infrastructure comme un facteur de stress.
Meilleures pratiques d'utilisation des pipelines de données
L'utilisation de pipelines de données nécessite de trouver un équilibre délicat pour rendre les données nécessaires accessibles aux utilisateurs le plus rapidement possible au moindre coût de création et de maintenance. Certes, les entreprises doivent choisir le meilleur Architecture de données avec des pipelines de données sécurisés, agiles et robustes sur le plan opérationnel.
De plus, les entreprises doivent tenir compte des éléments suivants :
- Technologies d'IA et d'apprentissage automatique (ML) : Les organisations s'appuieront sur ML pour identifier les modèles de flux de données, optimisant au mieux le flux de données vers toutes les parties de l'organisation. De plus, de bons services ML rendront le flux de données plus efficace en facilitant l'auto-intégration, la guérison et le réglage des pipelines de données. D'ici 2025, les modèles d'IA remplaceront jusqu'à 60% de ceux existants, y compris ceux avec des pipelines de données construits sur des données traditionnelles.
- Observabilité des données : Observabilité des données fournit aux ingénieurs une supervision globale de l'ensemble du réseau de pipeline de données, y compris son orchestration. Grâce à l'observabilité des données, les ingénieurs savent comment fonctionnent les pipelines de données et ce qu'il faut changer, corriger ou supprimer.
- Gestion des métadonnées : Pour obtenir une bonne observabilité des données, il faut tirer le meilleur parti des métadonnées, également appelées données décrivant les données. Par conséquent, les entreprises appliqueront une Gestion des métadonnées structure pour combiner les métadonnées actives existantes et émergentes afin d'obtenir l'automatisation, les informations et l'engagement souhaités dans les pipelines de données.
Outils qui aident à gérer les pipelines de données
Les entreprises dépendent des outils de pipeline de données pour créer, déployer et maintenir des connexions de données. Ces ressources déplacent les données de plusieurs des sources aux destinations plus efficacement, en prenant en charge les processus de bout en bout.
Alors que certaines entreprises envisagent de développer et de maintenir des outils internes spécialisés, elles peuvent drainer les ressources des organisations pour les gérer, en particulier lorsque les données circulent dans des environnements multi-cloud. Par conséquent, certaines entreprises se tourneront vers des fournisseurs tiers pour économiser ces coûts.
Les outils de pipeline de données tiers se déclinent en deux versions. Certains génériques collectent, traitent et fournissent des données sur plusieurs services cloud. Les exemples comprennent:
- AWS Glue : Une plate-forme sans serveur low code, extract, transform, load (ETL) qui dispose d'un référentiel central de métadonnées et utilise le ML pour dédupliquer et nettoyer les données
- Usine de données Azure : Un service pour orchestrer le mouvement des données et transformer les données entre Ressources Azure, en utilisant l'observabilité des données, métadonnéeset machine learning
- Nuagera : Services de données qui gèrent les données sur plusieurs clouds d'entreprise, rationalisent la réplication des données et utilisent sauf si – un outil d'intégration de données rapide, facile et sécurisé
- Fusion de données Google Cloud : Un produit haut de gamme et la base de l'intégration de données Google qui inclut observabilité des données et métadonnées d'intégration.
- IBM Information Server pour IBM Cloud Pak for Data : Un serveur avec des capacités d'intégration de données, de qualité et de gouvernance, utilisant des capacités de ML
- Serveur d'informations IBM Infosphere : Un service géré sur n'importe quel cloud ou autogéré pour une infrastructure client qui utilise ML
- Informatique : Une plate-forme de données intelligente qui inclut la connectivité native, l'ingestion, la qualité, la gouvernance, le catalogage via des métadonnées à l'échelle de l'entreprise, la confidentialité et la gestion des données de référence sur plusieurs clouds
- Talend : Un écosystème de données complet indépendant du cloud et intégrant le ML dans toute sa structure de données
D'autres outils sont spécialisés dans la préparation et le conditionnement des données pour la livraison :
- Fivetran : Un pipeline de données à faible configuration, sans configuration et sans maintenance qui extrait les données des sources opérationnelles et les transmet à un entrepôt cloud moderne
- Matillion : Une plate-forme ETL dynamique qui effectue des ajustements en temps réel si les processus de données prennent trop de temps ou échouent
- Aloma : Un outil de pipeline de données de Google pour un contrôle et une visibilité plus faciles des processus de données automatisés
- Point: Un outil ETL et d'entrepôt de données, associé à Talend, qui déplace et gère les données provenant de plusieurs sources
Au niveau de l'entreprise, les entreprises utiliseront au moins une ressource de pipeline de données générique qui couvre les services sur plusieurs clouds et une autre spécialisée pour gérer les subtilités de la préparation des données.
Conclusion
Toute architecture de données moderne nécessite un réseau de pipeline de données pour déplacer les données de leur état brut vers un état utilisable. Les pipelines de données offrent la flexibilité et la rapidité nécessaires pour transporter au mieux les données afin de répondre aux besoins de l'entreprise et de la gestion des données.
Alors que des pipelines de données mal exécutés entraînent une complexité, des coûts et des risques de sécurité accrus, la mise en œuvre d'une bonne architecture de données avec de bons outils de données maximise le potentiel des pipelines de données dans toute l'organisation.
As Chris Gladwin, co-fondateur et PDG d'Ocient, note, les pipelines de données deviendront plus essentiels pour bien ingérer une grande variété de données. L'avenir apportera des améliorations au pipeline de données avec une intégration de données plus sophistiquée et plus facile à gérer.
Image utilisée sous licence de Shutterstock.com
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Qui sommes-nous
- accessible
- à travers
- infection
- adapter
- ajout
- En outre
- Ajoute
- ajustements
- à opposer à
- agile
- AI
- algorithmes
- Tous
- Amazon
- Analystes
- il analyse
- ainsi que
- et infrastructure
- Une autre
- apparaître
- applications
- Appliquer
- architecture
- joindre
- public
- Automatisation
- Automation
- disponibles
- en évitant
- AWS
- Azure
- fond
- Balance
- car
- devenez
- LES MEILLEURS
- Améliorée
- BMC
- Rupture
- pauses
- Apporte
- construire
- construit
- la performance des entreprises
- entreprises
- Appelez-nous
- ne peut pas
- capacités
- carte
- central
- CEO
- Assurément
- globaux
- Change
- Développement
- Voies
- Selectionnez
- plus
- le cloud
- services de cloud computing
- Co-fondateur
- code
- recueillir
- combiner
- comment
- Sociétés
- Société
- complexité
- conformité
- ordinateur
- NOUS CONTACTER
- Connecter les
- connexion
- Connexions
- Connectivité
- par conséquent
- Considérer
- consommer
- continue
- contribuer
- des bactéries
- convertir
- Entreprises
- Prix
- Costs
- engendrent
- créée
- création
- crédit
- carte de crédit
- critique
- des clients
- Service à la clientèle
- Clients
- données
- intégration de données
- gestion des données
- Plateforme de données
- Préparation des données
- informatique
- qualité des données
- la sécurité des données
- entrepôt de données
- bases de données
- DATAVERSITÉ
- décisions
- livrer
- offre
- page de livraison.
- déployer
- destination
- mobiles
- développement
- différent
- numérique
- directement
- down
- Dynamic
- chacun
- plus facilement
- risque numérique
- efficace
- efficacement
- économies émergentes.
- employés
- end-to-end
- participation
- Les ingénieurs
- assurer
- Entreprise
- entreprises
- Tout
- environnements
- notamment
- essential
- Ether (ETH)
- exemple
- exemples
- existant
- extrait
- Visage
- face
- faciliter
- PERSONNEL
- FAIL
- RAPIDE
- plus rapide
- Trouvez
- Fixer
- Flexibilité
- flexible
- flux
- Écoulement
- Flux
- Abonnement
- nourriture
- Fondation
- Framework
- de
- Des frustrations
- fonction
- fonctionnement
- En outre
- la fusion
- avenir
- Gain
- Gartner
- obtenez
- obtention
- Donner
- Go
- Bien
- pour les
- gouvernance
- Gouvernement
- Croître
- manipuler
- Santé
- aider
- Haute
- holistique
- Comment
- HTML
- HTTPS
- Hybride
- nuage hybride
- IBM
- IBM Cloud
- identifier
- la mise en œuvre
- améliorations
- in
- comprendre
- inclut
- Y compris
- increased
- croissant
- industrie
- d'information
- Infrastructure
- contribution
- perspicacité
- idées.
- l'intégration
- Intelligent
- interconnexion
- interne
- subtilités
- Investir
- IT
- Emploi
- XNUMX éléments à
- Savoir
- spécialisées
- connu
- Peindre
- conduire
- apprentissage
- Niveau
- en tirant parti
- Licence
- charge
- emplacements
- Location
- Faible
- click
- machine learning
- maintenir
- Maintenable
- facile
- faire
- FAIT DU
- Fabrication
- gérer
- gérés
- gestion
- Gestionnaires
- gère
- de nombreuses
- maître
- largeur maximale
- optimise
- Découvrez
- Métadonnées
- Microsoft
- Microsoft Azure
- ML
- numériques jumeaux (digital twin models)
- Villas Modernes
- moderniser
- modifier
- Stack monitoring
- PLUS
- plus efficace
- (en fait, presque toutes)
- Bougez
- mouvement
- se déplace
- en mouvement
- plusieurs
- indigène
- nécessaire
- Besoin
- nécessaire
- Besoins
- réseau et
- Nouveauté
- next
- Notes
- ONE
- d'exploitation
- opérationnel
- orchestration
- organisation
- organisations
- Autre
- Surveillance
- vue d'ensemble
- paquet
- l'emballage
- apparié
- les pièces
- motifs
- pipeline
- plan
- plateforme
- Plateformes
- Platon
- Intelligence des données Platon
- PlatonDonnées
- politiques
- possible
- défaillances
- pratiques
- en train de préparer
- président
- la confidentialité
- processus
- les process
- traitement
- Produit
- Programmes
- protéger
- fournir
- fournit
- aportando
- publiquement
- qualité
- vite.
- raw
- les données brutes
- atteint
- en temps réel
- règlements
- remplacer
- réplication
- Rapports
- dépôt
- exigent
- Exigences
- a besoin
- un article
- ressource
- Ressources
- résultat
- risques
- robuste
- Épargnez
- évolutive
- mise à l'échelle
- balayage
- sécurisé
- sécurité
- risques de sécurité
- sensible
- Sans serveur
- service
- Services
- plusieurs
- DÉPLACEMENT
- devrait
- shutterstock
- similaires
- ralentit
- So
- Logiciels
- quelques
- sophistiqué
- Identifier
- Sources
- travées
- spécialiser
- spécialisé
- vitesse
- passer
- Spot
- L'équipe
- Commencer
- Région
- stockée
- streaming
- rationaliser
- structure
- Appuyer
- combustion propre
- Système
- Prenez
- Talks
- Technique
- Les technologies
- La
- El futuro
- les informations
- La Source
- leur
- des tiers.
- trois
- Avec
- tout au long de
- à
- trop
- outil
- les outils
- vers
- traditionnel
- Transformer
- transformer
- transport
- transportant
- voyage
- TOUR
- types
- nous
- sous
- comprendre
- UPS
- utilisé
- utilisateurs
- Plus-value
- variété
- divers
- fournisseurs
- Voir
- définition
- Entrepots
- Quoi
- WHO
- large
- sera
- ouvriers
- workflow
- zéphyrnet