So wie Lieferanten auf US-Post oder UPS angewiesen sind, um ihre Waren zu Kunden zu bringen, verlassen sich Arbeitnehmer auf Datenpipelines, um die Informationen zu liefern, die sie benötigen, um Geschäftseinblicke zu gewinnen und Entscheidungen zu treffen. Dieses Netzwerk von Datenkanälen, das im Hintergrund arbeitet, verteilt verarbeitete Daten über Computersysteme, ein wesentlicher Rahmen und eine Funktion für jeden datengesteuerte Geschäft.
Der Wert der Verbindung von Datensystemen mit Pipelines wächst weiter, da Unternehmen viele Streaming-Daten schneller verbrauchen müssen, die in verschiedenen Formaten bereitgestellt werden. Daher können Manager, die Datenpipelines auf hohem Niveau verstehen, Rohdaten besser und am wirtschaftlichsten zu den Informationen verschieben, die auf Dashboards oder Berichten angezeigt werden.
Was sind Datenpipelines?
Datenpipelines beschreiben Datenverarbeitungselemente in Reihe geschaltet, wobei der Datenausgang eines Kanals als Eingang für den nächsten fungiert. Diese Conduits beginnen an der Quelle, wo Systeme sie aufnehmen, indem sie sie verschieben oder replizieren und an ein neues Ziel verschieben.
Computerprogramme erstellen, modifizieren, transformieren oder verpacken ihre Eingaben in ein Mehr Verfeinertes Datenprodukt an dieser neuen Stelle. Dann kann ein anderes Computersystem die verarbeiteten Datenausgaben in seiner Datenpipeline als Eingaben nehmen.
Die Daten werden entlang jeder Verbindung und durch verschiedene Bereinigungsprozesse und Pipelines fortgesetzt, bis sie einen konsumierbaren Zustand erreichen. Dann verwenden die Mitarbeiter es bei der Arbeit, oder diese Daten werden in einem Repository gespeichert, wie a Data Warehouse.
Zusätzlich zum Transportieren von Daten reinigen, konvertieren und transformieren einige Kanäle die Daten, während sie durch sie hindurchgehen, ähnlich wie der Verdauungstrakt einer Person Nahrung zersetzt. Andere Datenkanäle sammeln und analysieren Daten über das organisationsweite Pipeline-Netzwerk und bieten eine End-to-End-Überwachung seines Zustands, auch bekannt als Datenbeobachtbarkeit.
Warum verwenden Unternehmen Datenpipelines?
Unternehmen finden gute Datenpipelines skalierbar, flexibel, wartbar und schnell. Automatisierte Datenpipelines, die von Algorithmen erstellt und verwaltet werden, können bei Bedarf angezeigt oder zurückgezogen werden. Außerdem können Datenpipelines Daten zu anderen Conduits umleiten, um einen Datenstau zu vermeiden und Daten schnell zu transportieren.
Datenpipelines tragen zu unterschiedlichen kritischen Faktoren bei Datenmanagement Anforderungen im gesamten Unternehmen. Beispiele umfassen:
- Datenintegration: Konnektoren, die Daten verpacken und von einem System zum anderen transportieren und die ereignisbasierte und Batch-Verarbeitung von Datenströmen beinhalten
- Datenqualität/Data Government: Conduits, die Datenqualitätsregeln gemäß Unternehmensrichtlinien und Branchenvorschriften für die Datenausgabe definieren und durchsetzen
- Datenkatalogisierung/Metadatenverwaltung: Pipelines, die Metadaten für alle Arten von Datenbanken verbinden und scannen und Unternehmensdaten Kontext geben
- Datenprivatsphäre: Kanäle das Erkennen Sie sensible Daten und schützen Sie sich vor Datenschutzverletzungen
Drei Herausforderungen für Unternehmen
Organisationen, die Datenpipelines nutzen, stehen vor mindestens drei Herausforderungen: Komplexität, erhöhte Kosten und Sicherheit.
Komplexität
Ingenieure müssen Datenpipelines anhängen oder ändern, wenn sich die Geschäftsdatenanforderungen ändern, was die Komplexität der Nutzung und Wartung der Kanäle erhöht. Darüber hinaus müssen Mitarbeiter Daten über miteinander verbundene Hybrid-Cloud-Umgebungen hinweg verschieben, einschließlich öffentlich zugänglicher On-Premises-Umgebungen wie Microsoft Azure.
Umgang mit vielen verschiedenen Cloud Computing Standorte sorgen für zusätzliche Frustrationen bei Datenpipelines aufgrund von Herausforderungen bei der Skalierung des Datenpipeline-Netzwerks. Wenn Ingenieure bei der Architektur scheitern, die Datenkanäle in einer Organisation verlangsamt werden, die Datenbewegung verlangsamt wird oder Mitarbeiter nicht die benötigten Daten erhalten und zusätzliche Maßnahmen ergreifen müssen Datenbereinigung.
Gur Steif, President of Digital Business Automation bei BMC Software, spricht darüber, wie Konzerne kämpfen um ein komplexes Pipeline-System in ihre kritischen Anwendungen einzubetten. Folglich müssen Unternehmen in Daten-Workflow-Orchestrierungsplattformen investieren, die den Datenfluss aufrechterhalten und ausgeklügelte Anforderungen erfüllen Datenoperationen Wissen.
Erhöhte Kosten
Mit dem Aufkommen neuerer Datentechnologien sehen sich Unternehmen konfrontiert erhöhte Kosten jede ihrer Datenpipelines zu modernisieren, um sich anzupassen. Darüber hinaus müssen Unternehmen mehr für die Wartung der Pipelines und die Weiterentwicklung des technischen Wissens ausgeben.
Eine weitere Kostenquelle entsteht aus Änderungen vorgenommen von Ingenieuren stromaufwärts, näher an der Quelle. Manchmal können diese Entwickler die Auswirkungen ihres Codes nicht direkt erkennen, wodurch mindestens ein Datenprozess unterbrochen wird, während die Daten die Pipelines entlanglaufen.
Datensicherheit
Ingenieure müssen die Datensicherheit für die Einhaltung von Vorschriften gewährleisten, da Daten über verschiedene Datenkanäle zu den Zielgruppen fließen. Beispielsweise benötigen Unternehmensbuchhalter möglicherweise vertrauliche Kreditkarteninformationen, die über die Pipelines gesendet werden und nicht an Kundendienstmitarbeiter weitergegeben werden sollten.
Die Sicherheitsrisiken wachsen also, wenn Ingenieure keine Möglichkeit haben, die Daten anzuzeigen, während sie die Pipeline hinunterfließen. Ponemon Research stellt das fest 63% der Sicherheitsanalysten nennen die mangelnde Transparenz des Netzwerks und der Infrastruktur als Stressfaktor.
Best Practices für die Verwendung von Datenpipelines
Die Verwendung von Datenpipelines erfordert ein empfindliches Gleichgewicht, um den Benutzern die erforderlichen Daten so schnell wie möglich zu den niedrigsten Kosten für Erstellung und Wartung zugänglich zu machen. Sicherlich müssen Unternehmen die Besten auswählen Datenarchitektur mit sicheren, agilen und betrieblich robusten Datenpipelines.
Darüber hinaus müssen Unternehmen Folgendes berücksichtigen:
- Technologien für KI und maschinelles Lernen (ML): Organisationen werden sich auf ML verlassen, um Datenflussmuster zu identifizieren und den Datenfluss zu allen Teilen der Organisation bestmöglich zu optimieren. Darüber hinaus machen gute ML-Dienste den Datenfluss effizienter, indem sie die Selbstintegration, Heilung und Optimierung von Datenpipelines erleichtern. Bis 2025 werden KI-Modelle bis zu ersetzen 60% bestehender, einschließlich solcher mit Datenpipelines, die auf traditionellen Daten basieren.
- Datenbeobachtbarkeit: Datenbeobachtbarkeit bietet Ingenieuren einen ganzheitlichen Überblick über das gesamte Datenpipeline-Netzwerk, einschließlich seiner Orchestrierung. Mithilfe der Datenbeobachtbarkeit wissen Ingenieure, wie die Datenpipelines funktionieren und was geändert, repariert oder bereinigt werden muss.
- Metadatenverwaltung: Um eine gute Datenbeobachtbarkeit zu erreichen, müssen Metadaten, auch bekannt als Daten, die Daten beschreiben, optimal genutzt werden. Folglich werden Unternehmen a Metadatenmanagement Struktur, um vorhandene mit neu entstehenden aktiven Metadaten zu kombinieren, um die gewünschte Automatisierung, Einsicht und Interaktion über Datenpipelines hinweg zu erhalten.
Tools, die bei der Verwaltung von Datenpipelines helfen
Unternehmen sind auf Datenpipeline-Tools angewiesen, um Datenverbindungen aufzubauen, bereitzustellen und zu warten. Diese Ressourcen verschieben Daten von mehreren Quellen zu Zielen effizienter und unterstützt End-to-End-Prozesse.
Während einige Unternehmen die Entwicklung und Wartung spezialisierter interner Tools planen, können sie die Ressourcen der Organisation für deren Verwaltung aufbrauchen, insbesondere wenn Daten in Multi-Cloud-Umgebungen zirkulieren. Infolgedessen wenden sich einige Unternehmen an Drittanbieter, um diese Kosten zu sparen.
Datenpipeline-Tools von Drittanbietern gibt es in zwei Varianten. Einige generische sammeln, verarbeiten und liefern Daten über mehrere Cloud-Dienste hinweg. Beispiele beinhalten:
- AWS-Kleber: Eine serverlose ETL-Plattform (Low Code, Extract, Transform, Load) mit einem zentralen Metadaten-Repository und verwendet ML um Daten zu deduplizieren und zu bereinigen
- Azure Data Factory: Ein Dienst zum Orchestrieren von Datenbewegungen und zum Transformieren von Daten zwischen Azure-Ressourcen, mit Datenbeobachtbarkeit, Metadaten und Maschinelles Lernen
- Cloudera: Datendienste, die Daten über mehrere Unternehmens-Clouds hinweg verarbeiten, die Datenreplikation und -nutzung optimieren es sei denn – ein schnelles, einfaches und sicheres Datenintegrationstool
- Google Cloud-Datenfusion: Ein High-End-Produkt und Grundlage der Google Data Integration, die Dazu gehören Datenbeobachtbarkeit und Integration von Metadaten.
- IBM Information Server für IBM Cloud Pak for Data: Ein Server mit Datenintegrations-, Qualitäts- und Governance-Funktionen unter Verwendung von ML-Funktionen
- IBM Infosphere-Informationsserver: Ein verwalteter Dienst in einer beliebigen Cloud oder selbstverwaltet für eine Kundeninfrastruktur, die ML verwendet
- Informatik: Eine intelligente Datenplattform, die native Konnektivität, Aufnahme, Qualität, Governance, Katalogisierung durch unternehmensweite Metadaten, Datenschutz und Stammdatenverwaltung über mehrere Clouds hinweg umfasst
- Talende: Ein vollständiges Datenökosystem, das Cloud-unabhängig ist und ML in seine gesamte Datenstruktur einbettet
Andere Tools sind darauf spezialisiert, Daten für die Lieferung vorzubereiten und zu verpacken:
- Fivetran: Eine Datenpipeline mit geringem Einrichtungsaufwand, ohne Konfiguration und ohne Wartung, die Daten aus betrieblichen Quellen abruft und an ein modernes Cloud-Warehouse liefert
- Mamillion: Eine dynamische ETL-Plattform, die Anpassungen in Echtzeit vornimmt, wenn Datenprozesse zu lange dauern oder fehlschlagen
- Alooma: Ein Datenpipeline-Tool von Google zur einfacheren Kontrolle und Sichtbarkeit automatisierter Datenprozesse
- Stich: Ein ETL- und Data-Warehouse-Tool, gepaart mit Talend, das Daten aus mehreren Quellen verschiebt und verwaltet
Auf Unternehmensebene verwenden Unternehmen mindestens eine generische Datenpipeline-Ressource, die Dienste über mehrere Clouds hinweg umfasst, und eine weitere spezialisierte Ressource, um die Feinheiten der Datenvorbereitung zu bewältigen.
Zusammenfassung
Jede moderne Datenarchitektur erfordert ein Datenpipeline-Netzwerk, um Daten von ihrem Rohzustand in einen verwendbaren zu verschieben. Datenpipelines bieten die Flexibilität und Geschwindigkeit, um Daten optimal zu transportieren, um Geschäfts- und Datenverwaltungsanforderungen zu erfüllen.
Während schlecht ausgeführte Datenpipelines zu erhöhter Komplexität, Kosten und Sicherheitsrisiken führen, maximiert die Implementierung einer guten Datenarchitektur mit guten Datentools das Potenzial der Datenpipelines im gesamten Unternehmen.
As Chris Gladwin, Mitbegründer und CEO von Ocient, stellt fest, dass Datenpipelines immer wichtiger werden, um eine Vielzahl von Daten gut aufzunehmen. Die Zukunft bringt Verbesserungen der Datenpipeline mit einer ausgefeilteren Datenintegration, die einfacher zu verwalten ist.
Bild verwendet unter Lizenz von Shutterstock.com
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Über uns
- zugänglich
- über
- aktiv
- automatisch
- Zusatz
- zusätzlich
- Fügt
- Anpassungen
- gegen
- agil
- AI
- Algorithmen
- Alle
- Amazon
- Business Analysten
- analysieren
- und
- und Infrastruktur
- Ein anderer
- erscheinen
- Anwendungen
- Jetzt bewerben
- Architektur
- anhängen
- Publikum
- Automatisiert
- Automation
- verfügbar
- Vermeidung von
- AWS
- Azure
- Hintergrund
- Balance
- weil
- werden
- BESTE
- Besser
- BMC
- Bruch
- geht kaputt
- Brings
- bauen
- erbaut
- Geschäft
- Unternehmen
- rufen Sie uns an!
- kann keine
- Fähigkeiten
- Karte
- Hauptgeschäftsstelle
- CEO
- sicherlich
- Herausforderungen
- Übernehmen
- Kanal
- Kanäle
- Auswählen
- näher
- Cloud
- Cloud-Services
- Co-Gründer
- Code
- sammeln
- kombinieren
- wie die
- Unternehmen
- Unternehmen
- Komplexität
- Compliance
- Computer
- Vernetz Dich
- Sich zusammenschliessen
- Verbindung
- Verbindungen
- Konnektivität
- Folglich
- Geht davon
- verbrauchen
- weiter
- beitragen
- Smartgeräte App
- verkaufen
- Unternehmen
- Kosten
- Kosten
- erstellen
- erstellt
- Schaffung
- Kredit
- Kreditkarte
- kritischem
- Kunde
- Kundenservice
- Kunden
- technische Daten
- Datenintegration
- Datenmanagement
- Datenplattform
- Datenaufbereitung
- Datenverarbeitung
- Datenqualität
- Datensicherheit
- Data Warehouse
- Datenbanken
- DATENVERSITÄT
- Entscheidungen
- Übergeben
- liefert
- Lieferanten
- einsetzen
- Reiseziel
- Entwickler
- Entwicklung
- anders
- digital
- Direkt
- nach unten
- dynamisch
- jeder
- einfacher
- Ökosystem
- effizient
- effizient
- aufstrebenden
- Mitarbeiter
- End-to-End
- Engagement
- Ingenieure
- gewährleisten
- Unternehmen
- Unternehmen
- Ganz
- Umgebungen
- insbesondere
- essential
- Äther (ETH)
- Beispiel
- Beispiele
- vorhandenen
- Extrakt
- Gesicht
- konfrontiert
- erleichtern
- Fabrik
- FAIL
- FAST
- beschleunigt
- Finden Sie
- Fixieren
- Flexibilität
- flexibel
- Fluss
- Fließen
- Fließt
- Folgende
- Nahrung,
- Foundation
- Unser Ansatz
- für
- Frustrationen
- Funktion
- funktioniert
- Außerdem
- Verschmelzung
- Zukunft
- Gewinnen
- Gartner
- bekommen
- bekommen
- ABSICHT
- Go
- gut
- Waren
- Governance
- der Regierung
- Wachsen Sie über sich hinaus
- Griff
- Gesundheit
- Hilfe
- High
- ganzheitliche
- Ultraschall
- HTML
- HTTPS
- Hybrid
- Hybride wolke
- IBM
- IBM Cloud
- identifizieren
- Umsetzung
- Verbesserungen
- in
- das
- Dazu gehören
- Einschließlich
- hat
- zunehmend
- Energiegewinnung
- Information
- Infrastruktur
- Eingangsmöglichkeiten:
- Einblick
- Einblicke
- Integration
- Intelligent
- Verkettung
- intern
- Feinheiten
- Investieren
- IT
- Job
- Behalten
- Wissen
- Wissen
- bekannt
- Mangel
- führen
- lernen
- Niveau
- Nutzung
- Lizenz
- Belastung
- Standorte
- Lang
- Sneaker
- Maschine
- Maschinelles Lernen
- halten
- Wartbar
- Wartung
- um
- MACHT
- Making
- verwalten
- verwaltet
- Management
- Manager
- Managed
- viele
- Master
- max-width
- maximiert
- Triff
- Metadaten
- Microsoft
- Microsoft Azure
- ML
- für
- modern
- modernisieren
- ändern
- Überwachung
- mehr
- effizienter
- vor allem warme
- schlauer bewegen
- Bewegung
- bewegt sich
- ziehen um
- mehrere
- nativen
- notwendig,
- Need
- erforderlich
- Bedürfnisse
- Netzwerk
- Neu
- weiter
- Notizen
- EINEM
- die
- Betriebs-
- Orchesterbearbeitung
- Organisation
- Organisationen
- Andere
- Aufsicht
- Überblick
- Paket
- Verpackung
- gepaart
- Teile
- Muster
- Pipeline
- Plan
- Plattform
- Plattformen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Politik durchzulesen
- möglich
- Potenzial
- Praktiken
- Vorbereitung
- Präsident
- Datenschutz
- Prozessdefinierung
- anpassen
- Verarbeitung
- Produkt
- Programme
- Risiken zu minimieren
- die
- bietet
- Bereitstellung
- öffentlich
- Qualität
- schnell
- Roh
- Rohdaten
- Erreicht
- Echtzeit
- Vorschriften
- ersetzen
- Replikation
- Meldungen
- Quelle
- erfordern
- Voraussetzungen:
- erfordert
- Forschungsprojekte
- Ressourcen
- Downloads
- Folge
- Risiken
- robust
- Ohne eine erfahrene Medienplanung zur Festlegung von Regeln und Strategien beschleunigt der programmatische Medieneinkauf einfach die Rate der verschwenderischen Ausgaben.
- Speichern
- skalierbaren
- Skalierung
- Scan
- Verbindung
- Sicherheitdienst
- Sicherheitsrisiken
- empfindlich
- Serverlos
- Leistungen
- mehrere
- VERSCHIEBUNG
- sollte
- shutterstock
- ähnlich
- verlangsamt
- So
- Software
- einige
- anspruchsvoll
- Quelle
- Quellen
- überspannt
- spezialisieren
- spezialisiert
- Geschwindigkeit
- verbringen
- Spot
- Unser Team
- Anfang
- Bundesstaat
- gelagert
- Streaming
- rationalisieren
- Struktur
- Unterstützung
- System
- Systeme und Techniken
- Nehmen
- Gespräche
- Technische
- Technologies
- Das
- Die Zukunft
- die Informationen
- Die Quelle
- ihr
- basierte Online-to-Offline-Werbezuordnungen von anderen gab.
- nach drei
- Durch
- während
- zu
- auch
- Werkzeug
- Werkzeuge
- gegenüber
- traditionell
- Transformieren
- Transformieren
- Transportwesen
- transportieren
- Reisen
- WENDE
- Typen
- uns
- für
- verstehen
- UPS
- -
- Nutzer
- Wert
- Vielfalt
- verschiedene
- Anbieter
- Anzeigen
- Sichtbarkeit
- Warehouse
- Was
- WHO
- breit
- werden wir
- Arbeiter
- Arbeitsablauf.
- Zephyrnet