Gegevensafstamming kan worden omschreven als een historische kaart van de reis van gegevens binnen een organisatie. Use cases geven in het algemeen een voorbeeld van hoe services of technieken kunnen worden gebruikt, en data lineage use cases zijn situaties waarin een vorm van data lineage kan worden gebruikt.
Tools voor gegevensafstamming maken het volgen van de afstamming van de gegevens veel eenvoudiger. (Proberen om data lineage handmatig uit te voeren is vervelend en tijdrovend.)
Het maken van data lineage-kaarten vereist het vastleggen van hoe de gegevens zijn verwerkt, getransformeerd en verzonden, en wordt vaak gebruikt om ervoor te zorgen dat beslissingen gebaseerd zijn op nauwkeurige gegevens. Gegevensafstamming is voor veel moderne bedrijven een belangrijk onderdeel geworden van intelligente besluitvorming. Het volgen van de gegevensstroom van bron tot bestemming kan echter complex zijn.
Vertrouwen in de gegevens is gebaseerd op inzicht in waar ze vandaan komen en hoe ze zijn getransformeerd en verwerkt. Met data lineage kunnen organisaties zien hoe datasets zijn gebruikt en welke wijzigingen zijn aangebracht. Het stelt bedrijven in staat om eventuele fouten bij de bron te begrijpen en te corrigeren. Een data lineage-programma ondersteunt verbeterde gegevenskwaliteit.
Om goede beslissingen te nemen op basis van data, moet je de data kunnen vertrouwen.
Een goed begrip van verschillende gebruiksscenario's, technieken en tools voor datalijnen kan heel nuttig zijn voordat u een aannemer inhuurt of software aanschaft. Het selecteren van de verkeerde data lineage-software kan resulteren in verspilde tijd en geld, en de uiteindelijke aanschaf van meer geschikte software. (Aan het einde van dit artikel vindt u een link naar open-source tools voor gegevensafstamming.)
Data Lineage-technieken en -processen
Gegevensafstamming omvat een verscheidenheid aan tools en processen. Moderne bedrijven vertrouwen steeds meer op realtime inzichten om hun activiteiten, zakelijke transacties en klantrelaties te verbeteren, maar die inzichten zijn afhankelijk van het begrijpen van de gegevens. Er zijn verschillende manieren waarop managers en techneuten data lineage-tools kunnen gebruiken om workflows te verbeteren.
- Automatisering: Het vastleggen van gegevensafstamming is een geautomatiseerd proces. Het handmatig volgen en vastleggen van de afstamming van de gegevens is eenvoudigweg niet realistisch volgens de huidige efficiëntienormen. Automatisering maakt naleving van regelgeving (AVG, CCPA, enz.) ook veel gemakkelijker door gegevens te markeren als persoonlijk identificeerbare informatie (PII), waardoor ze als vertrouwelijk of privé kunnen worden aangemerkt.
- Gegevens taggen: Gegevens die zijn getransformeerd of verplaatst, worden getagd. De tags worden vervolgens van begin tot eind gevolgd, wat een afstammingsrepresentatie oplevert. Dit tag tracking-procesvereist echter een “consistente transformatietool” dat alle gegevensbewegingen regelt. (De consistentie van deze tool is belangrijk - koop de beste tool die bij uw systeem past.) Er zijn enkele tools voor tagbeheer te vinden hier.
- ontleden: Dit proces houdt de gegevens bij en legt wijzigingen vast terwijl de gegevens worden verwerkt, gewijzigd en verplaatst. Deze vorm van data registreert veranderingen in verschillende systemen. Echter, parsing vereist een goed begrip van de tools en programmeertalen die tijdens de levenscyclus van de gegevens worden gebruikt. Deze versie van gegevensafstamming is sterk afhankelijk van het lezen van de logica (het proces van het analyseren van een reeks symbolen) die wordt gebruikt bij het verwerken van gegevens.
- Beoordelingen van metagegevensbronnen: Hulpmiddelen voor gegevensafstamming gebruik metagegevens om een visuele representatie van de gegevensstroom te creëren, waarmee gebruikers kunnen zien hoe gegevens worden getransformeerd en gebruikt in de hele organisatie. Er zijn hulpmiddelen en toepassingen voor gegevensafstamming beschikbaar die metagegevensbronnen kunnen verifiëren en kunnen worden gebruikt om de redenen voor bugs en fouten in de gegevenssets te identificeren.
- Op patronen gebaseerde afstamming: In plaats van met code te werken, registreert deze vorm van datalijn patronen. Op patronen gebaseerde afstamming is afhankelijk van metadata om de afstammingspatronen te ontwikkelen. Het belangrijkste voordeel van deze techniek is dat er geen programmeertalen nodig zijn om gegevens te verwerken. De gegevens worden gecontroleerd, niet de taalalgoritmen.
Gebruik Cases voor Data Lineage
Hoewel data lineage essentieel is voor de ontwikkeling van hoogwaardige data, zijn er verschillende use cases en methoden voor data lineage. Data lineage use case-modellen bieden elk verschillende services.
- Analyse van gegevensproblemen: De bron van dataproblemen of -problemen kan snel en efficiënt worden opgespoord met behulp van data lineage records. Het kan gegevensproblemen lokaliseren door na te gaan hoe de gegevens door de systemen van de organisatie stromen. Dit proces kan met name handig zijn in gecompliceerde gegevensomgevingen waarbij gegevens worden gebruikt die zijn verzameld uit verschillende systemen. (Het kan ook gegevensveranderingen in de loop van de tijd registreren, afwijkingen of patronen detecteren die op een probleem kunnen duiden.)
- Gegevens opschonen: Data lineage kan ook worden gebruikt om een datasysteem op te schonen door data te archiveren of te verwijderen omdat het oud of irrelevant is. (Dit kan de algehele prestaties van een gegevenssysteem verbeteren door de hoeveelheid gegevens die wordt opgeslagen te verminderen.)
- Nakoming: Gegevensafstamming kan worden gebruikt om nalevingsproblemen te waarborgen, risicobeheer te verbeteren en ervoor te zorgen dat gegevens worden verwerkt en opgeslagen met behulp van richtlijnen voor gegevensbeheer.
- Datamodellering: Organisaties kunnen gegevensafstamming gebruiken voor gegevensmodelleringsdoeleinden. Het kan de informatie leveren die nodig is om visuele weergaven van verschillende gegevenscomponenten en hun verbindingen te presenteren. De verbindingen tussen de gegevenscomponenten kunnen in het model worden weergegeven om de afhankelijkheden in het hele gegevensecosysteem te tonen.
- Data kwaliteit: Gegevens worden voortdurend gewijzigd. Een data lineage-systeem biedt gedetailleerde informatie over de levenscyclus en locatie van gegevensbronnen. Het volgt de gegevens van de bron en stelt bedrijven in staat om de transformaties en betrouwbaarheid ervan te onderzoeken.
- Fouten vinden: Gegevensafstamming kan worden gebruikt om onjuiste aannames over de gegevens te identificeren, de fout te lokaliseren en deze te laten corrigeren.
- Impactanalyse: Gegevensafstamming kan worden gebruikt om gedetailleerde effectbeoordelingen te maken. De stroomopwaartse en stroomafwaartse effecten veroorzaakt door specifieke wijzigingen kunnen worden gedetecteerd door het gebruik van datalijn.
- Data migratie: Wanneer gegevens worden verplaatst naar een nieuw of ander opslagsysteem, gebruiken organisaties een gegevensmigratieproces om de locaties en levenscycli van de gegevens uit te drukken. Omdat gegevensafstamming laat zien hoe de gegevens door een organisatie stromen, kan het worden gebruikt om te helpen bij de planningsfase van gegevensmigraties en -upgrades.
- Efficiëntere DataOps: Een beter begrip van de datageschiedenis helpt databewerkingen te stroomlijnen en fouten te voorkomen.
Real-world data lineage use-cases
Sommige grotere bedrijven, zoals Airbnb, Netflix, UBS, Slack en Postman, maken nu gebruik van data-lineage en verhogen daarbij hun winst. Deze bedrijven deden hun onderzoek en besloten dat het de moeite waard was om data lineage software te installeren. Ze hadden betrouwbare gegevens nodig voor een goede besluitvorming. Gegevensafstamming biedt de zichtbaarheid die nodig is om effectief om te gaan met gegevensmigraties, systeemupdates en fouten, waardoor de gegevensintegriteit gedurende de levenscyclus van de gegevens wordt gegarandeerd.
De datalineage-industrie is vrij nieuw en daardoor nog steeds een beetje aan de dure kant. Een aantal grote bedrijven heeft ingehuurde aannemers om datalijnsystemen te ontwikkelen en te installeren.
Een voorbeeld uit de praktijk van een use-case voor gegevensafstamming is British Airways en haar reactie op een datalek. In september 2018 werd British Airways getroffen door een datalek waarbij 380,000 klanten betrokken waren met betrekking tot hun creditcard en persoonlijke gegevens. Met behulp van data lineage konden ze de inbreuk traceren naar een kwaadaardig script op hun website. Door gegevens terug te voeren naar het script, identificeerden en repareerden ze het probleem snel.
Een andere real-world data lineage use case is Air France, dat problemen had met gegevensverwerking en gegevenssegregatie. Hun bedrijf was zo gegroeid dat ze meer dan 2.5 miljoen nieuwe bezoekers op hun website verwerkten, en het bijhouden van al die gegevens uit hun verschillende databases was erg moeilijk geworden. Air France werkte samen met Talend en ontwikkelde een nieuw data lineage-systeem waarmee het bedrijf en hun datawetenschappers gepersonaliseerde advertenties en real-time updates konden leveren. Dit deden ze zonder de GDPR-regelgeving te overtreden.
Wilt u meer weten over het benutten van datalineage? Hier zijn een paar gestandaardiseerde datalijnprogramma's. Er zijn er ook enkele open-source datalijnprogramma's.
Afbeelding gebruikt onder licentie van Shutterstock.com
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- EVM Financiën. Uniforme interface voor gedecentraliseerde financiën. Toegang hier.
- Quantum Media Groep. IR/PR versterkt. Toegang hier.
- PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
- Bron: https://www.dataversity.net/data-lineage-use-cases/
- : heeft
- :is
- :niet
- :waar
- $UP
- 000
- 000 klanten
- 2018
- 224
- 300
- a
- in staat
- Over
- accuraat
- over
- Voordeel
- ADVERTISING
- die van invloed
- AIR
- Airbnb
- luchtwegen
- algoritmen
- Alles
- Het toestaan
- toestaat
- ook
- gewijzigd
- an
- analyse
- het analyseren van
- en
- elke
- toepassingen
- passend
- ZIJN
- dit artikel
- AS
- assessments
- veronderstellingen
- At
- proberen
- geautomatiseerde
- Beschikbaar
- vermijd
- terug
- gebaseerde
- BE
- omdat
- worden
- geweest
- vaardigheden
- wezen
- BEST
- Betere
- tussen
- overtreding
- Brits
- Britse luchtwegen
- bugs
- bedrijfsdeskundigen
- ondernemingen
- maar
- by
- CAN
- captures
- Het vastleggen
- kaart
- geval
- gevallen
- veroorzaakt
- CCPA
- Wijzigingen
- Schoonmaak
- code
- algemeen
- Bedrijven
- afstand
- complex
- nakoming
- ingewikkeld
- componenten
- aansluitingen
- permanent
- Aannemer
- controles
- te corrigeren
- gecorrigeerd
- kon
- en je merk te creëren
- Credits
- creditkaart
- klant
- Klanten
- gegevens
- datalek
- gegevensverwerking
- gegevenssets
- databanken
- datasets
- DATAVERSITEIT
- transactie
- beslist
- Besluitvorming
- beslissingen
- leveren
- beschreven
- aangewezen
- bestemming
- gedetailleerd
- gedetecteerd
- ontwikkelen
- ontwikkelde
- Ontwikkeling
- DEED
- anders
- verschillend
- moeilijk
- elk
- gemakkelijker
- ecosysteem
- effectief
- duurt
- doeltreffendheid
- doeltreffend
- efficiënt
- einde
- verzekeren
- zorgen
- omgevingen
- fout
- fouten
- essentieel
- etc
- eventueel
- onderzoeken
- voorbeeld
- duur
- uitdrukkelijk
- geconfronteerd
- tamelijk
- afmaken
- geschikt
- stroom
- Stromen
- Voor
- formulier
- Frankrijk
- oppompen van
- GDPR
- Algemeen
- krijgen
- goed
- bestuur
- gegroeid
- richtlijnen
- HAD
- Hebben
- hard
- hulp
- helpt
- hier
- hoogwaardige
- Scharnier
- Verhuring
- historisch
- Hit
- Hoe
- Echter
- HTTPS
- geïdentificeerd
- identificeren
- Impact
- belangrijk
- verbeteren
- in
- omvat
- meer
- in toenemende mate
- aangeven
- -industrie
- info
- informatie
- inzichten
- installeren
- integriteit
- Intelligent
- kwestie
- problemen
- IT
- HAAR
- jpg
- houden
- taal
- Talen
- Groot
- groter
- LEARN
- Laten we
- Hefboomwerking
- leveraging
- Vergunning
- levenscyclus van uw product
- levenscycli
- LINK
- Elke kleine stap levert grote resultaten op!
- plaats
- locaties
- logica
- gemaakt
- maken
- MERKEN
- management
- management tools
- Managers
- handmatig
- veel
- kaart
- Maps
- het merken
- max-width
- Metadata
- methoden
- macht
- migratie
- miljoen
- model
- modellering
- modellen
- Modern
- wijzigingen
- geld
- bewaakt
- meer
- verplaatst
- beweging
- veel
- Noodzaak
- nodig
- Netflix
- New
- geen
- nu
- aantal
- of
- Oud
- on
- open source
- Operations
- or
- organisatie
- organisaties
- over
- totaal
- deel
- vooral
- partnered
- patronen
- uitvoeren
- prestatie
- persoonlijk
- Gepersonaliseerde
- fase
- pii
- planning
- Plato
- Plato gegevensintelligentie
- PlatoData
- punt
- presenteren
- cadeautjes
- primair
- privaat
- probleem
- problemen
- verwerkt
- processen
- verwerking
- winst
- Programma
- Programming
- programmeertalen
- zorgen voor
- biedt
- het verstrekken van
- inkomsten
- de aankoop van
- doeleinden
- kwaliteit
- snel
- lezing
- echte wereld
- real-time
- realistisch
- redenen
- record
- opname
- archief
- vermindering
- met betrekking tot
- reglement
- regelgevers
- Regulatory Compliance
- betrekkingen
- betrouwbaar
- vertrouwen
- vertegenwoordiging
- nodig
- vereist
- onderzoek
- antwoord
- resultaat
- Recensies
- Risico
- risicobeheer
- SAS
- wetenschappers
- zien
- selecteren
- September
- Diensten
- Sets
- tonen
- tonen
- getoond
- Shutterstock
- kant
- eenvoudigweg
- situaties
- speling
- Software
- sommige
- bron
- bronnen
- specifiek
- normen
- begin
- Still
- mediaopslag
- opgeslagen
- gestroomlijnd
- Draad
- dergelijk
- steunen
- system
- Systems
- technieken
- TECH's
- dat
- De
- de informatie
- De Bron
- hun
- harte
- Er.
- Deze
- ze
- dit
- die
- Door
- overal
- niet de tijd of
- tijdrovend
- naar
- vandaag
- tools
- tools
- opsporen
- Tracing
- spoor
- Tracking
- Transacties
- Transformatie
- transformaties
- getransformeerd
- Trust
- UBS
- voor
- begrijpen
- begrip
- updates
- upgrades
- op
- .
- use case
- gebruikt
- gebruikers
- gebruik
- variëteit
- divers
- controleren
- versie
- zeer
- zichtbaarheid
- bezoekers
- volume
- was
- manieren
- Website
- waren
- wanneer
- welke
- Met
- binnen
- zonder
- workflows
- werkzaam
- de moeite waard
- Verkeerd
- Your
- zephyrnet