Ξεπερνώντας έναν κόσμο γεμάτο βρώμικα δεδομένα

Ξεπερνώντας έναν κόσμο γεμάτο βρώμικα δεδομένα

Κόμβος πηγής: 2574986

Σαν αόρατος ιός, τα «βρώμικα δεδομένα» μαστίζουν τον σημερινό επιχειρηματικό κόσμο. Δηλαδή, ανακριβή, ελλιπή και ασυνεπή δεδομένα πολλαπλασιάζονται στον σημερινό κόσμο που επικεντρώνεται στα «μεγάλα δεδομένα».

Η εργασία με βρώμικα δεδομένα κοστίζει στις εταιρείες εκατομμύρια δολάρια ετησίως. Μειώνει την αποδοτικότητα και την αποτελεσματικότητα των τμημάτων που καλύπτουν την επιχείρηση και περιορίζει τις προσπάθειες για ανάπτυξη και κλίμακα. Παρεμποδίζει την ανταγωνιστικότητα, αυξάνει τους κινδύνους για την ασφάλεια και παρουσιάζει προβλήματα συμμόρφωσης.

Οι υπεύθυνοι των Διαχείρηση δεδομένων έχουν αντιμετωπίσει αυτή την πρόκληση για χρόνια. Πολλά από τα επί του παρόντος διαθέσιμα εργαλεία μπορούν να αντιμετωπίσουν ζητήματα Διαχείρισης Δεδομένων για ομάδες που βρίσκονται εντός των τμημάτων, αλλά όχι για την εταιρεία γενικά ή για ευρύτερα οικοσυστήματα δεδομένων. Ακόμη χειρότερα, αυτά τα εργαλεία συχνά καταλήγουν να δημιουργούν ακόμη περισσότερα δεδομένα που πρέπει να διαχειρίζονται – και αυτά τα δεδομένα, επίσης, μπορεί να γίνουν βρώμικα, προκαλώντας περισσότερους πονοκεφάλους και απώλεια εσόδων.

Κατανόηση των βρώμικων δεδομένων

Βρώμικα δεδομένα αναφέρεται σε οποιαδήποτε δεδομένα που είναι παραπλανητικό, διπλό, λανθασμένο ή ανακριβές, δεν έχει ακόμη ενσωματωθεί, παραβιάζει επιχειρηματικούς κανόνες, στερείται ομοιόμορφης μορφοποίησης ή περιέχει λάθη στη στίξη ή την ορθογραφία.

Για να κατανοήσετε πόσο βρώμικα δεδομένα έχουν γίνει πανταχού παρόντα τις τελευταίες δεκαετίες, φανταστείτε το ακόλουθο σενάριο: 

Οι δανειστές σε μια μεγάλη τράπεζα μπερδεύονται όταν ανακαλύπτουν ότι σχεδόν όλοι οι πελάτες της τράπεζας είναι αστροναύτες. Λαμβάνοντας υπόψη ότι η NASA έχει μόνο ένα μερικές δεκάδες αστροναύτες, αυτό δεν βγάζει νόημα. 

Μετά από περαιτέρω εξερεύνηση, το τμήμα δανεισμού ανακαλύπτει ότι οι τραπεζικοί υπάλληλοι που άνοιγαν νέους λογαριασμούς είχαν εισαγάγει τον «αστροναύτη» στο πεδίο απασχόλησης των πελατών. Οι δανειστές μαθαίνουν ότι η περιγραφή της θέσης εργασίας είναι άσχετη με τους ομολόγους τους που είναι υπεύθυνοι για νέους λογαριασμούς. Οι τραπεζικοί υπάλληλοι επέλεγαν τον «αστροναύτη», την πρώτη διαθέσιμη επιλογή, απλώς για να κινηθούν πιο γρήγορα στη δημιουργία νέων λογαριασμών.

Οι δανειστές, ωστόσο, πρέπει να έχουν στο αρχείο τα σωστά επαγγέλματα των πελατών τους για να λάβουν τα ετήσια μπόνους τους. Για να διορθωθεί η κατάσταση, το τμήμα δανεισμού αναπτύσσει τη δική του, ξεχωριστή βάση δεδομένων. Επικοινωνούν με κάθε πελάτη, μαθαίνουν το σωστό επάγγελμα και το εισάγουν στη βάση δεδομένων τους.

Τώρα, η τράπεζα διαθέτει δύο βάσεις δεδομένων με ουσιαστικά τις ίδιες πληροφορίες, εκτός από ένα πεδίο. Εάν ένα τρίτο τμήμα θέλει να έχει πρόσβαση στις πληροφορίες σε αυτές τις βάσεις δεδομένων, δεν υπάρχει σύστημα για να προσδιορίσει ποια βάση δεδομένων είναι ακριβής. Έτσι, αυτό το τρίτο τμήμα μπορεί επίσης να δημιουργήσει τη δική του βάση δεδομένων.

Παρόμοια σενάρια διαδραματίζονται σε οργανισμούς σε εθνικό επίπεδο εδώ και δεκαετίες.

Αυξάνονται οι ΧΥΤΑ ψηφιακών δεδομένων

Το πρόβλημα ξεκίνησε τη δεκαετία του 1990 με το ψηφιακή μετατροπή κεραία. Οι εταιρείες ανέπτυξαν εταιρικό λογισμικό για να βελτιώσουν τις επιχειρηματικές τους διαδικασίες. Τα προϊόντα λογισμικού ως υπηρεσία από τη Salesforce, για παράδειγμα, επέτρεψαν καλύτερους τρόπους διαχείρισης συστημάτων πωλήσεων και μάρκετινγκ.

Όμως, 30 χρόνια αργότερα, μια τέτοια υποδομή παλαιού τύπου έχει οδηγήσει σε έναν εφιάλτη διαχείρισης δεδομένων. Τα ανόμοια σιλό δεδομένων με μια σειρά από διπλότυπες, ελλιπείς και εσφαλμένες πληροφορίες ενισχύουν τα τοπία του εταιρικού και του δημόσιου τομέα. Αυτά τα σιλό περιλαμβάνουν γραμμές επιχειρήσεων, γεωγραφίες και λειτουργίες που κατέχουν και επιβλέπουν αντίστοιχα τις πηγές δεδομένων τους.

Από εκεί και πέρα, η παραγωγή δεδομένων έχει αυξηθεί εκθετικά κατά τη διάρκεια των δεκαετιών. Κάθε επιχειρηματική διαδικασία απαιτεί πλέον το δικό της λογισμικό, που παράγει συνεχώς περισσότερα δεδομένα. Οι εφαρμογές καταγράφουν κάθε ενέργεια στις εγγενείς βάσεις δεδομένων τους και έχουν εμφανιστεί εμπόδια στην εξόρυξη των νεοδημιουργηθέντων στοιχείων δεδομένων.

Τις προηγούμενες δεκαετίες, τα δεδομένα που καθορίζουν το λεξιλόγιο ήταν συγκεκριμένα για την επιχειρηματική διαδικασία που τα δημιούργησε. Οι μηχανικοί έπρεπε να μεταφράσουν αυτά τα λεξικά σε διακριτά λεξικά για τα συστήματα που καταναλώνουν τα δεδομένα. Εγγυήσεις ποιότητας συνήθως δεν υπήρχαν. Όπως και στο παραπάνω παράδειγμα αστροναύτη, τα δεδομένα που ήταν χρησιμοποιήσιμα από μια επιχειρηματική συνάρτηση ήταν αχρησιμοποίητα από άλλες. Και η προσβασιμότητα σε δεδομένα από αρχικές επιχειρηματικές διαδικασίες ήταν περιορισμένη, στην καλύτερη περίπτωση, για λειτουργίες που διαφορετικά θα είχαν επιτύχει βελτιστοποίηση.

Το αίνιγμα της αντιγραφής

Για να λύσουν αυτό το πρόβλημα, οι μηχανικοί άρχισαν να δημιουργούν αντίγραφα των αρχικών βάσεων δεδομένων επειδή, μέχρι πρόσφατα, ήταν η καλύτερη διαθέσιμη επιλογή. Στη συνέχεια μεταμόρφωσαν αυτά τα αντίγραφα για να ικανοποιήσουν τις απαιτήσεις της συνάρτησης κατανάλωσης, εφαρμόζοντας κανόνες ποιότητας δεδομένων και λογική αποκατάστασης αποκλειστικά για τη συνάρτηση κατανάλωσης. Έκαναν πολλά αντίγραφα και τα φόρτωσαν σε πολλαπλές αποθήκες δεδομένων και συστήματα ανάλυσης.

Το αποτέλεσμα? Μια υπερχείλιση αντιγράφων δεδομένων που διαβάζονται ως "βρώμικα" σε ορισμένα μέρη του οργανισμού, προκαλώντας σύγχυση σχετικά με το ποιο αντίγραφο είναι το σωστό. Οι εταιρείες σήμερα διαθέτουν εκατοντάδες αντίγραφα δεδομένων πηγής σε λειτουργικά καταστήματα δεδομένων, βάσεις δεδομένων, αποθήκες δεδομένων, λίμνες δεδομένων, sandboxes ανάλυσης και υπολογιστικά φύλλα σε κέντρα δεδομένων και πολλαπλά σύννεφα. Ωστόσο, οι επικεφαλής πληροφοριών και οι υπεύθυνοι δεδομένων δεν έχουν ούτε έλεγχο του αριθμού των αντιγράφων που δημιουργούνται ούτε γνωρίζουν ποια έκδοση αντιπροσωπεύει μια γνήσια πηγή αλήθειας.

Μια σειρά από προϊόντα λογισμικού Διακυβέρνησης Δεδομένων είναι διαθέσιμα για να βάλουν τάξη σε αυτό το χάος. Αυτά περιλαμβάνουν καταλόγους δεδομένων, συστήματα μέτρησης και επίλυσης προβλημάτων ποιότητας δεδομένων, συστήματα διαχείρισης δεδομένων αναφοράς, κύρια συστήματα διαχείρισης δεδομένων, ανακάλυψη γενεαλογικών δεδομένων και συστήματα διαχείρισης.

Αλλά αυτές οι θεραπείες είναι ακριβές και χρονοβόρες. Ένα τυπικό κύριο έργο διαχείρισης δεδομένων για την ενοποίηση δεδομένων πελατών από πολλαπλές πηγές δεδομένων από διαφορετικές σειρές προϊόντων μπορεί να διαρκέσει χρόνια και να κοστίσει εκατομμύρια δολάρια. Ταυτόχρονα, ο όγκος των βρώμικων δεδομένων αυξάνεται με ταχύτητες που ξεπερνούν τις οργανωτικές προσπάθειες για εγκατάσταση ελέγχων και διακυβέρνησης.

Αυτές οι προσεγγίσεις είναι γεμάτες ελαττώματα. Βασίζονται σε μη αυτόματες διαδικασίες, λογική ανάπτυξης ή επιχειρηματικούς κανόνες για την εκτέλεση των εργασιών της απογραφής, της μέτρησης και της αποκατάστασης των δεδομένων. 

Ανάκτηση ελέγχου

Τρεις αναδυόμενες τεχνολογίες είναι οι πλέον κατάλληλες για την αντιμετώπιση της τρέχουσας δύσκολης κατάστασης: Διακυβέρνηση δεδομένων βάσει τεχνητής νοημοσύνης και μηχανικής μάθησης, πλατφόρμες σημασιολογικής διαλειτουργικότητας όπως γραφήματα γνώσης και συστήματα διανομής δεδομένων όπως κατανεμημένα λογιστικά βιβλία: 

1. Λύσεις Διακυβέρνησης Δεδομένων με γνώμονα την τεχνητή νοημοσύνη και τη μηχανική μάθηση μείωση της εξάρτησης από ανθρώπους και κώδικα. Η τεχνητή νοημοσύνη και η μηχανική εκμάθηση αντικαθιστούν τη χειρωνακτική εργασία με ενέργειες που περιλαμβάνουν την αυτόματη προσθήκη ετικετών, την οργάνωση και την επίβλεψη τεράστιων τμημάτων δεδομένων. Ο μετασχηματισμός της διαχείρισης δεδομένων και η μετεγκατάσταση μειώνουν το κόστος πληροφορικής. Οι οργανισμοί μπορούν επίσης να δημιουργήσουν πιο στιβαρές και βιώσιμες αρχιτεκτονικές που ενθαρρύνουν την ποιότητα δεδομένων σε κλίμακα.

2. Γραφήματα γνώσης επιτρέπουν την εγγενή διαλειτουργικότητα ανόμοιων στοιχείων δεδομένων, έτσι ώστε οι πληροφορίες να μπορούν να συνδυαστούν και να κατανοηθούν σε μια κοινή μορφή. Αξιοποιώντας σημασιολογικές οντολογίες, οι οργανισμοί μπορούν να αποδείξουν μελλοντικά δεδομένα με πλαίσιο και κοινή μορφή για επαναχρησιμοποίηση από πολλούς ενδιαφερόμενους.

3. Κατανεμημένα λογιστικά βιβλία, διαφορικό απόρρητο και εικονικοποίηση εξαλείψει την ανάγκη φυσικής αντιγραφής δεδομένων. Τα κατανεμημένα λογιστικά βιβλία περιλαμβάνουν ενοποιημένες και ελεγχόμενες βάσεις δεδομένων που μπορούν να χρησιμοποιηθούν σε επιχειρηματικές μονάδες και οργανισμούς. Το διαφορικό απόρρητο καθιστά δυνατή την απόκρυψη δεδομένων για τη συμμόρφωση με τις απαιτήσεις συμμόρφωσης, ενώ ταυτόχρονα τα κοινοποιούνται με τους ενδιαφερόμενους. Η εικονικοποίηση επιτρέπει την περιστροφή δεδομένων σε εικονικό και όχι φυσικό περιβάλλον.

Μόλις οι CIO και οι CDO κατανοήσουν ότι η ρίζα του προβλήματος είναι η παλαιού τύπου υποδομή που δημιουργεί σιλό δεδομένων, ενδέχεται να βελτιώσουν τις υποκείμενες αρχιτεκτονικές και τις στρατηγικές υποδομής δεδομένων.

Τα βρώμικα δεδομένα περιορίζουν την ικανότητα ενός οργανισμού να λαμβάνει τεκμηριωμένες αποφάσεις και να λειτουργεί με ακρίβεια και ευελιξία. Οι οργανισμοί πρέπει να αναλάβουν τον έλεγχο των δεδομένων τους και να ενθαρρύνουν τη διαλειτουργικότητα, την ποιότητα και την προσβασιμότητα των δεδομένων. Κάτι τέτοιο θα προσφέρει ανταγωνιστικά πλεονεκτήματα και θα διαγράψει τα τρωτά σημεία ασφάλειας και συμμόρφωσης.

Σφραγίδα ώρας:

Περισσότερα από ΔΕΔΟΜΕΝΟΤΗΤΑ