The Semantic Lakehouse Explained

The Semantic Lakehouse Explained

Κόμβος πηγής: 1995005

Λίμνες δεδομένων και σημασιολογικά στρώματα υπάρχουν εδώ και πολύ καιρό – ο καθένας ζει στους δικούς του περιφραγμένους κήπους, στενά συνδεδεμένους με αρκετά στενές θήκες χρήσης. Καθώς η υποδομή δεδομένων και αναλυτικών στοιχείων μεταναστεύει στο cloud, πολλοί αμφισβητούν τον τρόπο με τον οποίο αυτά τα βασικά στοιχεία τεχνολογίας ταιριάζουν στη σύγχρονη στοίβα δεδομένων και αναλυτικών στοιχείων. Σε αυτό το άρθρο, θα δούμε πώς ένα data lakehouse και ένα σημασιολογικό επίπεδο μαζί ανατρέπουν την παραδοσιακή σχέση μεταξύ των λιμνών δεδομένων και της υποδομής ανάλυσης. Θα μάθουμε πώς ένα σημασιολογικό lakehouse μπορεί να απλοποιηθεί δραματικά αρχιτεκτονικές δεδομένων cloud, εξαλείψτε την περιττή μετακίνηση δεδομένων και μειώστε το χρόνο στην αξία και το κόστος cloud.

Η παραδοσιακή αρχιτεκτονική δεδομένων και ανάλυσης

Το 2006, η Amazon παρουσίασε το Amazon Web Services (AWS) ως έναν νέο τρόπο εκφόρτωσης του κέντρου δεδομένων εσωτερικής εγκατάστασης στο cloud. Μια βασική υπηρεσία AWS ήταν η αποθήκευση δεδομένων αρχείων και μαζί με αυτό, γεννήθηκε η πρώτη λίμνη δεδομένων cloud, το Amazon S3. Άλλοι προμηθευτές cloud θα παρουσιάσουν στη συνέχεια τις δικές τους εκδόσεις της υποδομής δεδομένων cloud.

Για το μεγαλύτερο μέρος της ζωής της, η λίμνη δεδομένων cloud έχει υποβιβαστεί στο να παίζει το ρόλο του ανόητου, φθηνού αποθήκευση δεδομένων - ένα σκαλωσιά περιοχή για ακατέργαστα δεδομένα, έως ότου τα δεδομένα μπορέσουν να επεξεργαστούν σε κάτι χρήσιμο. Για τα αναλυτικά στοιχεία, η λίμνη δεδομένων χρησίμευσε ως στυλό συγκράτησης δεδομένων έως ότου μπορέσει να αντιγραφεί και να φορτωθεί σε μια βελτιστοποιημένη πλατφόρμα ανάλυσης, συνήθως μια αποθήκη δεδομένων σχεσιακού νέφους που τροφοδοτεί είτε κύβους OLAP, αποσπάσματα δεδομένων ιδιόκτητων εργαλείων επιχειρηματικής ευφυΐας (BI), όπως Tableau Hyper ή Power BI Premium ή όλα τα παραπάνω. Ως αποτέλεσμα αυτού του μοτίβου επεξεργασίας, τα δεδομένα έπρεπε να αποθηκευτούν τουλάχιστον δύο φορές, μία στην ακατέργαστη μορφή τους και μία στη «βελτιστοποιημένη ανάλυση». 

Δεν αποτελεί έκπληξη το γεγονός ότι οι περισσότερες παραδοσιακές αρχιτεκτονικές ανάλυσης cloud μοιάζουν με το παρακάτω διάγραμμα:

Εικόνα 1: Παραδοσιακή στοίβα δεδομένων και Analytics

Όπως μπορείτε να δείτε, η «αποθήκη αναλυτικών στοιχείων» είναι υπεύθυνη για την πλειονότητα των λειτουργιών που παρέχουν αναλυτικά στοιχεία στους καταναλωτές. Το πρόβλημα με αυτήν την αρχιτεκτονική είναι το εξής:

  1. Τα δεδομένα αποθηκεύονται δύο φορές, γεγονός που αυξάνει το κόστος και δημιουργεί λειτουργική πολυπλοκότητα.
  2. Τα δεδομένα στην αποθήκη αναλυτικών στοιχείων είναι ένα στιγμιότυπο, που σημαίνει ότι τα δεδομένα είναι άμεσα μπαγιάτικα.
  3. Τα δεδομένα στην αποθήκη αναλυτικών στοιχείων είναι συνήθως ένα υποσύνολο των δεδομένων στη λίμνη δεδομένων, γεγονός που περιορίζει τις ερωτήσεις που μπορούν να κάνουν οι καταναλωτές.
  4. Η αποθήκη ανάλυσης κλιμακώνεται ξεχωριστά και διαφορετικά από την πλατφόρμα δεδομένων cloud, εισάγοντας πρόσθετο κόστος, ανησυχίες για την ασφάλεια και λειτουργική πολυπλοκότητα.

Δεδομένων αυτών των μειονεκτημάτων, θα μπορούσατε να ρωτήσετε "Γιατί οι αρχιτέκτονες δεδομένων cloud θα επιλέγουν αυτό το σχέδιο σχεδίασης;" Η απάντηση βρίσκεται στις απαιτήσεις των καταναλωτών αναλυτικών στοιχείων. Ενώ η λίμνη δεδομένων θα μπορούσε θεωρητικά να εξυπηρετεί αναλυτικά ερωτήματα απευθείας στους καταναλωτές, στην πράξη, η λίμνη δεδομένων είναι πολύ αργή και ασύμβατη με δημοφιλή εργαλεία ανάλυσης. 

Εάν η λίμνη δεδομένων μπορούσε να προσφέρει τα οφέλη μιας αποθήκης αναλυτικών στοιχείων και θα μπορούσαμε να αποφύγουμε την αποθήκευση δεδομένων δύο φορές!

Η γέννηση του Data Lakehouse

Ο όρος "Lakehouse" έκανε το ντεμπούτο του το 2020 με τη βασική λευκή βίβλο Databricks «Τι είναι το Lakehouse;» από τους Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia και Ali Ghodsi. Οι συγγραφείς εισήγαγαν την ιδέα ότι η λίμνη δεδομένων θα μπορούσε να χρησιμεύσει ως μηχανή για την παροχή αναλυτικών στοιχείων, όχι απλώς ως αποθήκευση στατικών αρχείων.

Οι πωλητές δεδομένων lakehouse απέδωσαν το όραμά τους εισάγοντας μηχανές αναζήτησης υψηλής ταχύτητας, κλιμακωτές που λειτουργούν σε αρχεία ακατέργαστων δεδομένων στη λίμνη δεδομένων και εκθέτουν μια τυπική διεπαφή SQL ANSI. Με αυτή τη βασική καινοτομία, οι υποστηρικτές αυτής της αρχιτεκτονικής υποστηρίζουν ότι οι λίμνες δεδομένων μπορούν να συμπεριφέρονται σαν μια αποθήκη αναλυτικών στοιχείων, χωρίς την ανάγκη αντιγραφής δεδομένων.

Ωστόσο, αποδεικνύεται ότι η αποθήκη αναλυτικών στοιχείων εκτελεί άλλες ζωτικές λειτουργίες που δεν ικανοποιούνται μόνο από την αρχιτεκτονική του lakehouse δεδομένων, όπως:

  1. Παροχή ερωτημάτων "ταχύτητα σκέψης" (ερωτήματα σε λιγότερο από 2 δευτερόλεπτα) με συνέπεια σε ένα ευρύ φάσμα ερωτημάτων.
  2. Παρουσιάζοντας ένα φιλικό προς τις επιχειρήσεις σημασιολογικό επίπεδο που επιτρέπει στους καταναλωτές να κάνουν ερωτήσεις χωρίς να χρειάζεται να γράψουν SQL.
  3. Εφαρμογή διακυβέρνησης και ασφάλειας δεδομένων κατά τη στιγμή του ερωτήματος.

Έτσι, για να αντικαταστήσει πραγματικά ένα data lakehouse την αποθήκη αναλυτικών στοιχείων, χρειαζόμαστε κάτι άλλο.

Ο ρόλος του σημασιολογικού στρώματος

Έχω γράψει πολλά για τον ρόλο του σημασιολογικό στρώμα στη σύγχρονη στοίβα δεδομένων. Συνοψίζοντας, ένα σημασιολογικό επίπεδο είναι μια λογική προβολή των επιχειρηματικών δεδομένων που αξιοποιεί την τεχνολογία εικονικοποίησης δεδομένων για να μεταφράσει φυσικά δεδομένα σε δεδομένα φιλικά προς τις επιχειρήσεις κατά τη στιγμή του ερωτήματος. 

Προσθέτοντας μια πλατφόρμα σημασιολογικού επιπέδου πάνω από ένα lakehouse δεδομένων, μπορούμε να εξαλείψουμε εντελώς τις λειτουργίες της αποθήκης αναλυτικών στοιχείων επειδή η πλατφόρμα σημασιολογικού επιπέδου:

  1. Παρέχει "ερωτήματα ταχύτητας σκέψης" στο data lakehouse χρησιμοποιώντας εικονικοποίηση δεδομένων και αυτοματοποιημένο συντονισμό απόδοσης ερωτημάτων.
  2. Παρέχει ένα φιλικό προς τις επιχειρήσεις σημασιολογικό επίπεδο που αντικαθιστά τις ιδιόκτητες σημασιολογικές προβολές που είναι ενσωματωμένες σε κάθε εργαλείο BI και επιτρέπει στους επιχειρησιακούς χρήστες να κάνουν ερωτήσεις χωρίς να χρειάζεται να γράφουν ερωτήματα SQL.
  3. Παρέχει διακυβέρνηση και ασφάλεια δεδομένων κατά τη στιγμή του ερωτήματος.

Μια πλατφόρμα σημασιολογικού επιπέδου παρέχει τα κομμάτια που λείπουν που λείπουν από το lakehouse δεδομένων. Συνδυάζοντας ένα σημασιολογικό επίπεδο με ένα data lakehouse, οι οργανισμοί μπορούν:

  1. Καταργήστε τα αντίγραφα δεδομένων και απλοποιήστε τις σωληνώσεις δεδομένων.
  2. Ενοποίηση διακυβέρνησης και ασφάλειας δεδομένων.
  3. Παρέχετε μια «ενιαία πηγή αλήθειας» για τις επιχειρηματικές μετρήσεις.
  4. Μειώστε την λειτουργική πολυπλοκότητα διατηρώντας τα δεδομένα στη λίμνη δεδομένων.
  5. Παρέχετε πρόσβαση σε περισσότερα δεδομένα και πιο έγκαιρα δεδομένα στους καταναλωτές αναλυτικών στοιχείων.
Εικόνα 2: Νέα στοίβα δεδομένων Lakehouse με σημασιολογικό επίπεδο 

The Semantic Lakehouse: Everybody Wins

Όλοι κερδίζουν με αυτήν την αρχιτεκτονική. Οι καταναλωτές έχουν πρόσβαση σε πιο λεπτομερή δεδομένα χωρίς καθυστέρηση. Οι ομάδες μηχανικής πληροφορικής και δεδομένων έχουν λιγότερα δεδομένα για μετακίνηση και μετατροπή. Το Finance ξοδεύει λιγότερα χρήματα για το κόστος υποδομής cloud. 

Όπως μπορείτε να δείτε, συνδυάζοντας ένα σημασιολογικό επίπεδο με ένα data lakehouse, οι οργανισμοί μπορούν να απλοποιήσουν τις λειτουργίες δεδομένων και ανάλυσης και να παραδώσουν περισσότερα δεδομένα, πιο γρήγορα, σε περισσότερους καταναλωτές, με λιγότερο κόστος.

Σφραγίδα ώρας:

Περισσότερα από ΔΕΔΟΜΕΝΟΤΗΤΑ