Λίμνες δεδομένων και σημασιολογικά στρώματα υπάρχουν εδώ και πολύ καιρό – ο καθένας ζει στους δικούς του περιφραγμένους κήπους, στενά συνδεδεμένους με αρκετά στενές θήκες χρήσης. Καθώς η υποδομή δεδομένων και αναλυτικών στοιχείων μεταναστεύει στο cloud, πολλοί αμφισβητούν τον τρόπο με τον οποίο αυτά τα βασικά στοιχεία τεχνολογίας ταιριάζουν στη σύγχρονη στοίβα δεδομένων και αναλυτικών στοιχείων. Σε αυτό το άρθρο, θα δούμε πώς ένα data lakehouse και ένα σημασιολογικό επίπεδο μαζί ανατρέπουν την παραδοσιακή σχέση μεταξύ των λιμνών δεδομένων και της υποδομής ανάλυσης. Θα μάθουμε πώς ένα σημασιολογικό lakehouse μπορεί να απλοποιηθεί δραματικά αρχιτεκτονικές δεδομένων cloud, εξαλείψτε την περιττή μετακίνηση δεδομένων και μειώστε το χρόνο στην αξία και το κόστος cloud.
Η παραδοσιακή αρχιτεκτονική δεδομένων και ανάλυσης
Το 2006, η Amazon παρουσίασε το Amazon Web Services (AWS) ως έναν νέο τρόπο εκφόρτωσης του κέντρου δεδομένων εσωτερικής εγκατάστασης στο cloud. Μια βασική υπηρεσία AWS ήταν η αποθήκευση δεδομένων αρχείων και μαζί με αυτό, γεννήθηκε η πρώτη λίμνη δεδομένων cloud, το Amazon S3. Άλλοι προμηθευτές cloud θα παρουσιάσουν στη συνέχεια τις δικές τους εκδόσεις της υποδομής δεδομένων cloud.
Για το μεγαλύτερο μέρος της ζωής της, η λίμνη δεδομένων cloud έχει υποβιβαστεί στο να παίζει το ρόλο του ανόητου, φθηνού αποθήκευση δεδομένων - ένα σκαλωσιά περιοχή για ακατέργαστα δεδομένα, έως ότου τα δεδομένα μπορέσουν να επεξεργαστούν σε κάτι χρήσιμο. Για τα αναλυτικά στοιχεία, η λίμνη δεδομένων χρησίμευσε ως στυλό συγκράτησης δεδομένων έως ότου μπορέσει να αντιγραφεί και να φορτωθεί σε μια βελτιστοποιημένη πλατφόρμα ανάλυσης, συνήθως μια αποθήκη δεδομένων σχεσιακού νέφους που τροφοδοτεί είτε κύβους OLAP, αποσπάσματα δεδομένων ιδιόκτητων εργαλείων επιχειρηματικής ευφυΐας (BI), όπως Tableau Hyper ή Power BI Premium ή όλα τα παραπάνω. Ως αποτέλεσμα αυτού του μοτίβου επεξεργασίας, τα δεδομένα έπρεπε να αποθηκευτούν τουλάχιστον δύο φορές, μία στην ακατέργαστη μορφή τους και μία στη «βελτιστοποιημένη ανάλυση».
Δεν αποτελεί έκπληξη το γεγονός ότι οι περισσότερες παραδοσιακές αρχιτεκτονικές ανάλυσης cloud μοιάζουν με το παρακάτω διάγραμμα:
Όπως μπορείτε να δείτε, η «αποθήκη αναλυτικών στοιχείων» είναι υπεύθυνη για την πλειονότητα των λειτουργιών που παρέχουν αναλυτικά στοιχεία στους καταναλωτές. Το πρόβλημα με αυτήν την αρχιτεκτονική είναι το εξής:
- Τα δεδομένα αποθηκεύονται δύο φορές, γεγονός που αυξάνει το κόστος και δημιουργεί λειτουργική πολυπλοκότητα.
- Τα δεδομένα στην αποθήκη αναλυτικών στοιχείων είναι ένα στιγμιότυπο, που σημαίνει ότι τα δεδομένα είναι άμεσα μπαγιάτικα.
- Τα δεδομένα στην αποθήκη αναλυτικών στοιχείων είναι συνήθως ένα υποσύνολο των δεδομένων στη λίμνη δεδομένων, γεγονός που περιορίζει τις ερωτήσεις που μπορούν να κάνουν οι καταναλωτές.
- Η αποθήκη ανάλυσης κλιμακώνεται ξεχωριστά και διαφορετικά από την πλατφόρμα δεδομένων cloud, εισάγοντας πρόσθετο κόστος, ανησυχίες για την ασφάλεια και λειτουργική πολυπλοκότητα.
Δεδομένων αυτών των μειονεκτημάτων, θα μπορούσατε να ρωτήσετε "Γιατί οι αρχιτέκτονες δεδομένων cloud θα επιλέγουν αυτό το σχέδιο σχεδίασης;" Η απάντηση βρίσκεται στις απαιτήσεις των καταναλωτών αναλυτικών στοιχείων. Ενώ η λίμνη δεδομένων θα μπορούσε θεωρητικά να εξυπηρετεί αναλυτικά ερωτήματα απευθείας στους καταναλωτές, στην πράξη, η λίμνη δεδομένων είναι πολύ αργή και ασύμβατη με δημοφιλή εργαλεία ανάλυσης.
Εάν η λίμνη δεδομένων μπορούσε να προσφέρει τα οφέλη μιας αποθήκης αναλυτικών στοιχείων και θα μπορούσαμε να αποφύγουμε την αποθήκευση δεδομένων δύο φορές!
Η γέννηση του Data Lakehouse
Ο όρος "Lakehouse" έκανε το ντεμπούτο του το 2020 με τη βασική λευκή βίβλο Databricks «Τι είναι το Lakehouse;» από τους Ben Lorica, Michael Armbrust, Reynold Xin, Matei Zaharia και Ali Ghodsi. Οι συγγραφείς εισήγαγαν την ιδέα ότι η λίμνη δεδομένων θα μπορούσε να χρησιμεύσει ως μηχανή για την παροχή αναλυτικών στοιχείων, όχι απλώς ως αποθήκευση στατικών αρχείων.
Οι πωλητές δεδομένων lakehouse απέδωσαν το όραμά τους εισάγοντας μηχανές αναζήτησης υψηλής ταχύτητας, κλιμακωτές που λειτουργούν σε αρχεία ακατέργαστων δεδομένων στη λίμνη δεδομένων και εκθέτουν μια τυπική διεπαφή SQL ANSI. Με αυτή τη βασική καινοτομία, οι υποστηρικτές αυτής της αρχιτεκτονικής υποστηρίζουν ότι οι λίμνες δεδομένων μπορούν να συμπεριφέρονται σαν μια αποθήκη αναλυτικών στοιχείων, χωρίς την ανάγκη αντιγραφής δεδομένων.
Ωστόσο, αποδεικνύεται ότι η αποθήκη αναλυτικών στοιχείων εκτελεί άλλες ζωτικές λειτουργίες που δεν ικανοποιούνται μόνο από την αρχιτεκτονική του lakehouse δεδομένων, όπως:
- Παροχή ερωτημάτων "ταχύτητα σκέψης" (ερωτήματα σε λιγότερο από 2 δευτερόλεπτα) με συνέπεια σε ένα ευρύ φάσμα ερωτημάτων.
- Παρουσιάζοντας ένα φιλικό προς τις επιχειρήσεις σημασιολογικό επίπεδο που επιτρέπει στους καταναλωτές να κάνουν ερωτήσεις χωρίς να χρειάζεται να γράψουν SQL.
- Εφαρμογή διακυβέρνησης και ασφάλειας δεδομένων κατά τη στιγμή του ερωτήματος.
Έτσι, για να αντικαταστήσει πραγματικά ένα data lakehouse την αποθήκη αναλυτικών στοιχείων, χρειαζόμαστε κάτι άλλο.
Ο ρόλος του σημασιολογικού στρώματος
Έχω γράψει πολλά για τον ρόλο του σημασιολογικό στρώμα στη σύγχρονη στοίβα δεδομένων. Συνοψίζοντας, ένα σημασιολογικό επίπεδο είναι μια λογική προβολή των επιχειρηματικών δεδομένων που αξιοποιεί την τεχνολογία εικονικοποίησης δεδομένων για να μεταφράσει φυσικά δεδομένα σε δεδομένα φιλικά προς τις επιχειρήσεις κατά τη στιγμή του ερωτήματος.
Προσθέτοντας μια πλατφόρμα σημασιολογικού επιπέδου πάνω από ένα lakehouse δεδομένων, μπορούμε να εξαλείψουμε εντελώς τις λειτουργίες της αποθήκης αναλυτικών στοιχείων επειδή η πλατφόρμα σημασιολογικού επιπέδου:
- Παρέχει "ερωτήματα ταχύτητας σκέψης" στο data lakehouse χρησιμοποιώντας εικονικοποίηση δεδομένων και αυτοματοποιημένο συντονισμό απόδοσης ερωτημάτων.
- Παρέχει ένα φιλικό προς τις επιχειρήσεις σημασιολογικό επίπεδο που αντικαθιστά τις ιδιόκτητες σημασιολογικές προβολές που είναι ενσωματωμένες σε κάθε εργαλείο BI και επιτρέπει στους επιχειρησιακούς χρήστες να κάνουν ερωτήσεις χωρίς να χρειάζεται να γράφουν ερωτήματα SQL.
- Παρέχει διακυβέρνηση και ασφάλεια δεδομένων κατά τη στιγμή του ερωτήματος.
Μια πλατφόρμα σημασιολογικού επιπέδου παρέχει τα κομμάτια που λείπουν που λείπουν από το lakehouse δεδομένων. Συνδυάζοντας ένα σημασιολογικό επίπεδο με ένα data lakehouse, οι οργανισμοί μπορούν:
- Καταργήστε τα αντίγραφα δεδομένων και απλοποιήστε τις σωληνώσεις δεδομένων.
- Ενοποίηση διακυβέρνησης και ασφάλειας δεδομένων.
- Παρέχετε μια «ενιαία πηγή αλήθειας» για τις επιχειρηματικές μετρήσεις.
- Μειώστε την λειτουργική πολυπλοκότητα διατηρώντας τα δεδομένα στη λίμνη δεδομένων.
- Παρέχετε πρόσβαση σε περισσότερα δεδομένα και πιο έγκαιρα δεδομένα στους καταναλωτές αναλυτικών στοιχείων.
The Semantic Lakehouse: Everybody Wins
Όλοι κερδίζουν με αυτήν την αρχιτεκτονική. Οι καταναλωτές έχουν πρόσβαση σε πιο λεπτομερή δεδομένα χωρίς καθυστέρηση. Οι ομάδες μηχανικής πληροφορικής και δεδομένων έχουν λιγότερα δεδομένα για μετακίνηση και μετατροπή. Το Finance ξοδεύει λιγότερα χρήματα για το κόστος υποδομής cloud.
Όπως μπορείτε να δείτε, συνδυάζοντας ένα σημασιολογικό επίπεδο με ένα data lakehouse, οι οργανισμοί μπορούν να απλοποιήσουν τις λειτουργίες δεδομένων και ανάλυσης και να παραδώσουν περισσότερα δεδομένα, πιο γρήγορα, σε περισσότερους καταναλωτές, με λιγότερο κόστος.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://www.dataversity.net/the-semantic-lakehouse-explained/
- :είναι
- 1
- 2020
- a
- Σχετικά
- πάνω από
- πρόσβαση
- Πρόσθετος
- Όλα
- επιτρέπει
- alone
- Amazon
- Amazon υπηρεσίες Web
- Amazon Web Services (AWS)
- Αναλυτικός
- analytics
- και
- απάντηση
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- Υποστηρίζουν
- γύρω
- άρθρο
- AS
- At
- συγγραφείς
- Αυτοματοποιημένη
- AWS
- BE
- επειδή
- παρακάτω
- οφέλη
- μεταξύ
- γεννημένος
- επιχείρηση
- επιχειρηματικής ευφυΐας
- by
- CAN
- περιπτώσεις
- Κέντρο
- πρόκληση
- φθηνά
- Επιλέξτε
- Backup
- cloud infrastructure
- συνδυάζοντας
- περίπλοκο
- εξαρτήματα
- Πιθανά ερωτήματα
- Καταναλωτές
- αντίγραφα
- πυρήνας
- Κόστος
- Δικαστικά έξοδα
- θα μπορούσε να
- σε συνδυασμό
- δημιουργεί
- ημερομηνία
- Κέντρο δεδομένων
- Λίμνη δεδομένων
- Πλατφόρμα δεδομένων
- αποθήκη δεδομένων
- Βάσεις δεδομένων
- ΔΕΔΟΜΕΝΟΤΗΤΑ
- παραδώσει
- παραδίδεται
- παράδοση
- παραδίδει
- απαιτήσεις
- Υπηρεσίες
- κατευθείαν
- δραματικά
- μειονεκτήματα
- κάθε
- είτε
- την εξάλειψη
- ενσωματωμένο
- Κινητήρας
- Μηχανική
- Κινητήρες
- εξήγησε
- Εκχυλίσματα
- αρκετά
- γρηγορότερα
- σίτιση
- Αρχεία
- Αρχεία
- χρηματοδότηση
- Όνομα
- ταιριάζουν
- εξής
- Για
- μορφή
- από
- λειτουργίες
- Κήποι
- παίρνω
- διακυβέρνησης
- Έχω
- Ψηλά
- κράτημα
- Πως
- HTML
- HTTPS
- ιδέα
- in
- Συμπεριλαμβανομένου
- Αυξήσεις
- Υποδομή
- Καινοτομία
- Νοημοσύνη
- περιβάλλον λειτουργίας
- εισαγάγει
- εισήγαγε
- εισάγοντας
- IT
- ΤΟΥ
- τήρηση
- Κλειδί
- λίμνη
- Αφάνεια
- στρώμα
- ΜΑΘΑΊΝΩ
- μόχλευσης
- ζωή
- Μου αρέσει
- όρια
- ζουν
- λογικός
- Μακριά
- πολύς καιρός
- ματιά
- μοιάζει
- Παρτίδα
- Η πλειοψηφία
- πολοί
- max-width
- μέσα
- Metrics
- Μιχαήλ
- ενδέχεται να
- Λείπει
- ΜΟΝΤΕΡΝΑ
- χρήματα
- περισσότερο
- πλέον
- μετακινήσετε
- κίνηση
- Ανάγκη
- που απαιτούνται
- χρειάζονται
- Νέα
- of
- on
- επιχειρήσεων
- λειτουργίες
- βελτιστοποιημένη
- οργανώσεις
- ΑΛΛΑ
- δική
- πρότυπο
- επίδοση
- εκτελεί
- φυσικός
- κομμάτια
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- παιχνίδι
- Δημοφιλής
- δύναμη
- Power BI
- πρακτική
- Ανώτερο
- Πρόβλημα
- μεταποίηση
- ιδιόκτητο
- Ερωτήσεις
- σειρά
- Ακατέργαστος
- ακατέργαστα δεδομένα
- μείωση
- σχέση
- αντικαθιστώ
- υπεύθυνος
- αποτέλεσμα
- Ρόλος
- ικανοποιημένοι
- επεκτάσιμη
- Ζυγός
- δευτερόλεπτα
- ασφάλεια
- εξυπηρετούν
- υπηρεσία
- Υπηρεσίες
- απλοποίηση
- επιβραδύνουν
- Στιγμιότυπο
- κάτι
- Πηγή
- ταχύτητα
- SQL
- σωρός
- πρότυπο
- κατάστημα
- αποθηκεύονται
- συνοψίζω
- Ζώσα σκηνική εικών
- ομάδες
- Τεχνολογία
- ότι
- Η
- τους
- Αυτοί
- σκέψη
- σφικτά
- ώρα
- προς την
- μαζι
- πολύ
- εργαλείο
- εργαλεία
- κορυφή
- παραδοσιακός
- Μεταμορφώστε
- μεταφράζω
- Δυο φορές
- συνήθως
- υπό
- χρήση
- Χρήστες
- αξία
- πωλητές
- Δες
- εμφανίσεις
- όραμα
- ζωτικής σημασίας
- Περιτειχισμένος
- Αποθήκη
- Τρόπος..
- ιστός
- διαδικτυακές υπηρεσίες
- Ποιό
- ενώ
- άσπρο
- ευρύς
- Ευρύ φάσμα
- θα
- Κερδίζει
- με
- χωρίς
- Εργασία
- θα
- γράφω
- γραπτή
- zephyrnet