Απάτσι Χούντι είναι μια μορφή ανοιχτού πίνακα που φέρνει τις δυνατότητες βάσης δεδομένων και αποθήκης δεδομένων σε λίμνες δεδομένων. Το Apache Hudi βοηθά τους μηχανικούς δεδομένων να διαχειρίζονται πολύπλοκες προκλήσεις, όπως η διαχείριση συνεχώς εξελισσόμενων συνόλων δεδομένων με συναλλαγές, διατηρώντας παράλληλα την απόδοση των ερωτημάτων. Οι μηχανικοί δεδομένων χρησιμοποιούν το Apache Hudi για φόρτους εργασίας ροής καθώς και για τη δημιουργία αποτελεσματικών σωλήνων πρόσθετων δεδομένων. Το Hudi παρέχει πίνακες, συναλλαγές, αποτελεσματικές προσθήκες και διαγραφές, προηγμένα ευρετήρια, υπηρεσίες απορρόφησης ροής, δεδομένα ομαδοποίηση και συμπίεση βελτιστοποιήσεις και έλεγχος ταυτόχρονης λειτουργίας, όλα αυτά διατηρώντας τα δεδομένα σας σε μορφές αρχείων ανοιχτού κώδικα. Οι προηγμένες βελτιστοποιήσεις απόδοσης της Hudi κάνουν τους αναλυτικούς φόρτους εργασίας γρηγορότερους με οποιαδήποτε από τις δημοφιλείς μηχανές αναζήτησης, συμπεριλαμβανομένων των Apache Spark, Presto, Trino, Hive και ούτω καθεξής.
Πολλοί πελάτες AWS υιοθέτησαν το Apache Hudi στις λίμνες δεδομένων τους που χτίστηκαν πάνω από το Amazon S3 χρησιμοποιώντας Κόλλα AWS, μια υπηρεσία ενοποίησης δεδομένων χωρίς διακομιστή που διευκολύνει την ανακάλυψη, την προετοιμασία, τη μετακίνηση και την ενοποίηση δεδομένων από πολλαπλές πηγές για αναλυτικά στοιχεία, μηχανική εκμάθηση (ML) και ανάπτυξη εφαρμογών. AWS Glue Crawler είναι ένα στοιχείο του AWS Glue, το οποίο σας επιτρέπει να δημιουργείτε μεταδεδομένα πίνακα από περιεχόμενο δεδομένων αυτόματα χωρίς να απαιτείται μη αυτόματη ορισμός των μεταδεδομένων.
Οι ανιχνευτές AWS Glue υποστηρίζουν πλέον πίνακες Apache Hudi, απλοποιώντας την υιοθέτηση του Κατάλογος δεδομένων κόλλας AWS ως κατάλογος για πίνακες Hudi. Μια τυπική περίπτωση χρήσης είναι η καταχώριση πινάκων Hudi, οι οποίοι δεν έχουν ορισμό πίνακα καταλόγου. Μια άλλη τυπική περίπτωση χρήσης είναι η μετάβαση από άλλους καταλόγους Hudi, όπως το Hive metastore. Κατά τη μετεγκατάσταση από άλλους Καταλόγους Hudi, μπορείτε να δημιουργήσετε και να προγραμματίσετε έναν ανιχνευτή AWS Glue και να παρέχετε μία ή περισσότερες διαδρομές Amazon S3 όπου βρίσκονται τα αρχεία του πίνακα Hudi. Έχετε την επιλογή να παρέχετε το μέγιστο βάθος των διαδρομών Amazon S3 που μπορεί να διασχίσει ο ανιχνευτής AWS Glue. Με κάθε εκτέλεση, οι ανιχνευτές AWS Glue θα εξάγουν πληροφορίες σχήματος και διαμερισμάτων και ενημερώνουν τον Κατάλογο δεδομένων κόλλας AWS με τις αλλαγές σχήματος και διαμερίσματος. Οι ανιχνευτές AWS Glue ενημερώνουν την πιο πρόσφατη θέση του αρχείου μεταδεδομένων στον Κατάλογο δεδομένων κόλλας AWS που μπορούν να χρησιμοποιήσουν απευθείας οι αναλυτικές μηχανές AWS.
Με αυτήν την εκκίνηση, μπορείτε να δημιουργήσετε και να προγραμματίσετε έναν ανιχνευτή AWS Glue για την εγγραφή πινάκων Hudi στον Κατάλογο δεδομένων AWS Glue. Στη συνέχεια, μπορείτε να παρέχετε μία ή πολλές διαδρομές Amazon S3 όπου βρίσκονται οι πίνακες Hudi. Έχετε την επιλογή να παρέχετε το μέγιστο βάθος των διαδρομών του Amazon S3 που μπορούν να διασχίσουν οι ανιχνευτές. Με κάθε εκτέλεση προγράμματος ανίχνευσης, ο ανιχνευτής επιθεωρεί καθεμία από τις διαδρομές S3 και καταγράφει τις πληροφορίες σχήματος, όπως νέους πίνακες, διαγραφές και ενημερώσεις σχημάτων στον Κατάλογο δεδομένων κόλλας AWS. Τα προγράμματα ανίχνευσης επιθεωρούν τις πληροφορίες διαμερίσματος και προσθέτουν διαμερίσματα που προστέθηκαν πρόσφατα στον Κατάλογο δεδομένων κόλλας AWS. Τα προγράμματα ανίχνευσης ενημερώνουν επίσης την πιο πρόσφατη τοποθεσία του αρχείου μεταδεδομένων στον Κατάλογο δεδομένων κόλλας AWS που μπορούν να χρησιμοποιήσουν απευθείας οι αναλυτικές μηχανές AWS.
Αυτή η ανάρτηση δείχνει πώς λειτουργεί αυτή η νέα δυνατότητα ανίχνευσης πινάκων Hudi.
Πώς λειτουργεί ο ανιχνευτής AWS Glue με πίνακες Hudi
Οι πίνακες Hudi έχουν δύο κατηγορίες, με συγκεκριμένες επιπτώσεις για καθεμία:
- Αντιγραφή σε εγγραφή (CoW) – Τα δεδομένα αποθηκεύονται σε μορφή στήλης (Parquet) και κάθε ενημέρωση δημιουργεί μια νέα έκδοση αρχείων κατά τη διάρκεια μιας εγγραφής.
- Συγχώνευση κατά την ανάγνωση (MoR) – Τα δεδομένα αποθηκεύονται χρησιμοποιώντας έναν συνδυασμό μορφών στηλών (Parquet) και σειρών (Avro). Οι ενημερώσεις καταγράφονται σε σειρά
delta
αρχεία και συμπυκνώνονται όπως απαιτείται για τη δημιουργία νέων εκδόσεων των στηλών αρχείων.
Με τα σύνολα δεδομένων CoW, κάθε φορά που υπάρχει ενημέρωση σε μια εγγραφή, το αρχείο που περιέχει την εγγραφή ξαναγράφεται με τις ενημερωμένες τιμές. Με ένα σύνολο δεδομένων MoR, κάθε φορά που υπάρχει ενημέρωση, ο Hudi γράφει μόνο τη σειρά για την αλλαγμένη εγγραφή. Το MoR είναι πιο κατάλληλο για βαρύ φόρτο εργασίας εγγραφής ή αλλαγής με λιγότερες αναγνώσεις. Το CoW είναι καλύτερα κατάλληλο για βαρύ φόρτο εργασίας σε δεδομένα που αλλάζουν λιγότερο συχνά.
Το Hudi παρέχει τρεις τύπους ερωτημάτων για την πρόσβαση στα δεδομένα:
- Ερωτήματα στιγμιότυπου – Ερωτήματα που βλέπουν το πιο πρόσφατο στιγμιότυπο του πίνακα ως μια δεδομένη ενέργεια δέσμευσης ή συμπίεσης. Για πίνακες MoR, τα ερωτήματα στιγμιότυπου εκθέτουν την πιο πρόσφατη κατάσταση του πίνακα συγχωνεύοντας τα αρχεία βάσης και δέλτα του πιο πρόσφατου τμήματος αρχείου τη στιγμή του ερωτήματος.
- Αυξητικά ερωτήματα – Τα ερωτήματα βλέπουν μόνο νέα δεδομένα γραμμένα στον πίνακα, από μια δεδομένη δέσμευση ή συμπίεση. Αυτό παρέχει αποτελεσματικά ροές αλλαγών για να ενεργοποιηθούν οι αυξητικές σωληνώσεις δεδομένων.
- Διαβάστε βελτιστοποιημένα ερωτήματα – Για πίνακες MoR, τα ερωτήματα δείτε τα πιο πρόσφατα δεδομένα συμπιεσμένα. Για τους πίνακες CoW, τα ερωτήματα δείτε τα πιο πρόσφατα δεσμευμένα δεδομένα.
Για πίνακες αντιγραφής σε εγγραφή, τα προγράμματα ανίχνευσης δημιουργούν έναν ενιαίο πίνακα στον Κατάλογο δεδομένων κόλλας AWS με το ReadOptimized Serde org.apache.hudi.hadoop.HoodieParquetInputFormat
.
Για πίνακες συγχώνευσης κατά την ανάγνωση, τα προγράμματα ανίχνευσης δημιουργούν δύο πίνακες στον Κατάλογο δεδομένων AWS Glue για την ίδια θέση πίνακα:
- Ένας πίνακας με επίθημα
_ro
, το οποίο χρησιμοποιεί το ReadOptimized Serdeorg.apache.hudi.hadoop.HoodieParquetInputFormat
- Ένας πίνακας με επίθημα
_rt
, το οποίο χρησιμοποιεί το RealTime Serde που επιτρέπει ερωτήματα Snapshot:org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat
Κατά τη διάρκεια κάθε ανίχνευσης, για κάθε διαδρομή Hudi που παρέχεται, οι ανιχνευτές πραγματοποιούν μια κλήση API λίστας Amazon S3, φιλτράροντας με βάση το .hoodie
φακέλους και βρείτε το πιο πρόσφατο αρχείο μεταδεδομένων κάτω από αυτόν τον φάκελο μεταδεδομένων πίνακα Hudi.
Ανιχνεύστε ένα τραπέζι Hudi CoW χρησιμοποιώντας τον ανιχνευτή AWS Glue
Σε αυτήν την ενότητα, ας δούμε πώς να ανιχνεύσουμε μια αγελάδα Hudi χρησιμοποιώντας ανιχνευτές AWS Glue.
Προϋποθέσεις
Ακολουθούν οι προϋποθέσεις για αυτό το σεμινάριο:
- Εγκατάσταση και διαμόρφωση Διεπαφή γραμμής εντολών AWS (AWS CLI).
- Δημιουργήστε το S3 bucket σας αν δεν το έχετε.
- Δημιουργήστε τον δικό σας ρόλο IAM για την κόλλα AWS αν δεν το έχετε. Χρειάζεσαι
s3:GetObject
fors3://your_s3_bucket/data/sample_hudi_cow_table/
. - Εκτελέστε την ακόλουθη εντολή για να αντιγράψετε το δείγμα πίνακα Hudi στον κάδο S3. (Αντικαθιστώ
your_s3_bucket
με το όνομα του κάδου σας S3.)
Αυτή η οδηγία σάς καθοδηγεί να αντιγράψετε δείγματα δεδομένων, αλλά μπορείτε να δημιουργήσετε οποιουσδήποτε πίνακες Hudi εύκολα χρησιμοποιώντας το AWS Glue. Μάθετε περισσότερα στο Παρουσιάζοντας την εγγενή υποστήριξη για το Apache Hudi, το Delta Lake και το Apache Iceberg στο AWS Glue για το Apache Spark, Μέρος 2: AWS Glue Studio Visual Editor.
Δημιουργήστε έναν ανιχνευτή Hudi
Σε αυτήν την οδηγία, δημιουργήστε το πρόγραμμα ανίχνευσης μέσω της κονσόλας. Ολοκληρώστε τα παρακάτω βήματα για να δημιουργήσετε έναν ανιχνευτή Hudi:
- Στην κονσόλα κόλλας AWS, επιλέξτε Ανιχνευτές.
- Επιλέξτε Δημιουργία ανιχνευτή.
- Για Όνομα, εισαγω
hudi_cow_crawler
. Επιλέξτε Επόμενο. - Κάτω από Διαμόρφωση πηγής δεδομένων, επιλέξτε Προσθήκη πηγής δεδομένων.
- Για Πηγή δεδομένων, επιλέξτε Χούντι.
- Για Συμπεριλάβετε διαδρομές πίνακα hudi, εισαγω
s3://your_s3_bucket/data/sample_hudi_cow_table/
. (Αντικαθιστώyour_s3_bucket
με το όνομα του κάδου σας S3.) - Επιλέξτε Προσθήκη πηγής δεδομένων Hudi.
- Επιλέξτε Επόμενο.
- Για Υπάρχων ρόλος IAM, επιλέξτε τον ρόλο σας στο IAM και μετά επιλέξτε Επόμενο.
- Για Βάση δεδομένων στόχου, επιλέξτε Προσθήκη βάσης δεδομένων, μετά το Προσθήκη βάσης δεδομένων εμφανίζεται το παράθυρο διαλόγου. Για Ονομα βάσης δεδομένων, εισαγω
hudi_crawler_blog
, κατόπιν επιλέξτε Δημιουργία. Επιλέξτε Επόμενο. - Επιλέξτε Δημιουργία ανιχνευτή.
Τώρα δημιουργήθηκε με επιτυχία ένας νέος ανιχνευτής Hudi. Ο ανιχνευτής μπορεί να ενεργοποιηθεί για να τρέξει μέσω της κονσόλας ή μέσω του SDK ή του AWS CLI χρησιμοποιώντας το StartCrawl
API. Θα μπορούσε επίσης να προγραμματιστεί μέσω της κονσόλας για την ενεργοποίηση των ανιχνευτών σε συγκεκριμένες ώρες. Σε αυτήν την οδηγία, περάστε το πρόγραμμα ανίχνευσης μέσω της κονσόλας.
- Επιλέξτε Εκτελέστε το πρόγραμμα ανίχνευσης.
- Περιμένετε να ολοκληρωθεί ο ανιχνευτής.
Μετά την εκτέλεση του προγράμματος ανίχνευσης, μπορείτε να δείτε τον ορισμό του πίνακα Hudi στην κονσόλα AWS Glue:
Ανιχνεύσατε με επιτυχία τον πίνακα Hudi CoR με δεδομένα στο Amazon S3 και δημιουργήσατε έναν πίνακα AWS Glue Data Catalog με το σχήμα συμπληρωμένο. Αφού δημιουργήσετε τον ορισμό του πίνακα στον Κατάλογο δεδομένων κόλλας AWS, οι υπηρεσίες ανάλυσης AWS όπως το Amazon Athena μπορούν να υποβάλουν ερωτήματα στον πίνακα Hudi.
Ολοκληρώστε τα παρακάτω βήματα για να ξεκινήσετε ερωτήματα στο Athena:
- Ανοίξτε την κονσόλα Amazon Athena.
- Εκτελέστε το ακόλουθο ερώτημα.
Το παρακάτω στιγμιότυπο οθόνης δείχνει την έξοδο μας:
Ανιχνεύστε έναν πίνακα Hudi MoR χρησιμοποιώντας το πρόγραμμα ανίχνευσης AWS Glue με δικαιώματα δεδομένων AWS Lake Formation
Σε αυτήν την ενότητα, ας δούμε πώς να ανιχνεύσουμε έναν πίνακα Hudi MoR χρησιμοποιώντας την κόλλα AWS. Αυτή τη φορά, χρησιμοποιείτε την άδεια δεδομένων AWS Lake Formation για ανίχνευση πηγών δεδομένων Amazon S3 αντί για άδεια IAM και Amazon S3. Αυτό είναι προαιρετικό, αλλά απλοποιεί τις διαμορφώσεις αδειών όταν η διαχείριση της λίμνης δεδομένων σας γίνεται από τα δικαιώματα AWS Lake Formation.
Προϋποθέσεις
Ακολουθούν οι προϋποθέσεις για αυτό το σεμινάριο:
- Εγκατάσταση και διαμόρφωση Διεπαφή γραμμής εντολών AWS (AWS CLI).
- Δημιουργήστε το S3 bucket σας αν δεν το έχετε.
- Δημιουργήστε τον δικό σας ρόλο IAM για την κόλλα AWS αν δεν το έχετε. Χρειάζεσαι
lakeformation:GetDataAccess
. Αλλά δεν χρειάζεταιs3:GetObject
fors3://your_s3_bucket/data/sample_hudi_mor_table/
επειδή χρησιμοποιούμε την άδεια δεδομένων Lake Formation για πρόσβαση στα αρχεία. - Εκτελέστε την ακόλουθη εντολή για να αντιγράψετε το δείγμα πίνακα Hudi στον κάδο S3. (Αντικαθιστώ
your_s3_bucket
με το όνομα του κάδου σας S3.)
Εκτός από τα βήματα επεξεργασίας, ολοκληρώστε τα ακόλουθα βήματα για να ενημερώσετε τις ρυθμίσεις του AWS Glue Data Catalog για να χρησιμοποιήσετε τα δικαιώματα Lake Formation για τον έλεγχο των πόρων του καταλόγου αντί για τον έλεγχο πρόσβασης που βασίζεται στο IAM:
- Συνδεθείτε στην κονσόλα Lake Formation ως διαχειριστής της λίμνης δεδομένων.
- Εάν αυτή είναι η πρώτη φορά που αποκτάτε πρόσβαση στην κονσόλα Lake Formation, προσθέστε τον εαυτό σας ως διαχειριστή της λίμνης δεδομένων.
- Κάτω από Διαχείριση, επιλέξτε Ρυθμίσεις καταλόγου δεδομένων.
- Για Προεπιλεγμένα δικαιώματα για βάσεις δεδομένων και πίνακες που δημιουργήθηκαν πρόσφατα, αποεπιλέξτε Χρησιμοποιήστε μόνο έλεγχο πρόσβασης IAM για νέες βάσεις δεδομένων και Χρησιμοποιήστε μόνο τον έλεγχο πρόσβασης IAM για νέους πίνακες σε νέες βάσεις δεδομένων.
- Για Ρύθμιση έκδοσης μεταξύ λογαριασμών, επιλέξτε Έκδοση 3.
- Επιλέξτε Αποθήκευση.
Το επόμενο βήμα είναι να καταχωρήσετε τον κάδο S3 στις τοποθεσίες λιμνών δεδομένων σχηματισμού λίμνης:
- Στην κονσόλα Lake Formation, επιλέξτε Τοποθεσίες λιμνών δεδομένων, και επιλέξτε Εγγραφή τοποθεσίας.
- Για Διαδρομή Amazon S3, εισαγω
s3://your_s3_bucket/
. (Αντικαθιστώyour_s3_bucket
με το όνομα του κάδου σας S3.) - Επιλέξτε Εγγραφή τοποθεσίας.
Στη συνέχεια, εκχωρήστε στο Glue Crawler πρόσβαση ρόλου ανιχνευτή στη θέση δεδομένων, ώστε ο ανιχνευτής να μπορεί να χρησιμοποιήσει την άδεια Lake Formation για πρόσβαση στα δεδομένα και τη δημιουργία πινάκων στην τοποθεσία:
- Στην κονσόλα Lake Formation, επιλέξτε Τοποθεσίες δεδομένων Και επιλέξτε Επιχορήγηση.
- Για Χρήστες και ρόλοι IAM, επιλέξτε τον ρόλο IAM που χρησιμοποιήσατε για το πρόγραμμα ανίχνευσης.
- Για Τοποθεσία αποθήκευσης, εισαγω
s3://your_s3_bucket/data
/. (Αντικαθιστώyour_s3_bucket
με το όνομα του κάδου σας S3.) - Επιλέξτε Επιχορήγηση.
Στη συνέχεια, εκχωρήστε ρόλο ανιχνευτή για τη δημιουργία πινάκων κάτω από τη βάση δεδομένων hudi_crawler_blog
:
- Στην κονσόλα Lake Formation, επιλέξτε Άδειες λίμνης δεδομένων.
- Επιλέξτε Επιχορήγηση.
- Για Διευθυντές, επιλέξτε Χρήστες και ρόλοι IAMκαι επιλέξτε τον ρόλο του ανιχνευτή.
- Για Ετικέτες LF ή πόροι καταλόγου, επιλέξτε Επώνυμοι πόροι καταλόγου δεδομένων.
- Για βάση δεδομένων, επιλέξτε τη βάση δεδομένων
hudi_crawler_blog
. - Κάτω από Άδειες βάσης δεδομένων, Επιλέξτε Δημιουργία πίνακα.
- Επιλέξτε Επιχορήγηση.
Δημιουργήστε ένα πρόγραμμα ανίχνευσης Hudi με δικαιώματα δεδομένων Lake Formation
Ολοκληρώστε τα παρακάτω βήματα για να δημιουργήσετε έναν ανιχνευτή Hudi:
- Στην κονσόλα κόλλας AWS, επιλέξτε Ανιχνευτές.
- Επιλέξτε Δημιουργία ανιχνευτή.
- Για Όνομα, εισαγω
hudi_mor_crawler
. Επιλέξτε Επόμενο. - Κάτω από Διαμόρφωση πηγής δεδομένων, επιλέξτε Προσθήκη πηγής δεδομένων.
- Για Πηγή δεδομένων, επιλέξτε Χούντι.
- Για Συμπεριλάβετε διαδρομές πίνακα hudi, εισαγω
s3://your_s3_bucket/data/sample_hudi_mor_table
/. (Αντικαθιστώyour_s3_bucket
με το όνομα του κάδου σας S3.) - Επιλέξτε Προσθήκη πηγής δεδομένων Hudi.
- Επιλέξτε Επόμενο.
- Για Υπάρχων ρόλος IAM, επιλέξτε το ρόλο σας στο IAM.
- Κάτω από Διαμόρφωση σχηματισμού λίμνης – προαιρετική, Επιλέξτε Χρησιμοποιήστε τα διαπιστευτήρια Lake Formation για την ανίχνευση της πηγής δεδομένων S3.
- Επιλέξτε Επόμενο.
- Για Βάση δεδομένων στόχου, επιλέξτε
hudi_crawler_blog
. Επιλέξτε Επόμενο. - Επιλέξτε Δημιουργία ανιχνευτή.
Τώρα δημιουργήθηκε με επιτυχία ένας νέος ανιχνευτής Hudi. Το πρόγραμμα ανίχνευσης χρησιμοποιεί διαπιστευτήρια Lake Formation για την ανίχνευση αρχείων Amazon S3. Ας εκτελέσουμε το νέο πρόγραμμα ανίχνευσης:
- Επιλέξτε Εκτελέστε το πρόγραμμα ανίχνευσης.
- Περιμένετε να ολοκληρωθεί ο ανιχνευτής.
Μετά την εκτέλεση του προγράμματος ανίχνευσης, μπορείτε να δείτε δύο πίνακες του ορισμού του πίνακα Hudi στην κονσόλα AWS Glue:
sample_hudi_mor_table_ro
(διαβάστε τον βελτιστοποιημένο πίνακα)sample_hudi_mor_table_rt
(πίνακας πραγματικού χρόνου)
Καταχωρίσατε τον κάδο δεδομένων λίμνης στο Lake Formation και ενεργοποιήσατε την πρόσβαση ανίχνευσης στη λίμνη δεδομένων χρησιμοποιώντας τα δικαιώματα Lake Formation. Ανιχνεύσατε με επιτυχία τον πίνακα Hudi MoR με δεδομένα στο Amazon S3 και δημιουργήσατε έναν πίνακα AWS Glue Data Catalog με το σχήμα συμπληρωμένο. Αφού δημιουργήσετε τους ορισμούς πινάκων στον Κατάλογο δεδομένων κόλλας AWS, οι υπηρεσίες ανάλυσης AWS όπως το Amazon Athena μπορούν να υποβάλουν ερωτήματα στον πίνακα Hudi.
Ολοκληρώστε τα παρακάτω βήματα για να ξεκινήσετε ερωτήματα στο Athena:
- Ανοίξτε την κονσόλα Amazon Athena.
- Εκτελέστε το ακόλουθο ερώτημα.
Το παρακάτω στιγμιότυπο οθόνης δείχνει την έξοδο μας:
- Εκτελέστε το ακόλουθο ερώτημα.
Το παρακάτω στιγμιότυπο οθόνης δείχνει την έξοδο μας:
Λεπτός έλεγχος πρόσβασης με χρήση αδειών AWS Lake Formation
Για να εφαρμόσετε λεπτομερή έλεγχο πρόσβασης στον πίνακα Hudi, μπορείτε να επωφεληθείτε από τα δικαιώματα AWS Lake Formation. Τα δικαιώματα του Lake Formation σάς επιτρέπουν να περιορίσετε την πρόσβαση σε συγκεκριμένους πίνακες, στήλες ή σειρές και, στη συνέχεια, να υποβάλετε ερωτήματα στους πίνακες Hudi μέσω του Amazon Athena με λεπτομερή έλεγχο πρόσβασης. Ας διαμορφώσουμε την άδεια Lake Formation για τον πίνακα Hudi MoR.
Προϋποθέσεις
Ακολουθούν οι προϋποθέσεις για αυτό το σεμινάριο:
- Συμπληρώστε την προηγούμενη ενότητα Ανιχνεύστε έναν πίνακα Hudi MoR χρησιμοποιώντας το πρόγραμμα ανίχνευσης AWS Glue με δικαιώματα δεδομένων AWS Lake Formation.
- Δημιουργήστε έναν χρήστη IAM DataAnalyst, ο οποίος διαθέτει πολιτική διαχείρισης AWS AmazonAthenaFullAccess.
Δημιουργήστε ένα φίλτρο κυψελών δεδομένων Lake Formation
Ας ρυθμίσουμε πρώτα ένα φίλτρο για τον βελτιστοποιημένο πίνακα ανάγνωσης MoR.
- Συνδεθείτε στην κονσόλα Lake Formation ως διαχειριστής της λίμνης δεδομένων.
- Επιλέξτε Φίλτρα δεδομένων.
- Επιλέξτε Δημιουργία νέου φίλτρου.
- Για Όνομα φίλτρου δεδομένων, εισαγω
exclude_product_price
. - Για Βάση δεδομένων στόχου, επιλέξτε τη βάση δεδομένων
hudi_crawler_blog
. - Για Πίνακας στόχων, επιλέξτε τον πίνακα
sample_hudi_mor_table_ro
. - Για Επίπεδο στήλης πρόσβαση, επιλογή Εξαίρεση στηλώνκαι επιλέξτε την τιμή στήλης.
- Για Έκφραση φίλτρου σειράς, εισαγω
true
. - Επιλέξτε Δημιουργία φίλτρου.
Παραχωρήστε δικαιώματα Lake Formation στον χρήστη του DataAnalyst
Ολοκληρώστε τα παρακάτω βήματα για να παραχωρήσετε άδεια για το Lake Formation στο DataAnalyst
χρήστη
- Στην κονσόλα Lake Formation, επιλέξτε Άδειες λίμνης δεδομένων.
- Επιλέξτε Επιχορήγηση.
- Για Διευθυντές, επιλέξτε Χρήστες και ρόλοι IAMκαι επιλέξτε τον χρήστη
DataAnalyst
. - Για Ετικέτες LF ή πόροι καταλόγου, επιλέξτε Επώνυμοι πόροι καταλόγου δεδομένων.
- Για βάση δεδομένων, επιλέξτε τη βάση δεδομένων
hudi_crawler_blog
. - Για Πίνακας - προαιρετικό, επιλέξτε τον πίνακα
sample_hudi_mor_table_ro
. - Για Φίλτρα δεδομένων – προαιρετικά, επιλέξτε
exclude_product_price
. - Για Δικαιώματα φίλτρου δεδομένων, Επιλέξτε Αγορά.
- Επιλέξτε Επιχορήγηση.
Παραχωρήσατε άδεια στο Lake Formation στη βάση δεδομένων hudi_crawler_blog
και το τραπέζι sample_hudi_mor_table_ro
, εξαιρουμένης της στήλης price
στον χρήστη DataAnalyst. Τώρα ας επικυρώσουμε την πρόσβαση των χρηστών στα δεδομένα χρησιμοποιώντας το Athena.
- Συνδεθείτε στην κονσόλα Athena ως χρήστης του DataAnalyst.
- Στο πρόγραμμα επεξεργασίας ερωτημάτων, εκτελέστε το ακόλουθο ερώτημα:
Το παρακάτω στιγμιότυπο οθόνης δείχνει την έξοδο μας:
Τώρα επικυρώσατε ότι η στήλη price
δεν εμφανίζεται, αλλά οι άλλες στήλες product_id
, product_name
, update_at
, να category
δειχνονται.
εκκαθάριση
Για να αποφύγετε ανεπιθύμητες χρεώσεις στον λογαριασμό σας AWS, διαγράψτε τους ακόλουθους πόρους AWS:
- Διαγράψτε τη βάση δεδομένων AWS Glue
hudi_crawler_blog
. - Διαγράψτε τα προγράμματα ανίχνευσης AWS Glue
hudi_cow_crawler
καιhudi_mor_crawler
. - Διαγράψτε τα αρχεία Amazon S3 κάτω από
s3://your_s3_bucket/data/sample_hudi_cow_table/
καιs3://your_s3_bucket/data/sample_hudi_mor_table/
.
Συμπέρασμα
Αυτή η ανάρτηση έδειξε πώς λειτουργούν οι ανιχνευτές AWS Glue για πίνακες Hudi. Με την υποστήριξη για το πρόγραμμα ανίχνευσης Hudi, μπορείτε να μεταβείτε γρήγορα στη χρήση του AWS Glue Data Catalog ως κύριου καταλόγου επιτραπέζιων Hudi. Μπορείτε να ξεκινήσετε τη δημιουργία της λίμνης δεδομένων συναλλαγών σας χωρίς διακομιστή χρησιμοποιώντας Hudi σε AWS χρησιμοποιώντας AWS Glue, AWS Glue Data Catalog και λεπτομερή στοιχεία ελέγχου πρόσβασης Lake Formation για πίνακες και μορφές που υποστηρίζονται από αναλυτικούς κινητήρες AWS.
Σχετικά με τους συγγραφείς
Νόριτακα Σεκιγιάμα είναι Κύριος Αρχιτέκτονας Μεγάλων Δεδομένων στην ομάδα AWS Glue. Εργάζεται με έδρα το Τόκιο της Ιαπωνίας. Είναι υπεύθυνος για την κατασκευή τεχνουργημάτων λογισμικού για να βοηθήσει τους πελάτες. Στον ελεύθερο χρόνο του, απολαμβάνει την ποδηλασία με το ποδήλατό του δρόμου.
Kyle Duong είναι Μηχανικός Ανάπτυξης Λογισμικού στην ομάδα AWS Glue and Lake Formation. Είναι παθιασμένος με την κατασκευή τεχνολογιών μεγάλων δεδομένων και κατανεμημένων συστημάτων.
Sandeep Adwankar είναι Ανώτερος Τεχνικός Διευθυντής Προϊόντων στην AWS. Με έδρα το California Bay Area, συνεργάζεται με πελάτες σε όλο τον κόσμο για να μεταφράσει τις επιχειρηματικές και τεχνικές απαιτήσεις σε προϊόντα που επιτρέπουν στους πελάτες να βελτιώσουν τον τρόπο διαχείρισης, ασφάλειας και πρόσβασης στα δεδομένα.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/introducing-apache-hudi-support-with-aws-glue-crawlers/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 10
- 100
- 11
- 13
- 17
- 67
- 7
- 8
- 9
- a
- Ικανός
- Σχετικα
- πρόσβαση
- Πρόσβαση σε δεδομένα
- πρόσβαση
- Λογαριασμός
- Ενέργειες
- προσθέτω
- προστιθέμενη
- Επιπλέον
- θετός
- Υιοθεσία
- προηγμένες
- Μετά το
- Όλα
- επιτρέπουν
- Επιτρέποντας
- επιτρέπει
- Επίσης
- Amazon
- Αμαζόν Αθηνά
- Amazon υπηρεσίες Web
- an
- Αναλυτικός
- analytics
- και
- Άλλος
- κάθε
- Apache
- Apache Spark
- api
- εμφανίζεται
- Εφαρμογή
- Ανάπτυξη Εφαρμογών
- Εφαρμογή
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- AS
- At
- αυτομάτως
- αποφύγετε
- AWS
- Κόλλα AWS
- Σχηματισμός Λίμνης AWS
- βάση
- βασίζονται
- Κόλπος
- BE
- επειδή
- ήταν
- όφελος
- Καλύτερα
- Μεγάλος
- Big Data
- Φέρνει
- Κτίριο
- χτισμένο
- επιχείρηση
- αλλά
- by
- Καλιφόρνια
- κλήση
- CAN
- δυνατότητες
- ικανότητα
- περίπτωση
- κατάλογος
- καταλόγους
- κατηγορίες
- κύτταρο
- προκλήσεις
- αλλαγή
- άλλαξε
- Αλλαγές
- φορτία
- Επιλέξτε
- Στήλη
- Στήλες
- συνδυασμός
- διαπράττουν
- δεσμεύεται
- πλήρης
- συγκρότημα
- συστατικό
- διαμόρφωση
- πρόξενος
- Περιέχει
- περιεχόμενο
- συνεχώς
- έλεγχος
- ελέγχους
- θα μπορούσε να
- έρπων
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- Διαπιστεύσεις
- Πελάτες
- ημερομηνία
- ολοκλήρωση δεδομένων
- Λίμνη δεδομένων
- αποθήκη δεδομένων
- βάση δεδομένων
- βάσεις δεδομένων
- σύνολα δεδομένων
- ορισμός
- ορισμοί
- Δέλτα
- κατέδειξε
- καταδεικνύει
- βάθος
- Ανάπτυξη
- κατευθείαν
- ανακαλύπτουν
- διανέμονται
- κατανεμημένα συστήματα
- do
- κάνει
- κατά την διάρκεια
- κάθε
- ευκολότερη
- εύκολα
- συντάκτης
- αποτελεσματικά
- αποτελεσματικός
- ενεργοποιήσετε
- ενεργοποιημένη
- μηχανικός
- Μηχανικοί
- Κινητήρες
- εισάγετε
- Αιθέρας (ΕΤΗ)
- εξελίσσεται
- Με εξαίρεση
- εκχύλισμα
- γρηγορότερα
- λιγότερα
- Αρχεία
- Αρχεία
- φιλτράρισμα
- Φίλτρα
- Εύρεση
- Όνομα
- πρώτη φορά
- Εξής
- Για
- μορφή
- σχηματισμός
- συχνά
- από
- δεδομένου
- σφαίρα
- Go
- χορηγεί
- χορηγείται
- Οδηγοί
- Hadoop
- Έχω
- he
- βοήθεια
- βοηθά
- του
- Κυψέλη
- Πως
- Πώς να
- HTML
- HTTPS
- IAM
- if
- επιπτώσεις
- βελτίωση
- in
- Συμπεριλαμβανομένου
- οριακό
- πληροφορίες
- αντί
- ενσωματώσει
- ολοκλήρωση
- περιβάλλον λειτουργίας
- σε
- εισάγοντας
- IT
- Ιαπωνία
- jpg
- τήρηση
- λίμνη
- λίμνες
- αργότερο
- ξεκινήσει
- ΜΑΘΑΊΝΩ
- μάθηση
- μείον
- LIMIT
- γραμμή
- Λιστα
- που βρίσκεται
- τοποθεσία
- θέσεις
- καταγραφεί
- μηχανή
- μάθηση μηχανής
- Η διατήρηση
- κάνω
- ΚΑΝΕΙ
- διαχείριση
- διαχειρίζεται
- διευθυντής
- διαχείριση
- Ταχύτητες
- ανώτατο όριο
- συγχώνευση
- Μεταδεδομένα
- μεταναστεύουν
- μετανάστευση
- ML
- περισσότερο
- πλέον
- μετακινήσετε
- πολλαπλούς
- όνομα
- ντόπιος
- Ανάγκη
- που απαιτούνται
- Νέα
- πρόσφατα
- επόμενη
- τώρα
- of
- on
- ONE
- αποκλειστικά
- ανοίξτε
- ανοικτού κώδικα
- βελτιστοποιημένη
- Επιλογή
- or
- ΑΛΛΑ
- δικός μας
- παραγωγή
- μέρος
- παθιασμένος
- μονοπάτι
- μονοπάτια
- επίδοση
- άδεια
- δικαιώματα
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δημοφιλής
- κατοικημένη περιοχή
- Θέση
- Προετοιμάστε
- προαπαιτούμενα
- προηγούμενος
- τιμή
- πρωταρχικός
- Κύριος
- μεταποίηση
- Προϊόν
- υπεύθυνος προϊόντων
- Προϊόντα
- παρέχουν
- παρέχεται
- παρέχει
- ερωτήματα
- γρήγορα
- Διάβασε
- πραγματικός
- σε πραγματικό χρόνο
- πραγματικός χρόνος
- πρόσφατος
- ρεκόρ
- κάντε ΕΓΓΡΑΦΗ
- καταχωρηθεί
- αντικαθιστώ
- απαιτήσεις
- Υποστηρικτικό υλικό
- υπεύθυνος
- περιορίζω
- δρόμος
- Ρόλος
- ΣΕΙΡΑ
- τρέξιμο
- ίδιο
- πρόγραμμα
- προγραμματιστεί
- SDK
- Τμήμα
- προστατευμένο περιβάλλον
- δείτε
- επιλέξτε
- αρχαιότερος
- Χωρίς διακομιστή
- υπηρεσία
- Υπηρεσίες
- σειρά
- ρυθμίσεις
- παρουσιάζεται
- Δείχνει
- απλοποιεί
- αφού
- ενιαίας
- Φέτα
- Στιγμιότυπο
- So
- λογισμικό
- ανάπτυξη λογισμικού
- Πηγή
- Πηγές
- Σπινθήρας
- συγκεκριμένες
- Εκκίνηση
- Κατάσταση
- Βήμα
- Βήματα
- αποθηκεύονται
- ροής
- ροές
- στούντιο
- Επιτυχώς
- τέτοιος
- υποστήριξη
- υποστηριζόνται!
- συγχρονισμός
- συστήματα
- τραπέζι
- Τεχνικός
- Τεχνολογίες
- ότι
- Η
- τους
- τότε
- Εκεί.
- αυτοί
- αυτό
- τρία
- Μέσω
- ώρα
- φορές
- προς την
- Τόκιο
- κορυφή
- συναλλακτική
- Συναλλαγές
- μεταφράζω
- διασχίζω
- ενεργοποιούν
- ενεργοποιήθηκε
- φροντιστήριο
- δύο
- τύποι
- τυπικός
- υπό
- ανεπιθύμητος
- Ενημέρωση
- ενημερώθηκε
- ενημερώσεις
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- Χρήστες
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- ΕΠΙΚΥΡΩΝΩ
- επικυρωμένο
- Αξίες
- εκδοχή
- οπτικές
- Αποθήκη
- we
- ιστός
- διαδικτυακές υπηρεσίες
- ΛΟΙΠΌΝ
- πότε
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- θα
- με
- χωρίς
- Εργασία
- λειτουργεί
- γράφω
- γραπτή
- εσείς
- Σας
- τον εαυτό σας
- zephyrnet