Στον σημερινό κόσμο, οι πελάτες διαχειρίζονται τεράστιες ποσότητες δεδομένων Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) λίμνες δεδομένων, οι οποίες απαιτούν σύνθετους αγωγούς δεδομένων για να κατανοούν συνεχώς τις αλλαγές στη διάταξη δεδομένων και να τις καθιστούν διαθέσιμες σε καταναλωτικά συστήματα. Κόλλα AWS Οι ανιχνευτές παρέχουν έναν απλό τρόπο καταλογογράφησης δεδομένων στον Κατάλογο δεδομένων κόλλας AWS, ο οποίος καταργεί τη βαρύτητα όσον αφορά τη διαχείριση σχημάτων και την ταξινόμηση δεδομένων. Οι ανιχνευτές AWS Glue εξάγουν το σχήμα δεδομένων και τα διαμερίσματα από το Amazon S3 για να συμπληρώσουν αυτόματα τον Κατάλογο Δεδομένων, διατηρώντας τα μεταδεδομένα ενημερωμένα.
Αλλά με τα δεδομένα να αυξάνονται εκθετικά με την πάροδο του χρόνου, ο αριθμός των κατατμήσεων σε έναν δεδομένο πίνακα μπορεί να αυξηθεί σημαντικά. Επειδή οι υπηρεσίες ανάλυσης όπως Αμαζόν Αθηνά ερωτήστε έναν πίνακα που περιέχει εκατομμύρια κατατμήσεις, ο χρόνος που απαιτείται για την ανάκτηση του διαμερίσματος αυξάνεται και μπορεί να προκαλέσει αύξηση του χρόνου εκτέλεσης του ερωτήματος.
Σήμερα, η υποστήριξη του προγράμματος ανίχνευσης AWS Glue έχει επεκταθεί για να προσθέτει αυτόματα ευρετήρια διαμερισμάτων για πίνακες που ανακαλύφθηκαν πρόσφατα για τη βελτιστοποίηση της επεξεργασίας ερωτημάτων στο διαχωρισμένο σύνολο δεδομένων. Τώρα, όταν ο ανιχνευτής δημιουργεί έναν νέο πίνακα καταλόγου δεδομένων κατά τη διάρκεια μιας εκτέλεσης προγράμματος ανίχνευσης, δημιουργεί επίσης ένα ευρετήριο διαμερισμάτων από προεπιλογή, με τη μεγαλύτερη μετάθεση όλων των στηλών διαμερισμάτων αριθμητικής και συμβολοσειράς ως κλειδιά. Ο Κατάλογος Δεδομένων δημιουργεί στη συνέχεια ένα ευρετήριο με δυνατότητα αναζήτησης με βάση αυτά τα κλειδιά, μειώνοντας τον χρόνο που απαιτείται για την ανάκτηση και το φιλτράρισμα των μεταδεδομένων διαμερισμάτων σε πίνακες με εκατομμύρια κατατμήσεις. Η δημιουργία ευρετηρίων διαμερισμάτων ωφελεί τους φόρτους εργασίας των αναλυτικών στοιχείων που εκτελούνται στο Athena, EMR Αμαζονίου, Φάσμα Amazon Redshift, και κόλλα AWS.
Σε αυτήν την ανάρτηση, περιγράφουμε τον τρόπο δημιουργίας ευρετηρίων διαμερισμάτων με έναν ανιχνευτή AWS Glue και συγκρίνουμε τη βελτίωση της απόδοσης του ερωτήματος κατά την πρόσβαση στα ανιχνευμένα δεδομένα με και χωρίς ευρετήριο διαμερισμάτων από την Athena.
Επισκόπηση λύσεων
Χρησιμοποιούμε ένα AWS CloudFormation πρότυπο για τη δημιουργία των πόρων λύσης μας. Στα ακόλουθα βήματα, δείχνουμε πώς να ρυθμίσετε τον ανιχνευτή AWS Glue για τη δημιουργία ενός ευρετηρίου διαμερισμάτων χρησιμοποιώντας είτε την κονσόλα AWS Glue είτε την Διεπαφή γραμμής εντολών AWS (AWS CLI). Στη συνέχεια, συγκρίνουμε τις βελτιώσεις απόδοσης ερωτήματος χρησιμοποιώντας το Athena.
Προϋποθέσεις
Για να ακολουθήσετε αυτήν την ανάρτηση, πρέπει να έχετε πρόσβαση σε ένα Διαχείριση ταυτότητας και πρόσβασης AWS ρόλος διαχειριστή (IAM) για τη δημιουργία πόρων χρησιμοποιώντας το AWS CloudFormation.
Ρυθμίστε τους πόρους λύσης σας
Το πρότυπο CloudFormation δημιουργεί τους ακόλουθους πόρους:
- Ρόλοι και πολιτικές του IAM
- Μια βάση δεδομένων AWS Glue για τη διατήρηση του σχήματος
- Ένα πρόγραμμα ανίχνευσης AWS Glue που δείχνει σε ένα σύνολο δεδομένων με υψηλή κατανομή
- Μια ομάδα εργασίας και κάδος Athena για την αποθήκευση των αποτελεσμάτων ερωτημάτων
Ολοκληρώστε τα παρακάτω βήματα για να ρυθμίσετε τους πόρους λύσης:
- Συνδεθείτε στο Κονσόλα διαχείρισης AWS ως διαχειριστής IAM.
- Επιλέξτε Εκκίνηση στοίβας για να αναπτύξετε το πρότυπο CloudFormation:
- Για Ονομα βάσης δεδομένων, διατηρήστε την προεπιλογή
blog_partition_index_crawlerdb
. - Επιλέξτε Επόμενο.
- Ελέγξτε τις λεπτομέρειες στην τελική σελίδα και επιλέξτε Αναγνωρίζω ότι το AWS CloudFormation μπορεί να δημιουργήσει πόρους IAM.
- Επιλέξτε Δημιουργία στοίβας.
- Όταν ολοκληρωθεί η στοίβα, στην κονσόλα AWS CloudFormation, μεταβείτε στο Έξοδοι καρτέλα της στοίβας.
- Σημειώστε τις τιμές του
DatabaseName
καιGlueCrawlerName
.
Ορισμένοι από τους πόρους που αναπτύσσει αυτή η στοίβα συνεπάγονται κόστος όταν χρησιμοποιούνται.
Επεξεργαστείτε και εκτελέστε το πρόγραμμα ανίχνευσης AWS Glue
Για να διαμορφώσετε και να εκτελέσετε το πρόγραμμα ανίχνευσης AWS Glue, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα κόλλας AWS, επιλέξτε Ανιχνευτές στο παράθυρο πλοήγησης.
- Εντοπίστε το
crawler blog-partition-index-crawler
Και επιλέξτε Αλλαγή. - Στο Ρυθμίστε την έξοδο και τον προγραμματισμό ενότητα, κάτω από Επιλογές για προχωρημένους, Επιλέξτε Δημιουργήστε ευρετήρια κατατμήσεων αυτόματα.
- Ελέγξτε και ενημερώστε τις ρυθμίσεις του προγράμματος ανίχνευσης.
Εναλλακτικά, μπορείτε να διαμορφώσετε το πρόγραμμα ανίχνευσης χρησιμοποιώντας το AWS CLI (δώστε τον ρόλο και την περιοχή IAM σας):
- Τώρα εκτελέστε το πρόγραμμα ανίχνευσης και βεβαιωθείτε ότι η εκτέλεση του προγράμματος ανίχνευσης έχει ολοκληρωθεί.
Αυτό το σύνολο δεδομένων είναι εξαιρετικά κατατμημένο και θα χρειαστούν περίπου 90 λεπτά για να ολοκληρωθεί.
Επαληθεύστε τον διαμερισμένο πίνακα
Στη βάση δεδομένων AWS Glue blog_partition_index_crawlerdb
, επαληθεύστε ότι ο πίνακας highly_partitioned_table
δημιουργειται.
Από προεπιλογή, ο ανιχνευτής καθορίζει ένα ευρετήριο με βάση τη μεγαλύτερη μετάθεση στηλών διαμερισμάτων έγκυρων τύπων στηλών με την ίδια σειρά στηλών διαμερισμάτων, οι οποίες είναι είτε αριθμητικές είτε συμβολοσειρές. Για τον πίνακα που δημιουργήθηκε από το πρόγραμμα ανίχνευσης (highly_partitioned_table
), έχουμε στήλες διαμερισμάτων year
(σειρά), month
(σειρά), day
(χορδή), και hour
(σειρά).
Με βάση αυτόν τον ορισμό, ο ανιχνευτής δημιούργησε ένα ευρετήριο σχετικά με τη μετάθεση του έτους, του μήνα, της ημέρας και της ώρας. Ο ανιχνευτής δημιούργησε τα ευρετήρια με πρόθεμα με crawler_
σε οποιοδήποτε ευρετήριο διαμερισμάτων που δημιουργήθηκε από προεπιλογή.
Επιβεβαιώστε το ίδιο με πλοήγηση στον πίνακα highly_partitioned_table
στην κονσόλα AWS Glue και επιλέγοντας το Δείκτες Tab.
Το πρόγραμμα ανίχνευσης μπόρεσε να ανιχνεύσει την πηγή δεδομένων S3 και να συμπληρώσει με επιτυχία τα ευρετήρια διαμερισμάτων για τον πίνακα.
Συγκρίνετε τις βελτιώσεις απόδοσης ερωτήματος χρησιμοποιώντας το Athena
Αρχικά, ρωτάμε τον πίνακα στο Athena χωρίς να χρησιμοποιήσουμε το ευρετήριο διαμερισμάτων. Για να επαληθεύσετε τους πίνακες χρησιμοποιώντας το Athena, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα Athena, επιλέξτε
crawler-primary-workgroup
ως ομάδα εργασίας Αθηνά και επιλέξτε Αναγνωρίζω. - Εκτελέστε το ακόλουθο ερώτημα:
Το παρακάτω στιγμιότυπο οθόνης δείχνει ότι το ερώτημα χρειάστηκε περίπου 32 δευτερόλεπτα χωρίς να έχει ενεργοποιηθεί το φιλτράρισμα χρησιμοποιώντας το ευρετήριο διαμερισμάτων.
- Τώρα ενεργοποιούμε το ευρετήριο διαμερισμάτων στο ερώτημα Athena:
- Εκτελέστε ξανά το ακόλουθο ερώτημα και σημειώστε το χρόνο εκτέλεσης:
Το παρακάτω στιγμιότυπο οθόνης δείχνει ότι το ερώτημα χρειάστηκε μόνο 700 χιλιοστά του δευτερολέπτου, το οποίο είναι πολύ πιο γρήγορο με το φιλτράρισμα που είναι ενεργοποιημένο χρησιμοποιώντας το ευρετήριο διαμερισμάτων.
εκκαθάριση
Για να αποφύγετε ανεπιθύμητες χρεώσεις στον λογαριασμό σας AWS, μπορείτε να διαγράψετε τους πόρους AWS:
- Συνδεθείτε στην κονσόλα CloudFormation ως διαχειριστής IAM που χρησιμοποιήθηκε για τη δημιουργία της στοίβας CloudFormation.
- Διαγράψτε τη στοίβα CloudFormation που δημιουργήσατε.
Συμπέρασμα
Σε αυτήν την ανάρτηση, εξηγήσαμε πώς να ρυθμίσετε έναν ανιχνευτή AWS για τη δημιουργία ευρετηρίων διαμερισμάτων και συγκρίναμε την απόδοση του ερωτήματος κατά την πρόσβαση στα δεδομένα με ευρετήρια από το Athena.
Εάν δεν υπάρχουν ευρετήρια διαμερισμάτων στον πίνακα, το AWS Glue φορτώνει όλα τα διαμερίσματα του πίνακα και, στη συνέχεια, φιλτράρει τα φορτωμένα διαμερίσματα, γεγονός που οδηγεί σε αναποτελεσματική ανάκτηση μεταδεδομένων. Οι υπηρεσίες Analytics όπως το Redshift Spectrum, το Amazon EMR και το AWS Glue ETL Spark DataFrames μπορούν πλέον να χρησιμοποιούν ευρετήρια για την ανάκτηση κατατμήσεων, με αποτέλεσμα σημαντική απόδοση ερωτήματος.
Για περισσότερες πληροφορίες σχετικά με τα ευρετήρια διαμερισμάτων και την απόδοση ερωτημάτων σε διάφορους αναλυτικούς κινητήρες, ανατρέξτε στο Βελτιώστε την απόδοση ερωτημάτων Amazon Athena χρησιμοποιώντας ευρετήρια διαμερισμάτων AWS Glue Data Catalog και Βελτιώστε την απόδοση ερωτημάτων χρησιμοποιώντας ευρετήρια διαμερισμάτων AWS Glue.
Ιδιαίτερες ευχαριστίες σε όλους όσους συνέβαλαν στην κυκλοφορία αυτής της δυνατότητας ανίχνευσης: Yuhang Chen, Kyle Duong και Mita Gavade.
Σχετικά με τους συγγραφείς
Srividya Parthasarathy είναι Senior Big Data Architect στην ομάδα AWS Lake Formation. Της αρέσει να δημιουργεί λύσεις πλέγματος δεδομένων και να τις μοιράζεται με την κοινότητα.
Sandeep Adwankar είναι Ανώτερος Τεχνικός Διευθυντής Προϊόντων στην AWS. Με έδρα το California Bay Area, συνεργάζεται με πελάτες σε όλο τον κόσμο για να μεταφράσει τις επιχειρηματικές και τεχνικές απαιτήσεις σε προϊόντα που επιτρέπουν στους πελάτες να βελτιώσουν τον τρόπο διαχείρισης, ασφάλειας και πρόσβασης στα δεδομένα.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- EVM Finance. Ενιαία διεπαφή για αποκεντρωμένη χρηματοδότηση. Πρόσβαση εδώ.
- Quantum Media Group. Ενισχυμένο IR/PR. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- :έχει
- :είναι
- :που
- $UP
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- Ικανός
- πρόσβαση
- πρόσβαση
- Λογαριασμός
- αναγνωρίζω
- απέναντι
- προσθέτω
- διαχειριστής
- πάλι
- Όλα
- κατά μήκος
- Επίσης
- Amazon
- Αμαζόν Αθηνά
- EMR Αμαζονίου
- Amazon υπηρεσίες Web
- Ποσά
- an
- Αναλυτικός
- analytics
- και
- κάθε
- περίπου
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- AS
- At
- αυτομάτως
- διαθέσιμος
- αποφύγετε
- AWS
- AWS CloudFormation
- Κόλλα AWS
- Σχηματισμός Λίμνης AWS
- βασίζονται
- Κόλπος
- επειδή
- ήταν
- οφέλη
- Μεγάλος
- Big Data
- Κτίριο
- επιχείρηση
- by
- Καλιφόρνια
- CAN
- κατάλογος
- Αιτία
- Αλλαγές
- φορτία
- Chen
- Επιλέξτε
- επιλέγοντας
- ταξινόμηση
- Στήλη
- Στήλες
- έρχεται
- κοινότητα
- συγκρίνουν
- σύγκριση
- πλήρης
- πρόξενος
- συνεχώς
- συνέβαλε
- Δικαστικά έξοδα
- έρπων
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- δημιουργία
- Ρεύμα
- Πελάτες
- ημερομηνία
- πρόσβαση δεδομένων
- Λίμνη δεδομένων
- βάση δεδομένων
- ημέρα
- Προεπιλογή
- αποδεικνύουν
- παρατάσσω
- αναπτύσσεται
- περιγράφουν
- καθέκαστα
- καθορίζει
- ανακάλυψαν
- κάτω
- κατά την διάρκεια
- αποτελεσματικά
- είτε
- ενεργοποιήσετε
- ενεργοποιημένη
- Κινητήρες
- Αιθέρας (ΕΤΗ)
- όλοι
- επεκτάθηκε
- εξήγησε
- εκθετικά
- εκχύλισμα
- εξαγάγετε τα δεδομένα
- γρηγορότερα
- Χαρακτηριστικό
- φιλτράρισμα
- φιλτράρισμα
- Φίλτρα
- τελικός
- ακολουθήστε
- Εξής
- Για
- σχηματισμός
- από
- δημιουργεί
- δεδομένου
- σφαίρα
- Grow
- Μεγαλώνοντας
- Έχω
- he
- βαριά
- βαριά ανύψωση
- υψηλά
- κρατήστε
- ώρα
- Πως
- Πώς να
- HTML
- http
- HTTPS
- IAM
- Ταυτότητα
- βελτίωση
- βελτίωση
- βελτιώσεις
- in
- Αυξάνουν
- Αυξήσεις
- ευρετήριο
- δείκτες
- ανεπαρκής
- πληροφορίες
- σε
- IT
- jpg
- Διατήρηση
- τήρηση
- πλήκτρα
- λίμνη
- μεγαλύτερη
- ξεκινήσει
- σχέδιο
- ανύψωση
- Μου αρέσει
- γραμμή
- φορτία
- κάνω
- διαχείριση
- διαχείριση
- διευθυντής
- ματιών
- Μεταδεδομένα
- ενδέχεται να
- εκατομμύρια
- πρακτικά
- Μηνας
- περισσότερο
- πολύ
- πρέπει
- Πλοηγηθείτε
- πλοήγηση
- Πλοήγηση
- που απαιτούνται
- Νέα
- πρόσφατα
- Όχι.
- τώρα
- αριθμός
- of
- on
- αποκλειστικά
- Βελτιστοποίηση
- or
- τάξη
- δικός μας
- παραγωγή
- επί
- σελίδα
- παράθυρο
- μονοπάτι
- επίδοση
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Θέση
- παρόν
- μεταποίηση
- Προϊόν
- υπεύθυνος προϊόντων
- Προϊόντα
- παρέχουν
- μείωση
- περιοχή
- απαιτείται
- απαιτήσεις
- Απαιτεί
- Υποστηρικτικό υλικό
- με αποτέλεσμα
- Αποτελέσματα
- Ρόλος
- ρόλους
- τρέξιμο
- τρέξιμο
- ίδιο
- δευτερόλεπτα
- Τμήμα
- προστατευμένο περιβάλλον
- αρχαιότερος
- Υπηρεσίες
- σειρά
- ρυθμίσεις
- μοιράζονται
- αυτή
- Δείχνει
- σημαντικός
- σημαντικά
- Απλούς
- λύση
- Λύσεις
- Πηγή
- Σπινθήρας
- Φάσμα
- σωρός
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- ειλικρινής
- Σπάγγος
- Επιτυχώς
- υποστήριξη
- συστήματα
- τραπέζι
- Πάρτε
- Τεχνικός
- πρότυπο
- ευχαριστώ
- ότι
- Η
- τους
- Τους
- τότε
- Αυτοί
- αυτοί
- αυτό
- ώρα
- προς την
- σημερινή
- πήρε
- μεταφράζω
- αληθής
- τύπος
- τύποι
- υπό
- καταλαβαίνω
- ανεπιθύμητος
- Ενημέρωση
- χρήση
- μεταχειρισμένος
- χρησιμοποιώντας
- χρησιμοποιώ
- αξία
- Αξίες
- διάφορα
- Σταθερή
- επαληθεύει
- εκδοχή
- ήταν
- Τρόπος..
- we
- ιστός
- διαδικτυακές υπηρεσίες
- πότε
- Ποιό
- Ο ΟΠΟΊΟΣ
- θα
- με
- χωρίς
- Ομάδα εργασίας
- λειτουργεί
- κόσμος
- γιαμ
- έτος
- εσείς
- Σας
- zephyrnet