Συνθέστε τις εργασίες σας ETL για MongoDB Atlas με κόλλα AWS

Συνθέστε τις εργασίες σας ETL για MongoDB Atlas με κόλλα AWS

Κόμβος πηγής: 2634433

Στο σημερινό επιχειρηματικό περιβάλλον που βασίζεται στα δεδομένα, οι οργανισμοί αντιμετωπίζουν την πρόκληση της αποτελεσματικής προετοιμασίας και μετατροπής μεγάλων ποσοτήτων δεδομένων για σκοπούς ανάλυσης και επιστήμης δεδομένων. Οι επιχειρήσεις πρέπει να δημιουργήσουν αποθήκες δεδομένων και λίμνες δεδομένων με βάση τα λειτουργικά δεδομένα. Αυτό οφείλεται στην ανάγκη συγκέντρωσης και ενοποίησης δεδομένων που προέρχονται από διαφορετικές πηγές.

Ταυτόχρονα, τα λειτουργικά δεδομένα προέρχονται συχνά από εφαρμογές που υποστηρίζονται από παλαιού τύπου αποθήκες δεδομένων. Ο εκσυγχρονισμός των εφαρμογών απαιτεί μια αρχιτεκτονική μικροϋπηρεσιών, η οποία με τη σειρά της απαιτεί την ενοποίηση δεδομένων από πολλαπλές πηγές για την κατασκευή ενός λειτουργικού χώρου αποθήκευσης δεδομένων. Χωρίς εκσυγχρονισμό, οι παλαιού τύπου εφαρμογές ενδέχεται να επιφέρουν αυξανόμενο κόστος συντήρησης. Ο εκσυγχρονισμός των εφαρμογών περιλαμβάνει την αλλαγή της υποκείμενης μηχανής βάσης δεδομένων σε μια σύγχρονη βάση δεδομένων που βασίζεται σε έγγραφα όπως η MongoDB.

Αυτές οι δύο εργασίες (κατασκευή λιμνών δεδομένων ή αποθηκών δεδομένων και εκσυγχρονισμός εφαρμογών) περιλαμβάνουν τη μετακίνηση δεδομένων, η οποία χρησιμοποιεί μια διαδικασία εξαγωγής, μετασχηματισμού και φόρτωσης (ETL). Η εργασία ETL είναι μια βασική λειτουργία για να έχετε μια καλά δομημένη διαδικασία προκειμένου να πετύχετε.

Κόλλα AWS είναι μια υπηρεσία ενοποίησης δεδομένων χωρίς διακομιστή που καθιστά εύκολη την ανακάλυψη, την προετοιμασία, τη μετακίνηση και την ενοποίηση δεδομένων από πολλαπλές πηγές για αναλυτικά στοιχεία, μηχανική εκμάθηση (ML) και ανάπτυξη εφαρμογών. MongoDB Άτλας είναι μια ολοκληρωμένη σουίτα βάσης δεδομένων cloud και υπηρεσιών δεδομένων που συνδυάζει επεξεργασία συναλλαγών, αναζήτηση βάσει συνάφειας, αναλυτικά στοιχεία σε πραγματικό χρόνο και συγχρονισμό δεδομένων από κινητό σε σύννεφο σε μια κομψή και ολοκληρωμένη αρχιτεκτονική.

Χρησιμοποιώντας το AWS Glue με MongoDB Atlas, οι οργανισμοί μπορούν να εξορθολογίσουν τις διαδικασίες ETL τους. Με την πλήρως διαχειριζόμενη, επεκτάσιμη και ασφαλή λύση βάσης δεδομένων, το MongoDB Atlas παρέχει ένα ευέλικτο και αξιόπιστο περιβάλλον για την αποθήκευση και τη διαχείριση επιχειρησιακών δεδομένων. Μαζί, το AWS Glue ETL και το MongoDB Atlas είναι μια ισχυρή λύση για οργανισμούς που θέλουν να βελτιστοποιήσουν τον τρόπο δημιουργίας λιμνών δεδομένων και αποθηκών δεδομένων και να εκσυγχρονίσουν τις εφαρμογές τους, προκειμένου να βελτιώσουν την απόδοση της επιχείρησης, να μειώσουν το κόστος και να οδηγήσουν στην ανάπτυξη και την επιτυχία.

Σε αυτήν την ανάρτηση, δείχνουμε πώς να μεταφέρετε δεδομένα από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κουβάδες στο MongoDB Atlas χρησιμοποιώντας AWS Glue ETL και πώς να εξαγάγετε δεδομένα από το MongoDB Atlas σε μια λίμνη δεδομένων που βασίζεται στο Amazon S3.

Επισκόπηση λύσεων

Σε αυτήν την ανάρτηση, διερευνούμε τις ακόλουθες περιπτώσεις χρήσης:

  • Εξαγωγή δεδομένων από MongoDB – Η MongoDB είναι μια δημοφιλής βάση δεδομένων που χρησιμοποιείται από χιλιάδες πελάτες για την αποθήκευση δεδομένων εφαρμογών σε κλίμακα. Οι εταιρικοί πελάτες μπορούν να συγκεντρώνουν και να ενσωματώνουν δεδομένα που προέρχονται από πολλαπλές αποθήκες δεδομένων δημιουργώντας λίμνες δεδομένων και αποθήκες δεδομένων. Αυτή η διαδικασία περιλαμβάνει την εξαγωγή δεδομένων από τις λειτουργικές αποθήκες δεδομένων. Όταν τα δεδομένα βρίσκονται σε ένα μέρος, οι πελάτες μπορούν να τα χρησιμοποιήσουν γρήγορα για ανάγκες επιχειρηματικής ευφυΐας ή για ML.
  • Απορρόφηση δεδομένων στο MongoDB – Το MongoDB χρησιμεύει επίσης ως βάση δεδομένων χωρίς SQL για την αποθήκευση δεδομένων εφαρμογών και τη δημιουργία λειτουργικών αποθηκών δεδομένων. Ο εκσυγχρονισμός των εφαρμογών συχνά περιλαμβάνει τη μετεγκατάσταση του λειτουργικού καταστήματος στο MongoDB. Οι πελάτες θα πρέπει να εξάγουν υπάρχοντα δεδομένα από σχεσιακές βάσεις δεδομένων ή από επίπεδα αρχεία. Οι εφαρμογές για κινητά και ιστός συχνά απαιτούν από τους μηχανικούς δεδομένων να δημιουργήσουν αγωγούς δεδομένων για να δημιουργήσουν μια ενιαία προβολή δεδομένων στον Άτλαντα, ενώ ταυτόχρονα απορροφούν δεδομένα από πολλαπλές πηγές. Κατά τη διάρκεια αυτής της μετεγκατάστασης, θα χρειαστεί να ενώσουν διαφορετικές βάσεις δεδομένων για να δημιουργήσουν έγγραφα. Αυτή η πολύπλοκη λειτουργία σύνδεσης θα χρειαζόταν σημαντική, εφάπαξ υπολογιστική ισχύ. Οι προγραμματιστές θα πρέπει επίσης να το δημιουργήσουν γρήγορα για να μεταφέρουν τα δεδομένα.

Το AWS Glue είναι χρήσιμο σε αυτές τις περιπτώσεις με το μοντέλο πληρωμής και την ικανότητά του να εκτελεί περίπλοκους μετασχηματισμούς σε τεράστια σύνολα δεδομένων. Οι προγραμματιστές μπορούν να χρησιμοποιήσουν το AWS Glue Studio για να δημιουργήσουν αποτελεσματικά τέτοιες σωλήνες δεδομένων.

Το παρακάτω διάγραμμα δείχνει τη ροή εργασιών εξαγωγής δεδομένων από το MongoDB Atlas σε έναν κάδο S3 χρησιμοποιώντας το AWS Glue Studio.

Εξαγωγή δεδομένων από MongoDB Atlas στο Amazon S3

Για να εφαρμόσετε αυτήν την αρχιτεκτονική, θα χρειαστείτε ένα σύμπλεγμα Atlas MongoDB, έναν κάδο S3 και ένα Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλος για το AWS Glue. Για να διαμορφώσετε αυτούς τους πόρους, ανατρέξτε στα προαπαιτούμενα βήματα που ακολουθούν GitHub repo.

Το παρακάτω σχήμα δείχνει τη ροή εργασίας φόρτωσης δεδομένων από έναν κάδο S3 στον Atlas MongoDB χρησιμοποιώντας κόλλα AWS.

Φόρτωση δεδομένων από το Amazon S3 στον Άτλαντα MongoDB

Οι ίδιες προϋποθέσεις χρειάζονται εδώ: ένας κάδος S3, ένας ρόλος IAM και ένα σύμπλεγμα Atlas MongoDB.

Φορτώστε δεδομένα από το Amazon S3 στο MongoDB Atlas χρησιμοποιώντας κόλλα AWS

Τα παρακάτω βήματα περιγράφουν τον τρόπο φόρτωσης δεδομένων από τον κάδο S3 στον Atlas MongoDB χρησιμοποιώντας μια εργασία κόλλας AWS. Η διαδικασία εξαγωγής από το MongoDB Atlas στο Amazon S3 είναι πολύ παρόμοια, με εξαίρεση το σενάριο που χρησιμοποιείται. Αναφέρουμε τις διαφορές μεταξύ των δύο διαδικασιών.

  1. Δημιουργήστε ένα δωρεάν σύμπλεγμα στο MongoDB Atlas.
  2. Ανεβάστε το δείγμα αρχείου JSON στον κάδο S3 σας.
  3. Δημιουργήστε μια νέα εργασία AWS Glue Studio με το Πρόγραμμα επεξεργασίας σεναρίου Spark επιλογή.

Glue Studio Job Creation UI

  1. Ανάλογα με το αν θέλετε να φορτώσετε ή να εξαγάγετε δεδομένα από το σύμπλεγμα Atlas MongoDB, εισαγάγετε το φόρτωση σεναρίου or εξαγωγή σεναρίου στο πρόγραμμα επεξεργασίας σεναρίων AWS Glue Studio.

Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα απόσπασμα κώδικα για τη φόρτωση δεδομένων στο σύμπλεγμα Atlas MongoDB.

Απόσπασμα κώδικα για τη φόρτωση δεδομένων στον MongoDB Atlas

Ο κώδικας χρησιμοποιεί Διευθυντής μυστικών AWS για να ανακτήσετε το όνομα, το όνομα χρήστη και τον κωδικό πρόσβασης του συμπλέγματος MongoDB Atlas. Στη συνέχεια, δημιουργεί ένα DynamicFrame για τον κάδο S3 και το όνομα αρχείου μεταβιβάστηκαν στο σενάριο ως παράμετροι. Ο κώδικας ανακτά τη βάση δεδομένων και τα ονόματα συλλογής από τη διαμόρφωση παραμέτρων εργασίας. Τέλος, ο κώδικας γράφει το DynamicFrame στο σύμπλεγμα MongoDB Atlas χρησιμοποιώντας τις παραμέτρους που ανακτήθηκαν.

  1. Δημιουργήστε έναν ρόλο IAM με τα δικαιώματα όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.

Για περισσότερες λεπτομέρειες, ανατρέξτε στο Διαμορφώστε έναν ρόλο IAM για την εργασία σας ETL.

Δικαιώματα ρόλου IAM

  1. Δώστε στην εργασία ένα όνομα και δώστε τον ρόλο IAM που δημιουργήθηκε στο προηγούμενο βήμα στο Λεπτομέρειες εργασίας Tab.
  2. Μπορείτε να αφήσετε τις υπόλοιπες παραμέτρους ως προεπιλογές, όπως φαίνεται στα παρακάτω στιγμιότυπα οθόνης.
    λεπτομέρειες δουλειάΟι λεπτομέρειες της δουλειάς συνεχίστηκαν
  3. Στη συνέχεια, ορίστε τις παραμέτρους εργασίας που χρησιμοποιεί το σενάριο και δώστε τις προεπιλεγμένες τιμές.
    Παράμετροι εισαγωγής εργασίας
  4. Αποθηκεύστε την εργασία και εκτελέστε την.
  5. Για να επιβεβαιώσετε μια επιτυχημένη εκτέλεση, παρατηρήστε τα περιεχόμενα της συλλογής βάσης δεδομένων MongoDB Atlas εάν φορτώνετε τα δεδομένα ή τον κάδο S3 εάν εκτελούσατε ένα απόσπασμα.

Το ακόλουθο στιγμιότυπο οθόνης δείχνει τα αποτελέσματα μιας επιτυχημένης φόρτωσης δεδομένων από έναν κάδο Amazon S3 στο σύμπλεγμα Atlas MongoDB. Τα δεδομένα είναι πλέον διαθέσιμα για ερωτήματα στη διεπαφή χρήστη MongoDB Atlas.
Τα δεδομένα φορτώθηκαν στο σύμπλεγμα Atlas MongoDB

  1. Για να αντιμετωπίσετε προβλήματα με τις διαδρομές σας, ελέγξτε το amazoncloudwatch καταγράφει χρησιμοποιώντας τον σύνδεσμο στην εργασία τρέξιμο Tab.

Το παρακάτω στιγμιότυπο οθόνης δείχνει ότι η εργασία εκτελέστηκε με επιτυχία, με πρόσθετες λεπτομέρειες, όπως συνδέσμους προς τα αρχεία καταγραφής του CloudWatch.

Λεπτομέρειες επιτυχημένης εργασίας

Συμπέρασμα

Σε αυτήν την ανάρτηση, περιγράψαμε τον τρόπο εξαγωγής και απορρόφησης δεδομένων στον MongoDB Atlas χρησιμοποιώντας κόλλα AWS.

Με τις εργασίες AWS Glue ETL, μπορούμε πλέον να μεταφέρουμε τα δεδομένα από το MongoDB Atlas σε πηγές συμβατές με το AWS Glue και αντίστροφα. Μπορείτε επίσης να επεκτείνετε τη λύση για τη δημιουργία αναλυτικών στοιχείων χρησιμοποιώντας υπηρεσίες AWS AI και ML.

Για να μάθετε περισσότερα, ανατρέξτε στο Αποθετήριο GitHub για οδηγίες βήμα προς βήμα και δείγμα κώδικα. Μπορείτε να προμηθευτείτε MongoDB Άτλας στο AWS Marketplace.


Σχετικά με τους Συγγραφείς

Ιγκόρ Αλεξέεφ είναι Senior Partner Solution Architect στην AWS στον τομέα δεδομένων και Analytics. Στο ρόλο του, ο Igor συνεργάζεται με στρατηγικούς εταίρους βοηθώντας τους να δημιουργήσουν περίπλοκες, βελτιστοποιημένες για AWS αρχιτεκτονικές. Πριν ενταχθεί στην AWS, ως Αρχιτέκτονας Δεδομένων/Λύσεων, υλοποίησε πολλά έργα στον τομέα Big Data, συμπεριλαμβανομένων πολλών λιμνών δεδομένων στο οικοσύστημα Hadoop. Ως Μηχανικός Δεδομένων συμμετείχε στην εφαρμογή AI/ML στον εντοπισμό απάτης και στον αυτοματισμό γραφείου.


Μπάμπου Σρινιβασάν
είναι Senior Partner Solutions Architect στη MongoDB. Στον τρέχοντα ρόλο του, εργάζεται με το AWS για να δημιουργήσει τις τεχνικές ενσωματώσεις και τις αρχιτεκτονικές αναφοράς για τις λύσεις AWS και MongoDB. Έχει πάνω από δύο δεκαετίες εμπειρίας στις τεχνολογίες Βάσεων Δεδομένων και Cloud. Είναι παθιασμένος με την παροχή τεχνικών λύσεων σε πελάτες που εργάζονται με πολλαπλούς Global System Integrators (GSI) σε πολλές γεωγραφικές περιοχές.

Σφραγίδα ώρας:

Περισσότερα από Μεγάλα δεδομένα AWS