Στο σημερινό επιχειρηματικό περιβάλλον που βασίζεται στα δεδομένα, οι οργανισμοί αντιμετωπίζουν την πρόκληση της αποτελεσματικής προετοιμασίας και μετατροπής μεγάλων ποσοτήτων δεδομένων για σκοπούς ανάλυσης και επιστήμης δεδομένων. Οι επιχειρήσεις πρέπει να δημιουργήσουν αποθήκες δεδομένων και λίμνες δεδομένων με βάση τα λειτουργικά δεδομένα. Αυτό οφείλεται στην ανάγκη συγκέντρωσης και ενοποίησης δεδομένων που προέρχονται από διαφορετικές πηγές.
Ταυτόχρονα, τα λειτουργικά δεδομένα προέρχονται συχνά από εφαρμογές που υποστηρίζονται από παλαιού τύπου αποθήκες δεδομένων. Ο εκσυγχρονισμός των εφαρμογών απαιτεί μια αρχιτεκτονική μικροϋπηρεσιών, η οποία με τη σειρά της απαιτεί την ενοποίηση δεδομένων από πολλαπλές πηγές για την κατασκευή ενός λειτουργικού χώρου αποθήκευσης δεδομένων. Χωρίς εκσυγχρονισμό, οι παλαιού τύπου εφαρμογές ενδέχεται να επιφέρουν αυξανόμενο κόστος συντήρησης. Ο εκσυγχρονισμός των εφαρμογών περιλαμβάνει την αλλαγή της υποκείμενης μηχανής βάσης δεδομένων σε μια σύγχρονη βάση δεδομένων που βασίζεται σε έγγραφα όπως η MongoDB.
Αυτές οι δύο εργασίες (κατασκευή λιμνών δεδομένων ή αποθηκών δεδομένων και εκσυγχρονισμός εφαρμογών) περιλαμβάνουν τη μετακίνηση δεδομένων, η οποία χρησιμοποιεί μια διαδικασία εξαγωγής, μετασχηματισμού και φόρτωσης (ETL). Η εργασία ETL είναι μια βασική λειτουργία για να έχετε μια καλά δομημένη διαδικασία προκειμένου να πετύχετε.
Κόλλα AWS είναι μια υπηρεσία ενοποίησης δεδομένων χωρίς διακομιστή που καθιστά εύκολη την ανακάλυψη, την προετοιμασία, τη μετακίνηση και την ενοποίηση δεδομένων από πολλαπλές πηγές για αναλυτικά στοιχεία, μηχανική εκμάθηση (ML) και ανάπτυξη εφαρμογών. MongoDB Άτλας είναι μια ολοκληρωμένη σουίτα βάσης δεδομένων cloud και υπηρεσιών δεδομένων που συνδυάζει επεξεργασία συναλλαγών, αναζήτηση βάσει συνάφειας, αναλυτικά στοιχεία σε πραγματικό χρόνο και συγχρονισμό δεδομένων από κινητό σε σύννεφο σε μια κομψή και ολοκληρωμένη αρχιτεκτονική.
Χρησιμοποιώντας το AWS Glue με MongoDB Atlas, οι οργανισμοί μπορούν να εξορθολογίσουν τις διαδικασίες ETL τους. Με την πλήρως διαχειριζόμενη, επεκτάσιμη και ασφαλή λύση βάσης δεδομένων, το MongoDB Atlas παρέχει ένα ευέλικτο και αξιόπιστο περιβάλλον για την αποθήκευση και τη διαχείριση επιχειρησιακών δεδομένων. Μαζί, το AWS Glue ETL και το MongoDB Atlas είναι μια ισχυρή λύση για οργανισμούς που θέλουν να βελτιστοποιήσουν τον τρόπο δημιουργίας λιμνών δεδομένων και αποθηκών δεδομένων και να εκσυγχρονίσουν τις εφαρμογές τους, προκειμένου να βελτιώσουν την απόδοση της επιχείρησης, να μειώσουν το κόστος και να οδηγήσουν στην ανάπτυξη και την επιτυχία.
Σε αυτήν την ανάρτηση, δείχνουμε πώς να μεταφέρετε δεδομένα από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κουβάδες στο MongoDB Atlas χρησιμοποιώντας AWS Glue ETL και πώς να εξαγάγετε δεδομένα από το MongoDB Atlas σε μια λίμνη δεδομένων που βασίζεται στο Amazon S3.
Επισκόπηση λύσεων
Σε αυτήν την ανάρτηση, διερευνούμε τις ακόλουθες περιπτώσεις χρήσης:
- Εξαγωγή δεδομένων από MongoDB – Η MongoDB είναι μια δημοφιλής βάση δεδομένων που χρησιμοποιείται από χιλιάδες πελάτες για την αποθήκευση δεδομένων εφαρμογών σε κλίμακα. Οι εταιρικοί πελάτες μπορούν να συγκεντρώνουν και να ενσωματώνουν δεδομένα που προέρχονται από πολλαπλές αποθήκες δεδομένων δημιουργώντας λίμνες δεδομένων και αποθήκες δεδομένων. Αυτή η διαδικασία περιλαμβάνει την εξαγωγή δεδομένων από τις λειτουργικές αποθήκες δεδομένων. Όταν τα δεδομένα βρίσκονται σε ένα μέρος, οι πελάτες μπορούν να τα χρησιμοποιήσουν γρήγορα για ανάγκες επιχειρηματικής ευφυΐας ή για ML.
- Απορρόφηση δεδομένων στο MongoDB – Το MongoDB χρησιμεύει επίσης ως βάση δεδομένων χωρίς SQL για την αποθήκευση δεδομένων εφαρμογών και τη δημιουργία λειτουργικών αποθηκών δεδομένων. Ο εκσυγχρονισμός των εφαρμογών συχνά περιλαμβάνει τη μετεγκατάσταση του λειτουργικού καταστήματος στο MongoDB. Οι πελάτες θα πρέπει να εξάγουν υπάρχοντα δεδομένα από σχεσιακές βάσεις δεδομένων ή από επίπεδα αρχεία. Οι εφαρμογές για κινητά και ιστός συχνά απαιτούν από τους μηχανικούς δεδομένων να δημιουργήσουν αγωγούς δεδομένων για να δημιουργήσουν μια ενιαία προβολή δεδομένων στον Άτλαντα, ενώ ταυτόχρονα απορροφούν δεδομένα από πολλαπλές πηγές. Κατά τη διάρκεια αυτής της μετεγκατάστασης, θα χρειαστεί να ενώσουν διαφορετικές βάσεις δεδομένων για να δημιουργήσουν έγγραφα. Αυτή η πολύπλοκη λειτουργία σύνδεσης θα χρειαζόταν σημαντική, εφάπαξ υπολογιστική ισχύ. Οι προγραμματιστές θα πρέπει επίσης να το δημιουργήσουν γρήγορα για να μεταφέρουν τα δεδομένα.
Το AWS Glue είναι χρήσιμο σε αυτές τις περιπτώσεις με το μοντέλο πληρωμής και την ικανότητά του να εκτελεί περίπλοκους μετασχηματισμούς σε τεράστια σύνολα δεδομένων. Οι προγραμματιστές μπορούν να χρησιμοποιήσουν το AWS Glue Studio για να δημιουργήσουν αποτελεσματικά τέτοιες σωλήνες δεδομένων.
Το παρακάτω διάγραμμα δείχνει τη ροή εργασιών εξαγωγής δεδομένων από το MongoDB Atlas σε έναν κάδο S3 χρησιμοποιώντας το AWS Glue Studio.
Για να εφαρμόσετε αυτήν την αρχιτεκτονική, θα χρειαστείτε ένα σύμπλεγμα Atlas MongoDB, έναν κάδο S3 και ένα Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλος για το AWS Glue. Για να διαμορφώσετε αυτούς τους πόρους, ανατρέξτε στα προαπαιτούμενα βήματα που ακολουθούν GitHub repo.
Το παρακάτω σχήμα δείχνει τη ροή εργασίας φόρτωσης δεδομένων από έναν κάδο S3 στον Atlas MongoDB χρησιμοποιώντας κόλλα AWS.
Οι ίδιες προϋποθέσεις χρειάζονται εδώ: ένας κάδος S3, ένας ρόλος IAM και ένα σύμπλεγμα Atlas MongoDB.
Φορτώστε δεδομένα από το Amazon S3 στο MongoDB Atlas χρησιμοποιώντας κόλλα AWS
Τα παρακάτω βήματα περιγράφουν τον τρόπο φόρτωσης δεδομένων από τον κάδο S3 στον Atlas MongoDB χρησιμοποιώντας μια εργασία κόλλας AWS. Η διαδικασία εξαγωγής από το MongoDB Atlas στο Amazon S3 είναι πολύ παρόμοια, με εξαίρεση το σενάριο που χρησιμοποιείται. Αναφέρουμε τις διαφορές μεταξύ των δύο διαδικασιών.
- Δημιουργήστε ένα δωρεάν σύμπλεγμα στο MongoDB Atlas.
- Ανεβάστε το δείγμα αρχείου JSON στον κάδο S3 σας.
- Δημιουργήστε μια νέα εργασία AWS Glue Studio με το Πρόγραμμα επεξεργασίας σεναρίου Spark επιλογή.
- Ανάλογα με το αν θέλετε να φορτώσετε ή να εξαγάγετε δεδομένα από το σύμπλεγμα Atlas MongoDB, εισαγάγετε το φόρτωση σεναρίου or εξαγωγή σεναρίου στο πρόγραμμα επεξεργασίας σεναρίων AWS Glue Studio.
Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα απόσπασμα κώδικα για τη φόρτωση δεδομένων στο σύμπλεγμα Atlas MongoDB.
Ο κώδικας χρησιμοποιεί Διευθυντής μυστικών AWS για να ανακτήσετε το όνομα, το όνομα χρήστη και τον κωδικό πρόσβασης του συμπλέγματος MongoDB Atlas. Στη συνέχεια, δημιουργεί ένα DynamicFrame
για τον κάδο S3 και το όνομα αρχείου μεταβιβάστηκαν στο σενάριο ως παράμετροι. Ο κώδικας ανακτά τη βάση δεδομένων και τα ονόματα συλλογής από τη διαμόρφωση παραμέτρων εργασίας. Τέλος, ο κώδικας γράφει το DynamicFrame
στο σύμπλεγμα MongoDB Atlas χρησιμοποιώντας τις παραμέτρους που ανακτήθηκαν.
- Δημιουργήστε έναν ρόλο IAM με τα δικαιώματα όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης.
Για περισσότερες λεπτομέρειες, ανατρέξτε στο Διαμορφώστε έναν ρόλο IAM για την εργασία σας ETL.
- Δώστε στην εργασία ένα όνομα και δώστε τον ρόλο IAM που δημιουργήθηκε στο προηγούμενο βήμα στο Λεπτομέρειες εργασίας Tab.
- Μπορείτε να αφήσετε τις υπόλοιπες παραμέτρους ως προεπιλογές, όπως φαίνεται στα παρακάτω στιγμιότυπα οθόνης.
- Στη συνέχεια, ορίστε τις παραμέτρους εργασίας που χρησιμοποιεί το σενάριο και δώστε τις προεπιλεγμένες τιμές.
- Αποθηκεύστε την εργασία και εκτελέστε την.
- Για να επιβεβαιώσετε μια επιτυχημένη εκτέλεση, παρατηρήστε τα περιεχόμενα της συλλογής βάσης δεδομένων MongoDB Atlas εάν φορτώνετε τα δεδομένα ή τον κάδο S3 εάν εκτελούσατε ένα απόσπασμα.
Το ακόλουθο στιγμιότυπο οθόνης δείχνει τα αποτελέσματα μιας επιτυχημένης φόρτωσης δεδομένων από έναν κάδο Amazon S3 στο σύμπλεγμα Atlas MongoDB. Τα δεδομένα είναι πλέον διαθέσιμα για ερωτήματα στη διεπαφή χρήστη MongoDB Atlas.
- Για να αντιμετωπίσετε προβλήματα με τις διαδρομές σας, ελέγξτε το amazoncloudwatch καταγράφει χρησιμοποιώντας τον σύνδεσμο στην εργασία τρέξιμο Tab.
Το παρακάτω στιγμιότυπο οθόνης δείχνει ότι η εργασία εκτελέστηκε με επιτυχία, με πρόσθετες λεπτομέρειες, όπως συνδέσμους προς τα αρχεία καταγραφής του CloudWatch.
Συμπέρασμα
Σε αυτήν την ανάρτηση, περιγράψαμε τον τρόπο εξαγωγής και απορρόφησης δεδομένων στον MongoDB Atlas χρησιμοποιώντας κόλλα AWS.
Με τις εργασίες AWS Glue ETL, μπορούμε πλέον να μεταφέρουμε τα δεδομένα από το MongoDB Atlas σε πηγές συμβατές με το AWS Glue και αντίστροφα. Μπορείτε επίσης να επεκτείνετε τη λύση για τη δημιουργία αναλυτικών στοιχείων χρησιμοποιώντας υπηρεσίες AWS AI και ML.
Για να μάθετε περισσότερα, ανατρέξτε στο Αποθετήριο GitHub για οδηγίες βήμα προς βήμα και δείγμα κώδικα. Μπορείτε να προμηθευτείτε MongoDB Άτλας στο AWS Marketplace.
Σχετικά με τους Συγγραφείς
Ιγκόρ Αλεξέεφ είναι Senior Partner Solution Architect στην AWS στον τομέα δεδομένων και Analytics. Στο ρόλο του, ο Igor συνεργάζεται με στρατηγικούς εταίρους βοηθώντας τους να δημιουργήσουν περίπλοκες, βελτιστοποιημένες για AWS αρχιτεκτονικές. Πριν ενταχθεί στην AWS, ως Αρχιτέκτονας Δεδομένων/Λύσεων, υλοποίησε πολλά έργα στον τομέα Big Data, συμπεριλαμβανομένων πολλών λιμνών δεδομένων στο οικοσύστημα Hadoop. Ως Μηχανικός Δεδομένων συμμετείχε στην εφαρμογή AI/ML στον εντοπισμό απάτης και στον αυτοματισμό γραφείου.
Μπάμπου Σρινιβασάν είναι Senior Partner Solutions Architect στη MongoDB. Στον τρέχοντα ρόλο του, εργάζεται με το AWS για να δημιουργήσει τις τεχνικές ενσωματώσεις και τις αρχιτεκτονικές αναφοράς για τις λύσεις AWS και MongoDB. Έχει πάνω από δύο δεκαετίες εμπειρίας στις τεχνολογίες Βάσεων Δεδομένων και Cloud. Είναι παθιασμένος με την παροχή τεχνικών λύσεων σε πελάτες που εργάζονται με πολλαπλούς Global System Integrators (GSI) σε πολλές γεωγραφικές περιοχές.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- Αγορά και πώληση μετοχών σε εταιρείες PRE-IPO με το PREIPO®. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/compose-your-etl-jobs-for-mongodb-atlas-with-aws-glue/
- :έχει
- :είναι
- 100
- 11
- a
- ικανότητα
- Σχετικά
- πρόσβαση
- απέναντι
- Πρόσθετος
- AI
- AI / ML
- Επίσης
- Amazon
- Ποσά
- an
- analytics
- και
- Εφαρμογή
- Ανάπτυξη Εφαρμογών
- εφαρμογές
- εφαρμόζοντας
- εφαρμογές
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- At
- άτλας
- Αυτοματοποίηση
- διαθέσιμος
- AWS
- Κόλλα AWS
- AWS Marketplace
- υποστηρίζεται
- βασίζονται
- είναι
- μεταξύ
- Μεγάλος
- Big Data
- χτίζω
- Κτίριο
- επιχείρηση
- επιχειρηματικής ευφυΐας
- επιχειρηματική απόδοση
- επιχειρήσεις
- by
- κλήση
- CAN
- περιπτώσεις
- πρόκληση
- αλλαγή
- Backup
- συστάδα
- κωδικός
- συλλογή
- συνδυάζει
- έρχεται
- ερχομός
- συγκρότημα
- Υπολογίστε
- διαμόρφωση
- Επιβεβαιώνω
- ενοποίηση
- κατασκευάσει
- περιεχόμενα
- συνέχισε
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- δημιουργία
- Ρεύμα
- Πελάτες
- ημερομηνία
- μηχανικός δεδομένων
- ολοκλήρωση δεδομένων
- Λίμνη δεδομένων
- επιστημονικά δεδομένα
- αποθήκες δεδομένων
- βασίζονται σε δεδομένα
- βάση δεδομένων
- βάσεις δεδομένων
- σύνολα δεδομένων
- δεκαετίες
- Προεπιλογή
- αποδεικνύουν
- περιγράφουν
- περιγράφεται
- καθέκαστα
- Ανίχνευση
- προγραμματιστές
- Ανάπτυξη
- διαφορές
- διαφορετικές
- ανακαλύπτουν
- τρέλα
- έγγραφα
- τομέα
- αυτοκίνητο
- οδηγείται
- κατά την διάρκεια
- οικοσύστημα
- συντάκτης
- αποτελεσματικά
- Κινητήρας
- μηχανικός
- Μηχανικοί
- εισάγετε
- Εταιρεία
- επιχειρηματικούς πελάτες
- Περιβάλλον
- Αιθέρας (ΕΤΗ)
- εξαίρεση
- υφιστάμενα
- εμπειρία
- διερευνήσει
- επεκτείνουν
- εκχύλισμα
- εξαγωγή
- Πρόσωπο
- Εικόνα
- Αρχεία
- Αρχεία
- Τελικά
- ίσια
- εύκαμπτος
- Εξής
- Για
- απάτη
- ανίχνευση απάτης
- Δωρεάν
- από
- πλήρως
- λειτουργικότητα
- γεωγραφίες
- Παγκόσμιο
- Ανάπτυξη
- Hadoop
- κινητός
- που έχει
- he
- βοήθεια
- εδώ
- του
- Πως
- Πώς να
- HTML
- http
- HTTPS
- τεράστιος
- IAM
- Ταυτότητα
- if
- εφαρμογή
- εφαρμοστεί
- βελτίωση
- in
- Συμπεριλαμβανομένου
- αύξηση
- εισαγωγή
- οδηγίες
- ενσωματώσει
- ενσωματωθεί
- ολοκλήρωση
- ολοκληρώσεις
- Νοημοσύνη
- σε
- εμπλέκω
- συμμετέχουν
- IT
- ΤΟΥ
- Δουλειά
- Θέσεις εργασίας
- ενταχθούν
- ενώνει
- json
- Κλειδί
- λίμνη
- large
- ΜΑΘΑΊΝΩ
- μάθηση
- Άδεια
- Κληροδότημα
- Μου αρέσει
- LINK
- ΣΥΝΔΕΣΜΟΙ
- φορτίο
- φόρτωση
- κοιτάζοντας
- μηχανή
- μάθηση μηχανής
- συντήρηση
- ΚΑΝΕΙ
- διαχειρίζεται
- διαχείριση
- πολοί
- αγορά
- Ενδέχεται..
- μεταναστεύσουν
- μετανάστευση
- ML
- Κινητό
- μοντέλο
- ΜΟΝΤΕΡΝΑ
- εκσυγχρονισμός
- εκμοντερνίζω
- MongoDB
- περισσότερο
- μετακινήσετε
- κίνηση
- πολλαπλούς
- όνομα
- ονόματα
- Ανάγκη
- που απαιτούνται
- ανάγκες
- Νέα
- τώρα
- παρατηρούμε
- of
- Office
- συχνά
- on
- ONE
- λειτουργία
- επιχειρήσεων
- Βελτιστοποίηση
- Επιλογή
- or
- τάξη
- οργανώσεις
- έξω
- παράμετροι
- εταίρος
- Συνεργάτες
- πέρασε
- παθιασμένος
- Κωδικός Πρόσβασης
- επίδοση
- εκτέλεση
- δικαιώματα
- Μέρος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δημοφιλής
- Θέση
- δύναμη
- ισχυρός
- Προετοιμάστε
- προετοιμασία
- προαπαιτούμενα
- προηγούμενος
- Πριν
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- έργα
- παρέχει
- χορήγηση
- σκοποί
- ερωτήματα
- γρήγορα
- σε πραγματικό χρόνο
- μείωση
- αξιόπιστος
- απαιτούν
- Απαιτεί
- Υποστηρικτικό υλικό
- ΠΕΡΙΦΕΡΕΙΑ
- Αποτελέσματα
- ανασκόπηση
- Ρόλος
- τρέξιμο
- ίδιο
- επεκτάσιμη
- Κλίμακα
- Επιστήμη
- screenshots
- Αναζήτηση
- προστατευμένο περιβάλλον
- αρχαιότερος
- Χωρίς διακομιστή
- εξυπηρετεί
- υπηρεσία
- Υπηρεσίες
- διάφοροι
- παρουσιάζεται
- Δείχνει
- σημαντικός
- παρόμοιες
- Απλούς
- ενιαίας
- λύση
- Λύσεις
- Πηγές
- Βήμα
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- καταστήματα
- ειλικρινής
- Στρατηγική
- στρατηγικοί εταίροι
- εξορθολογισμό
- στούντιο
- επιτύχει
- επιτυχία
- επιτυχής
- Επιτυχώς
- τέτοιος
- σουίτα
- προμήθεια
- συγχρονισμός
- σύστημα
- εργασίες
- Τεχνικός
- Τεχνολογίες
- από
- ότι
- Η
- τους
- Τους
- τότε
- Αυτοί
- αυτοί
- αυτό
- χιλιάδες
- ώρα
- προς την
- σημερινή
- μαζι
- συναλλακτική
- μεταφορά
- Μεταμορφώστε
- μετασχηματισμούς
- μετασχηματίζοντας
- ΣΤΡΟΦΗ
- δύο
- ui
- υποκείμενες
- χρήση
- μεταχειρισμένος
- Χρήστες
- χρησιμοποιώντας
- Αξίες
- πολύ
- Δες
- θέλω
- ήταν
- we
- ιστός
- ήταν
- πότε
- αν
- Ποιό
- ενώ
- θα
- με
- χωρίς
- ροής εργασίας
- εργαζόμενος
- θα
- εσείς
- Σας
- zephyrnet