Καλώς ήρθατε στην εποχή των δεδομένων. Ο τεράστιος όγκος δεδομένων που συλλέγονται καθημερινά συνεχίζει να αυξάνεται, απαιτώντας την εξέλιξη των πλατφορμών και των λύσεων. Υπηρεσίες όπως Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) προσφέρει μια επεκτάσιμη λύση που προσαρμόζεται αλλά παραμένει οικονομικά αποδοτική για την ανάπτυξη συνόλων δεδομένων. ο Amazon Sustainability Data Initiative (ASDI) χρησιμοποιεί τις δυνατότητες του Amazon S3 για να παρέχει μια λύση χωρίς κόστος για να αποθηκεύετε και να μοιράζεστε φόρτους εργασίας για την επιστήμη του κλίματος σε όλο τον κόσμο. Το Πρόγραμμα Χορηγίας Ανοικτών Δεδομένων της Amazon επιτρέπει στους οργανισμούς να φιλοξενούν δωρεάν στο AWS.
Την τελευταία δεκαετία, είδαμε μια αύξηση των πλαισίων επιστήμης δεδομένων να αποδίδονται, μαζί με τη μαζική υιοθέτηση από την κοινότητα της επιστήμης δεδομένων. Ένα τέτοιο πλαίσιο είναι Ντάσκ, το οποίο είναι ισχυρό για την ικανότητά του να παρέχει μια ενορχήστρωση κόμβων υπολογιστών εργαζομένων, επιταχύνοντας έτσι τη σύνθετη ανάλυση σε μεγάλα σύνολα δεδομένων.
Σε αυτήν την ανάρτηση, σας δείχνουμε πώς να αναπτύξετε μια προσαρμογή Κιτ ανάπτυξης AWS Cloud Λύση (AWS CDK) που επεκτείνει τη λειτουργικότητα του Dask για να λειτουργεί διαπεριφερειακά σε όλο το παγκόσμιο δίκτυο της Amazon. Η λύση AWS CDK αναπτύσσει ένα δίκτυο εργαζομένων Dask σε δύο Περιφέρειες AWS, που συνδέονται σε μια Περιοχή πελάτη. Για περισσότερες πληροφορίες, ανατρέξτε στο Οδηγίες για Κατανεμημένους Υπολογιστές με Cross Regional Dask στο AWS και την GitHub repo για κώδικα ανοιχτού κώδικα.
Μετά την ανάπτυξη, ο χρήστης θα έχει πρόσβαση σε ένα σημειωματάριο Jupyter, όπου μπορεί να αλληλεπιδράσει με δύο σύνολα δεδομένων από το ASDI στο AWS: Coupled Model Intercomparison Project 6 (CMIP6) και Επανανάλυση ECMWF ERA5. Το CMIP6 εστιάζει στην έκτη φάση του συνόλου μοντέλων γενικής κυκλοφορίας παγκόσμιας συζευγμένης ωκεάνιας-ατμόσφαιρας. Το ERA5 είναι η πέμπτη γενιά ατμοσφαιρικών αναλύσεων του παγκόσμιου κλίματος του ECMWF και η πρώτη επαναανάλυση που παράγεται ως λειτουργική υπηρεσία.
Αυτή η λύση εμπνεύστηκε από τη δουλειά με έναν βασικό πελάτη της AWS, τον Γραφείο συνάντησης στο Ηνωμένο Βασίλειο. Το Met Office ιδρύθηκε το 1854 και είναι η εθνική μετεωρολογική υπηρεσία για το Ηνωμένο Βασίλειο. Παρέχουν προβλέψεις για τον καιρό και το κλίμα για να σας βοηθήσουν να πάρετε καλύτερες αποφάσεις για να παραμείνετε ασφαλείς και να ευδοκιμήσετε. Μια συνεργασία μεταξύ του Met Office και του EUMETSAT, αναλυτικά στο Προσεγγιστικοί υπολογισμοί δεδομένων σε σύμπλεγμα Dask που κατανέμεται μεταξύ κέντρων δεδομένων, υπογραμμίζει την αυξανόμενη ανάγκη ανάπτυξης μιας βιώσιμης, αποτελεσματικής και επεκτάσιμης λύσης επιστήμης δεδομένων. Αυτή η λύση το επιτυγχάνει φέρνοντας τον υπολογισμό πιο κοντά στα δεδομένα, αντί να αναγκάζει τα δεδομένα να έρθουν πιο κοντά στους υπολογιστικούς πόρους, γεγονός που προσθέτει κόστος, καθυστέρηση και ενέργεια.
Επισκόπηση λύσεων
Κάθε μέρα, το UK Met Office παράγει έως και 300 TB δεδομένων καιρού και κλίματος, ένα μέρος των οποίων δημοσιεύεται στην ASDI. Αυτά τα σύνολα δεδομένων διανέμονται σε όλο τον κόσμο και φιλοξενούνται για δημόσια χρήση. Το Met Office θα ήθελε να δώσει τη δυνατότητα στους καταναλωτές να αξιοποιήσουν περισσότερα από τα δεδομένα τους για να βοηθήσουν στην ενημέρωση κρίσιμων αποφάσεων για την αντιμετώπιση θεμάτων όπως η καλύτερη προετοιμασία για τις πυρκαγιές και τις πλημμύρες που προκαλούνται από την κλιματική αλλαγή και η μείωση της επισιτιστικής ανασφάλειας μέσω καλύτερης ανάλυσης της απόδοσης των καλλιεργειών.
Οι παραδοσιακές λύσεις που χρησιμοποιούνται σήμερα, ιδιαίτερα με δεδομένα για το κλίμα, είναι χρονοβόρες και μη βιώσιμες, που αναπαράγουν σύνολα δεδομένων μεταξύ Περιφερειών. Η περιττή μεταφορά δεδομένων στην κλίμακα petabyte είναι δαπανηρή, αργή και καταναλώνει ενέργεια.
Υπολογίσαμε ότι εάν αυτή η πρακτική υιοθετούνταν από τους χρήστες του Met Office, θα μπορούσε να εξοικονομηθεί κάθε μέρα η ημερήσια κατανάλωση ενέργειας που αντιστοιχεί σε 40 σπίτια και θα μπορούσαν επίσης να μειώσουν τη μεταφορά δεδομένων μεταξύ περιοχών.
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.
Η λύση μπορεί να χωριστεί σε τρία μεγάλα τμήματα: πελάτης, εργαζόμενος και δίκτυο. Ας βουτήξουμε στο καθένα και ας δούμε πώς ενώνονται.
Πελάτης
Ο πελάτης αντιπροσωπεύει την περιοχή πηγής όπου συνδέονται οι επιστήμονες δεδομένων. Αυτή η Περιοχή (Περιοχή Α στο διάγραμμα) περιέχει ένα Σημειωματάριο Amazon SageMaker, μια Amazon OpenSearch Service τομέα, και α Προγραμματιστής εργασιών ως βασικά στοιχεία. Οι διαχειριστές συστήματος έχουν πρόσβαση στον ενσωματωμένο πίνακα εργαλείων Dask που εκτίθεται μέσω ενός Ελαστική εξισορρόπηση φορτίου.
Οι επιστήμονες δεδομένων έχουν πρόσβαση στο σημειωματάριο Jupyter που φιλοξενείται στο SageMaker. Το σημειωματάριο μπορεί να συνδέσει και να εκτελέσει φόρτους εργασίας στον προγραμματιστή Dask. Ο τομέας OpenSearch Service αποθηκεύει μεταδεδομένα στα σύνολα δεδομένων που συνδέονται στις Περιοχές. Οι χρήστες φορητών υπολογιστών μπορούν να ρωτήσουν αυτήν την υπηρεσία για να ανακτήσουν λεπτομέρειες όπως τη σωστή περιοχή των εργαζομένων στο Dask χωρίς να χρειάζεται να γνωρίζουν εκ των προτέρων την Τοπική τοποθεσία των δεδομένων.
Εργάτης
Κάθε μία από τις εργατικές Περιφέρειες (Περιφέρειες Β και Γ στο διάγραμμα) αποτελείται από ένα Υπηρεσία ελαστικών εμπορευματοκιβωτίων Amazon (Amazon ECS) σύμπλεγμα των Εργαζόμενοι με δαμάσκηνο, μια Amazon FSx για λάμψη σύστημα αρχείων και ένα αυτόνομο Amazon Elastic Compute Cloud (Amazon EC2) παράδειγμα. Το FSx for Luster επιτρέπει στους εργαζόμενους της Dask να έχουν πρόσβαση και να επεξεργάζονται δεδομένα του Amazon S3 από ένα σύστημα αρχείων υψηλής απόδοσης, συνδέοντας τα συστήματα αρχείων σας με κάδους S3. Παρέχει καθυστερήσεις κάτω του χιλιοστού του δευτερολέπτου, απόδοση έως και εκατοντάδες GB/s και εκατομμύρια IOPS. Ένα βασικό χαρακτηριστικό του Luster είναι ότι συγχρονίζονται μόνο τα μεταδεδομένα του συστήματος αρχείων. Το Luster διαχειρίζεται την ισορροπία των αρχείων που πρέπει να φορτωθούν και να διατηρηθούν ζεστά, με βάση τη ζήτηση.
Οι ομάδες εργαζομένων κλιμακώνονται με βάση τη χρήση της CPU, παρέχουν επιπλέον εργαζομένους σε εκτεταμένες περιόδους ζήτησης και μειώνονται καθώς οι πόροι γίνονται αδρανείς.
Κάθε βράδυ στις 0:00 UTC, μια εργασία συγχρονισμού δεδομένων ζητά από το σύστημα αρχείων Luster να επανασυγχρονιστεί με τον συνδεδεμένο κάδο S3 και τραβάει έναν ενημερωμένο κατάλογο μεταδεδομένων του κάδου. Στη συνέχεια, η αυτόνομη παρουσία EC2 ωθεί αυτές τις ενημερώσεις στην Υπηρεσία OpenSearch σε σχέση με το ευρετήριο αυτής της περιοχής. Η Υπηρεσία OpenSearch παρέχει τις απαραίτητες πληροφορίες στον πελάτη σχετικά με το ποια ομάδα εργαζομένων θα πρέπει να κληθεί για ένα συγκεκριμένο σύνολο δεδομένων.
Δίκτυο
Η δικτύωση αποτελεί τον πυρήνα αυτής της λύσης, χρησιμοποιώντας το εσωτερικό δίκτυο κορμού της Amazon. Με τη χρήση AWS Transit Gateway, είμαστε σε θέση να συνδέσουμε κάθε μία από τις Περιφέρειες μεταξύ τους χωρίς να χρειάζεται να διασχίσουμε το δημόσιο διαδίκτυο. Καθένας από τους εργαζόμενους είναι σε θέση να συνδεθεί δυναμικά στον προγραμματιστή Dask, επιτρέποντας στους επιστήμονες δεδομένων να εκτελούν διαπεριφερειακά ερωτήματα μέσω του Dask.
Προϋποθέσεις
Το πακέτο AWS CDK χρησιμοποιεί τη γλώσσα προγραμματισμού TypeScript. Ακολουθήστε τα βήματα στο Ξεκινώντας για το AWS CDK για να ρυθμίσετε το τοπικό σας περιβάλλον και να κάνετε bootstrap τον λογαριασμό ανάπτυξης σας (θα χρειαστεί να κάνετε bootstrap όλες τις Περιοχές που καθορίζονται στο GitHub repo).
Για μια επιτυχημένη ανάπτυξη, θα χρειαστείτε Εγκαταστάθηκε το Docker και τρέχει στο τοπικό σας μηχάνημα.
Αναπτύξτε το πακέτο AWS CDK
Η ανάπτυξη ενός πακέτου AWS CDK είναι απλή. Αφού εγκαταστήσετε τις προϋποθέσεις και κάνετε bootstrap τον λογαριασμό σας, μπορείτε να προχωρήσετε στη λήψη της βάσης κώδικα.
- Κατεβάστε το Αποθετήριο GitHub:
- Εγκατάσταση λειτουργικών μονάδων κόμβου:
- Αναπτύξτε το AWS CDK:
Η στοίβα μπορεί να διαρκέσει πάνω από μιάμιση ώρα για να αναπτυχθεί.
Αναδρομή κώδικα
Σε αυτήν την ενότητα, εξετάζουμε ορισμένα από τα βασικά χαρακτηριστικά της βάσης κώδικα. Εάν θέλετε να επιθεωρήσετε την πλήρη βάση κώδικα, ανατρέξτε στο Αποθετήριο GitHub.
Διαμορφώστε και προσαρμόστε τη στοίβα σας
Στο αρχείο bin/variables.ts, θα βρείτε δύο δηλώσεις μεταβλητών: μία για τον πελάτη και μία για τους εργαζόμενους. Η δήλωση πελάτη είναι ένα λεξικό με αναφορά σε περιοχή και εύρος CIDR. Η προσαρμογή αυτών των μεταβλητών θα αλλάξει τόσο το εύρος της περιοχής όσο και του CIDR όπου θα αναπτυχθούν οι πόροι του πελάτη.
Η μεταβλητή εργαζόμενος αντιγράφει αυτήν την ίδια λειτουργικότητα. Ωστόσο, είναι μια λίστα λεξικών για την προσθήκη ή την αφαίρεση συνόλων δεδομένων που ο χρήστης επιθυμεί να συμπεριλάβει. Επιπλέον, κάθε λεξικό περιέχει τα προστιθέμενα πεδία του dataset
και lustreFileSystemPath
. Το σύνολο δεδομένων χρησιμοποιείται για τον καθορισμό του URI σύνδεσης S3 για σύνδεση στο Luster. ο lustreFileSystemPath
Η μεταβλητή χρησιμοποιείται ως αντιστοίχιση για το πώς ο χρήστης θέλει αυτό το σύνολο δεδομένων να αντιστοιχιστεί τοπικά στο σύστημα αρχείων του εργαζόμενου. Δείτε τον παρακάτω κώδικα:
Δημοσιεύστε δυναμικά την IP του προγραμματιστή
Μια εγγενής πρόκληση για τη διαπεριφερειακή φύση αυτού του έργου ήταν η διατήρηση μιας δυναμικής σύνδεσης μεταξύ των εργαζομένων της Dask και του προγραμματιστή. Πώς θα μπορούσαμε να δημοσιεύσουμε μια διεύθυνση IP, η οποία μπορεί να αλλάξει, σε όλες τις Περιφέρειες AWS; Μπορέσαμε να το πετύχουμε αυτό με τη χρήση του Χάρτης AWS Cloud και associate-vpc-with-hosted-zone. Οι περιλήψεις της υπηρεσίας επιτρέπουν στο AWS να διαχειρίζεται ιδιωτικά αυτόν τον χώρο ονομάτων DNS. Δείτε τον παρακάτω κώδικα:
UI σημειωματάριου Jupyter
Ο φορητός υπολογιστής Jupyter που φιλοξενείται στο SageMaker παρέχει στους επιστήμονες ένα έτοιμο περιβάλλον για ανάπτυξη, ώστε να συνδέονται εύκολα και να πειραματίζονται στα φορτωμένα σύνολα δεδομένων. Χρησιμοποιήσαμε α σενάριο διαμόρφωσης κύκλου ζωής να παρέχει στο σημειωματάριο ένα προρυθμισμένο περιβάλλον προγραμματιστή και παράδειγμα βάσης κώδικα. Δείτε τον παρακάτω κώδικα:
Κόμβοι εργάτη Dask
Όσον αφορά τους εργάτες Dask, παρέχεται μεγαλύτερη δυνατότητα προσαρμογής, πιο συγκεκριμένα για τον τύπο παρουσίας, τα νήματα ανά κοντέινερ και τους συναγερμούς κλιμάκωσης. Από προεπιλογή, η διάταξη εργαζόμενων σε παράδειγμα τύπου m5d.4xlarge, προσαρτάται στο σύστημα αρχείων Luster κατά την εκκίνηση και υποδιαιρεί τους εργαζόμενους και τα νήματα της δυναμικά σε θύρες. Όλα αυτά είναι προαιρετικά προσαρμόσιμα. Δείτε τον παρακάτω κώδικα:
επίδοση
Για να αξιολογήσουμε την απόδοση, χρησιμοποιούμε έναν υπολογισμό δείγματος και σχεδιάζουμε τη θερμοκρασία του αέρα στα 2 μέτρα με βάση τη διαφορά μεταξύ της πρόβλεψης CMIP6 για ένα μήνα και της μέσης θερμοκρασίας αέρα ERA5 για 10 χρόνια. Θέτουμε ένα σημείο αναφοράς δύο εργαζομένων σε κάθε Περιφέρεια και αξιολογούμε τη διαφορά στη μείωση του χρόνου καθώς προστέθηκαν επιπλέον εργαζόμενοι. Θεωρητικά, καθώς η λύση κλιμακώνεται, θα πρέπει να υπάρχει μια παραγωγική διαφορά υλικού στη μείωση του συνολικού χρόνου.
Ο παρακάτω πίνακας συνοψίζει τις λεπτομέρειες του συνόλου μας.
Σύνολο δεδομένων | Μεταβλητές | Μέγεθος δίσκου | Μέγεθος συνόλου δεδομένων Xarray | Περιοχή |
ΕΡΑ5 | 2011–2020 (120 αρχεία netcdf) | 53.5GB | 364.1 GB | ΗΠΑ-ανατολή-1 |
CMIP6 | 1.13GB | 0.11 GB | us-west-2 |
Ο παρακάτω πίνακας δείχνει τα αποτελέσματα που συλλέχθηκαν, παρουσιάζοντας τον χρόνο (σε δευτερόλεπτα) για κάθε υπολογισμό και πρόβλεψη σε τρία στάδια στον υπολογισμό της πρόβλεψης CMIP6, του ERA5 και της διαφοράς.
. | . | Αριθμός Εργαζομένων | |||
Υπολογίστε | Περιοχή | 2(CMIP) + 2(ERA) | 2(CMIP) + 4(ERA) | 2(CMIP) + 8(ERA) |
2 (CMIP) + 12 (ΕΠΟΧΗ) |
CMIP6 (predicted_tas_regridded ) |
us-west-2 | 11.8 | 11.5 | 11.2 | 11.6 |
ERA5 (historic_temp_regridded ) |
ΗΠΑ-ανατολή-1 | 1512 | 711 | 427 | 202 |
Διαφορά (propogated pool ) |
us-west-2 και us-east-1 | 1527 | 906 | 469 | 251 |
Το παρακάτω γράφημα απεικονίζει την απόδοση και την κλίμακα.
Από το πείραμά μας, παρατηρήσαμε μια γραμμική βελτίωση στον υπολογισμό για το σύνολο δεδομένων ERA5 καθώς αυξανόταν ο αριθμός των εργαζομένων. Καθώς αυξανόταν ο αριθμός των εργαζομένων, οι χρόνοι υπολογισμού μειώθηκαν κατά καιρούς στο μισό.
Σημειωματάριο Jupyter
Ως μέρος της κυκλοφορίας της λύσης, αναπτύσσουμε ένα προρυθμισμένο σημειωματάριο Jupyter για να σας βοηθήσει να δοκιμάσετε τη λύση διαπεριφερειακών Dask. Το σημειωματάριο καταδεικνύει την καταργημένη ανησυχία της ανάγκης γνώσης της Τοπικής τοποθεσίας των συνόλων δεδομένων, αντί για αναζήτηση ενός καταλόγου μέσω μιας σειράς σημειωματάριων Jupyter που εκτελούνται στο παρασκήνιο.
Για να ξεκινήσετε, ακολουθήστε τις οδηγίες σε αυτήν την ενότητα.
Ο κωδικός για τα σημειωματάρια βρίσκεται στο lib/SagemakerCode
με το κύριο σημειωματάριο να είναι ux_notebook.ipynb
. Αυτό το σημειωματάριο καλεί άλλα σημειωματάρια, ενεργοποιώντας βοηθητικά σενάρια. ux_notebook
έχει σχεδιαστεί για να είναι το σημείο εισόδου για τους επιστήμονες, χωρίς να χρειάζεται να πάνε αλλού.
Για να ξεκινήσετε, ανοίξτε αυτό το σημειωματάριο στο SageMaker αφού έχετε αναπτύξει το AWS CDK. Το AWS CDK δημιουργεί μια παρουσία σημειωματάριου με όλα τα αρχεία στο χώρο αποθήκευσης φορτωμένα και δημιουργημένα αντίγραφα ασφαλείας σε AWS CodeCommit αποθήκη.
Για να εκτελέσετε την εφαρμογή, ανοίξτε και εκτελέστε το πρώτο κελί του ux_notebook
. Αυτό το κελί εκτελεί το get_variables
σημειωματάριο στο παρασκήνιο, το οποίο σας ζητά να εισάγετε τα δεδομένα που θέλετε να επιλέξετε. Περιλαμβάνουμε ένα παράδειγμα. Ωστόσο, σημειώστε ότι οι ερωτήσεις θα εμφανιστούν μόνο αφού επιλεγεί η προηγούμενη επιλογή. Αυτό γίνεται σκόπιμα για τον περιορισμό των αναπτυσσόμενων επιλογών και μπορεί προαιρετικά να διαμορφωθεί με επεξεργασία του get_variables
σημειωματάριο.
Ο προηγούμενος κώδικας αποθηκεύει μεταβλητές καθολικά, έτσι ώστε άλλα σημειωματάρια να μπορούν να ανακτήσουν και να φορτώσουν τις επιλογές σας. Για επίδειξη, το επόμενο κελί θα πρέπει να εξάγει τις μεταβλητές αποθήκευσης από πριν.
Στη συνέχεια, εμφανίζεται μια προτροπή για περαιτέρω προδιαγραφές δεδομένων. Αυτό το κελί βελτιώνει τα δεδομένα που αναζητάτε παρουσιάζοντας τα αναγνωριστικά των πινάκων σε μορφή αναγνώσιμη από τον άνθρωπο. Οι χρήστες επιλέγουν σαν να ήταν μια φόρμα, αλλά οι τίτλοι αντιστοιχίζονται σε πίνακες στο παρασκήνιο που βοηθούν το σύστημα να ανακτήσει τα κατάλληλα σύνολα δεδομένων.
Αφού αποθηκεύσετε όλες τις επιλογές και τα κελιά επιλογής σας, φορτώστε τα δεδομένα στις Περιοχές εκτελώντας το κελί στο Λήψη των δεδομένων σειρά Ενότητα. Η εντολή %%capture θα καταργήσει τις περιττές εξόδους από το get_data
σημειωματάριο. Σημειώστε ότι μπορείτε να το αφαιρέσετε για να επιθεωρήσετε τις εξόδους από τους άλλους φορητούς υπολογιστές. Στη συνέχεια, τα δεδομένα ανακτώνται στο backend.
Ενώ άλλα σημειωματάρια εκτελούνται στο παρασκήνιο, το μόνο σημείο επαφής για τον χρήστη είναι το ux_notebook
. Αυτό γίνεται για να αφαιρέσουμε την κουραστική διαδικασία εισαγωγής δεδομένων σε μια μορφή που κάθε χρήστης μπορεί να ακολουθήσει με ευκολία.
Με τα δεδομένα που έχουν φορτωθεί τώρα, μπορούμε να αρχίσουμε να αλληλεπιδρούμε με αυτά. Τα παρακάτω κελιά είναι παραδείγματα υπολογισμών που μπορείτε να εκτελέσετε σε δεδομένα καιρού. Χρησιμοποιώντας xarrays, εισάγουμε, υπολογίζουμε και στη συνέχεια σχεδιάζουμε αυτά τα σύνολα δεδομένων.
Το δείγμα μας απεικονίζει μια γραφική παράσταση προγνωστικών δεδομένων που ανακτά δεδομένα, εκτελεί τον υπολογισμό και σχεδιάζει τα αποτελέσματα σε λιγότερο από 7.5 δευτερόλεπτα—τάξεις μεγέθους ταχύτερα από μια τυπική προσέγγιση.
Κάτω από την κουκούλα
Τα τετράδια get_catalog_input
και get_variables
χρησιμοποιήστε τη βιβλιοθήκη ipywidgets για να εμφανίσετε γραφικά στοιχεία όπως αναπτυσσόμενα μενού και επιλογές πολλαπλών πλαισίων. Αυτές οι επιλογές αποθηκεύονται καθολικά χρησιμοποιώντας την εντολή %%store, ώστε να είναι δυνατή η πρόσβαση σε αυτές από το ux_notebook
. Μία από τις επιλογές σάς ζητά αν θέλετε δεδομένα ιστορικού, προγνωστικά δεδομένα ή και τα δύο. Αυτή η μεταβλητή μεταβιβάζεται στο get_data
σημειωματάριο για να καθορίσετε ποια επόμενα σημειωματάρια θα τρέξουν.
Η get_data
Το notebook ανακτά πρώτα τον κοινόχρηστο τομέα της υπηρεσίας OpenSearch που είναι αποθηκευμένος στον Κατάστημα παραμέτρων AWS Systems Manager. Αυτός ο τομέας επιτρέπει στο σημειωματάριό μας να εκτελεί ένα ερώτημα σχετικά με τη συλλογή πληροφοριών που θα υποδεικνύει πού αποθηκεύονται τα επιλεγμένα σύνολα δεδομένων Τοπικά. Με αυτά τα σύνολα δεδομένων που βρίσκονται τοπικά, το σημειωματάριο θα κάνει μια προσπάθεια σύνδεσης με τον προγραμματιστή Dask, μεταβιβάζοντας τις πληροφορίες που συλλέγονται από την Υπηρεσία OpenSearch. Ο προγραμματιστής Dask με τη σειρά του θα μπορεί να καλεί εργαζόμενους στις σωστές Περιφέρειες.
Πώς να προσαρμόσετε και να συνεχίσετε την ανάπτυξη
Αυτά τα σημειωματάρια προορίζονται να αποτελέσουν παράδειγμα για το πώς μπορείτε να δημιουργήσετε έναν τρόπο για τους χρήστες να διασυνδέονται και να αλληλεπιδρούν με τα δεδομένα. Το σημειωματάριο σε αυτήν την ανάρτηση χρησιμεύει ως παράδειγμα για το τι είναι δυνατό και σας προσκαλούμε να συνεχίσετε να βασίζεστε στη λύση για να βελτιώσετε περαιτέρω την αφοσίωση των χρηστών. Το βασικό μέρος αυτής της λύσης είναι η τεχνολογία backend, αλλά χωρίς κάποιο μηχανισμό αλληλεπίδρασης με αυτό το backend, οι χρήστες δεν θα συνειδητοποιήσουν πλήρως τις δυνατότητες της λύσης.
Για να αποφύγετε μελλοντικές χρεώσεις, διαγράψτε τους πόρους. Ας καταστρέψουμε την αναπτυγμένη λύση μας με την ακόλουθη εντολή:
Συμπέρασμα
Αυτή η ανάρτηση παρουσιάζει την επέκταση του Dask Inter-Regionally στο AWS και μια πιθανή ενσωμάτωση με δημόσια σύνολα δεδομένων στο AWS. Η λύση δημιουργήθηκε ως ένα γενικό μοτίβο και μπορούν να φορτωθούν περαιτέρω σύνολα δεδομένων για να επιταχυνθούν οι υψηλές αναλύσεις I/O σε πολύπλοκα δεδομένα.
Τα δεδομένα μεταμορφώνουν κάθε τομέα και κάθε επιχείρηση. Ωστόσο, με τα δεδομένα να αυξάνονται ταχύτερα από ό,τι μπορούν να παρακολουθούν οι περισσότερες εταιρείες, η συλλογή δεδομένων και η απόκτηση αξίας από αυτά τα δεδομένα είναι πρόκληση. Μια σύγχρονη στρατηγική δεδομένων μπορεί να σας βοηθήσει να δημιουργήσετε καλύτερα επιχειρηματικά αποτελέσματα με δεδομένα. Το AWS παρέχει το πιο πλήρες σύνολο υπηρεσιών για τη διαδρομή δεδομένων από άκρο σε άκρο για να σας βοηθήσει να ξεκλειδώσετε την αξία από τα δεδομένα σας και να τα μετατρέψετε σε πληροφορίες.
Για να μάθετε περισσότερα σχετικά με τους διάφορους τρόπους χρήσης των δεδομένων σας στο cloud, επισκεφτείτε το Ιστολόγιο AWS Big Data. Σας προσκαλούμε επίσης να σχολιάσετε τις σκέψεις σας σχετικά με αυτήν την ανάρτηση και εάν αυτή είναι μια λύση που σκοπεύετε να δοκιμάσετε.
Σχετικά με τους Συγγραφείς
Πάτρικ Ο' Κόνορ είναι Μηχανικός Πρωτοτύπων της WWSO με έδρα το Λονδίνο. Είναι ένας δημιουργικός λύτης προβλημάτων, προσαρμόσιμος σε ένα ευρύ φάσμα τεχνολογιών, όπως το IoT, η τεχνολογία χωρίς διακομιστή, η 3D χωρική τεχνολογία και η ML/AI, μαζί με μια αδυσώπητη περιέργεια για το πώς η τεχνολογία μπορεί να συνεχίσει να εξελίσσει τις καθημερινές προσεγγίσεις.
Τσάκρα Ναγκαρατζάν είναι μια Principal Machine Learning Prototyping SA με 21 χρόνια εμπειρίας στη μηχανική μάθηση, τα μεγάλα δεδομένα και τους υπολογιστές υψηλής απόδοσης. Στον τρέχοντα ρόλο του, βοηθά τους πελάτες να λύσουν πολύπλοκα επιχειρηματικά προβλήματα στον πραγματικό κόσμο, δημιουργώντας πρωτότυπα με λύσεις AI/ML από άκρο σε άκρο σε συσκευές cloud και edge. Η εξειδίκευσή του στην ML περιλαμβάνει την όραση υπολογιστών, την επεξεργασία φυσικής γλώσσας, την πρόβλεψη χρονοσειρών και την εξατομίκευση.
Βαλ Κοέν είναι ανώτερος μηχανικός πρωτοτύπων WWSO με έδρα το Λονδίνο. Λύσης προβλημάτων από τη φύση της, η Val απολαμβάνει να γράφει κώδικα για να αυτοματοποιεί τις διαδικασίες, να δημιουργεί εργαλεία εμμονής για τους πελάτες και να δημιουργεί υποδομή για διάφορες εφαρμογές για την παγκόσμια πελατειακή της βάση. Η Val έχει εμπειρία σε μια μεγάλη ποικιλία τεχνολογιών, όπως ανάπτυξη web front-end, backend εργασία και AI/ML.
Νάιλ Ρόμπινσον είναι επικεφαλής των προθεσμιακών συμβολαίων προϊόντων στο Met Office του Ηνωμένου Βασιλείου. Αυτός και η ομάδα του διερευνούν νέους τρόπους με τους οποίους το Met Office μπορεί να προσφέρει αξία μέσω της καινοτομίας προϊόντων και των στρατηγικών συνεργασιών. Είχε μια ποικίλη καριέρα, ηγέτης μιας διεπιστημονικής ομάδας Ε&Α πληροφορικής, ακαδημαϊκής έρευνας στην επιστήμη δεδομένων και επιστήμονας πεδίου μαζί με τεχνογνωσία σε μοντελιστές κλίματος.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- Αγορά και πώληση μετοχών σε εταιρείες PRE-IPO με το PREIPO®. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/build-efficient-cross-regional-i-o-intensive-workloads-with-dask-on-aws/
- :έχει
- :είναι
- :που
- $UP
- 1
- 10
- 100
- 11
- 12
- 20
- 24
- 3d
- 40
- 50
- 7
- 9
- a
- ικανότητα
- Ικανός
- Σχετικα
- πάνω από
- ΠΕΡΙΛΗΨΗ
- περιλήψεις
- ακαδημαϊκής
- ακαδημαϊκή έρευνα
- επιταχύνουν
- επιταχύνοντας
- πρόσβαση
- πρόσβαση
- φιλοξενώ
- ολοκληρώσει
- Λογαριασμός
- Επιτυγχάνει
- απέναντι
- προσαρμόζεται
- προστιθέμενη
- προσθήκη
- Πρόσθετος
- Επιπλέον
- διεύθυνση
- διευθυνσιοδότηση
- Προσθέτει
- διαχειριστές
- θετός
- Υιοθεσία
- Μετά το
- AI / ML
- ΑΕΡΑ
- Όλα
- Επιτρέποντας
- επιτρέπει
- κατά μήκος
- Επίσης
- Amazon
- Amazon EC2
- an
- ανάλυση
- και
- κάθε
- εμφανίζομαι
- Εφαρμογή
- εφαρμογές
- πλησιάζω
- προσεγγίσεις
- κατάλληλος
- αρχιτεκτονική
- ΕΙΝΑΙ
- AS
- At
- Ατμόσφαιρα
- ατμοσφαιρική
- αυτοματοποίηση
- αποφύγετε
- AWS
- Πελάτης AWS
- Σπονδυλική στήλη
- υποστηρίζεται
- Backend
- φόντο
- Υπόλοιπο
- βάση
- βασίζονται
- BE
- γίνονται
- ήταν
- πριν
- είναι
- παρακάτω
- αναφοράς
- Καλύτερα
- μεταξύ
- Μεγάλος
- Big Data
- Bootstrap
- και οι δύο
- Φέρνοντας
- Σπασμένος
- χτίζω
- Κτίριο
- χτισμένο
- ενσωματωμένο
- επιχείρηση
- αλλά
- by
- υπολογίσει
- κλήση
- που ονομάζεται
- κλήση
- κλήσεις
- CAN
- δυνατότητες
- ικανός
- Σταδιοδρομία
- κατάλογος
- CD
- Κύτταρα
- πρόκληση
- πρόκληση
- αλλαγή
- αλλαγή
- χρέωση
- φορτία
- επιλογές
- Κυκλοφορία
- πελάτης
- Κλίμα
- πιο κοντά
- Backup
- συστάδα
- CO
- κωδικός
- βάση κώδικα
- συνεργασία
- Συλλέγοντας
- Ελάτε
- έρχεται
- ερχομός
- σχόλιο
- κοινότητα
- Εταιρείες
- πλήρης
- συγκρότημα
- εξαρτήματα
- Αποτελείται
- υπολογισμός
- Υπολογίστε
- υπολογιστή
- Computer Vision
- χρήση υπολογιστή
- διαμόρφωση
- Connect
- συνδεδεμένος
- Συνδετικός
- σύνδεση
- Καταναλωτές
- κατανάλωση
- Δοχείο
- Περιέχει
- ΣΥΝΕΧΕΙΑ
- συνεχίζεται
- αντίγραφα
- πυρήνας
- διορθώσει
- Κόστος
- αποδοτική
- θα μπορούσε να
- σε συνδυασμό
- CPU
- δημιουργία
- δημιουργεί
- Δημιουργικός
- κρίσιμης
- καλλιέργεια
- Σταυρός
- περιέργεια
- Ρεύμα
- έθιμο
- πελάτης
- Πελάτες
- προσαρμόσιμη
- προσαρμόσετε
- καθημερινά
- ταμπλό
- ημερομηνία
- επιστημονικά δεδομένα
- στρατηγική δεδομένων
- σύνολα δεδομένων
- ημέρα
- δεκαετία
- αποφάσεις
- Προεπιλογή
- Ζήτηση
- καταδεικνύει
- παρατάσσω
- αναπτυχθεί
- ανάπτυξη
- αναπτύσσεται
- σχεδιασμένα
- καταστρέψει
- λεπτομερής
- καθέκαστα
- Προσδιορίστε
- ανάπτυξη
- Εργολάβος
- Ανάπτυξη
- Συσκευές
- διαφορά
- ανάπηρος
- ανακάλυψη
- Display
- διανέμονται
- κατανεμημένων υπολογιστών
- dns
- Λιμενεργάτης
- τομέα
- κάτω
- δυναμικός
- δυναμικά
- κάθε
- ευκολία
- εύκολα
- άκρη
- επεξεργασία
- αποτελεσματικός
- αλλού
- ενεργοποιήσετε
- από άκρη σε άκρη
- ενέργεια
- δέσμευση
- μηχανικός
- καταχώριση
- Περιβάλλον
- Ισοδύναμος
- Εποχή
- αναμενόμενη
- Αιθέρας (ΕΤΗ)
- Κάθε
- κάθε μέρα
- καθημερινά
- εξελίσσονται
- παράδειγμα
- παραδείγματα
- εμπειρία
- πείραμα
- εξειδίκευση
- διερευνήσει
- εξαγωγή
- εκτεθειμένος
- επέκταση
- γρηγορότερα
- Χαρακτηριστικό
- Χαρακτηριστικά
- πεδίο
- Πεδία
- Αρχεία
- Αρχεία
- Εύρεση
- Όνομα
- εστιάζει
- ακολουθήστε
- Εξής
- τροφή
- Για
- μορφή
- μορφή
- μορφές
- Βρέθηκαν
- Ίδρυση
- Πλαίσιο
- πλαισίων
- Δωρεάν
- από
- καρποφορία
- πλήρη
- λειτουργικότητα
- περαιτέρω
- μελλοντικός
- futures
- General
- γενεά
- παίρνω
- να πάρει
- Git
- Παγκόσμιο
- παγκόσμιο δίκτυο
- Παγκόσμια
- σφαίρα
- μετάβαση
- γραφική παράσταση
- μεγαλύτερη
- Πλέγμα
- Grow
- Μεγαλώνοντας
- είχε
- Ήμισυ
- κατά το ήμισυ
- Έχω
- he
- κεφάλι
- βοήθεια
- βοηθά
- αυτήν
- Ψηλά
- υψηλή απόδοση
- ανταύγειες
- του
- ιστορικών
- οικοδεσπότης
- φιλοξενείται
- ώρα
- Πως
- Πώς να
- Ωστόσο
- HTML
- HTTPS
- αναγνώσιμη από άνθρωπο
- Εκατοντάδες
- Idle
- ids
- if
- απεικονίζει
- εισαγωγή
- εισαγωγή
- βελτίωση
- βελτίωση
- in
- περιλαμβάνουν
- περιλαμβάνει
- αυξημένη
- ευρετήριο
- υποδεικνύω
- πληροφορώ
- πληροφορίες
- Υποδομή
- συμφυής
- Καινοτομία
- εισαγωγή
- ανασφάλεια
- διορατικότητα
- εμπνευσμένος
- εγκαθιστώ
- παράδειγμα
- αντί
- οδηγίες
- ολοκλήρωση
- Εκ προθέσεως
- αλληλεπιδρούν
- αλληλεπιδρώντας
- περιβάλλον λειτουργίας
- εσωτερικός
- Internet
- σε
- προσκαλούν
- IoT
- IP
- Διεύθυνση IP
- θέματα
- IT
- ΤΟΥ
- Δουλειά
- ταξίδι
- jpg
- Jupyter Notebook
- Διατήρηση
- Κλειδί
- Ξέρω
- Γλώσσα
- large
- Επίθετο
- Αφάνεια
- ξεκινήσει
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- Βιβλιοθήκη
- κύκλος ζωής
- Μου αρέσει
- σύνδεση
- Λιστα
- φορτίο
- τοπικός
- τοπικά
- που βρίσκεται
- τοποθεσία
- Λονδίνο
- μηχανή
- μάθηση μηχανής
- μεγάλες
- κάνω
- διαχείριση
- διευθυντής
- διαχειρίζεται
- χάρτη
- χαρτης
- Μάζα
- Μαζική υιοθεσία
- υλικό
- Ενδέχεται..
- εννοώ
- μηχανισμός
- Μεταδεδομένα
- εκατομμύρια
- ML
- μοντέλο
- ΜΟΝΤΕΡΝΑ
- ενότητες
- Μηνας
- μηνιαίος
- μηνιαία στοιχεία
- περισσότερο
- πλέον
- ΤΟΠΟΘΕΤΗΣΗ
- διεπιστημονική
- όνομα
- εθνικός
- Φυσικό
- Φυσική γλώσσα
- Επεξεργασία φυσικής γλώσσας
- Φύση
- απαραίτητος
- Ανάγκη
- χρειάζονται
- δίκτυο
- Νέα
- επόμενη
- βράδυ
- κόμβος
- κόμβων
- σημειωματάριο
- φορητούς υπολογιστές
- τώρα
- αριθμός
- αριθμοί
- of
- προσφορά
- Office
- on
- ONE
- αποκλειστικά
- ανοίξτε
- ανοιχτά δεδομένα
- ανοικτού κώδικα
- κώδικα ανοιχτού κώδικα
- επιχειρήσεων
- Επιλογή
- Επιλογές
- or
- ενορχήστρωση
- οργανώσεις
- ΑΛΛΑ
- δικός μας
- έξω
- αποτελέσματα
- παραγωγή
- επί
- φόρμες
- πακέτο
- παράμετρος
- μέρος
- Ειδικότερα
- ιδιαίτερα
- συνεργασίες
- πέρασε
- Πέρασμα
- πρότυπο
- επίδοση
- έμμηνα
- εξατομίκευση
- πεταμπάιτ
- φάση
- σχέδιο
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Σημείο
- πισίνα
- λιμένες
- δυνατός
- Θέση
- δυναμικού
- δύναμη
- ισχυρός
- πρακτική
- πρόβλεψη
- Προβλέψεις
- προαπαιτούμενα
- προηγούμενος
- πρωταρχικός
- Κύριος
- ιδιωτικός
- Πρόβλημα
- προβλήματα
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- Παράγεται
- Προϊόν
- Καινοτομία προϊόντων
- παραγωγικός
- Πρόγραμμα
- Προγραμματισμός
- σχέδιο
- πρωτότυπα
- προτυποποίηση
- παρέχουν
- παρέχεται
- παρέχει
- πρόβλεψη
- δημόσιο
- δημοσιεύει
- δημοσιεύθηκε
- Τραβά
- ερωτήματα
- Ερωτήσεις
- Ε & Α
- σειρά
- μάλλον
- Έτοιμο
- πραγματικό κόσμο
- συνειδητοποιήσουν
- μείωση
- μείωση
- μείωση
- περιοχή
- περιφερειακός
- περιοχές
- αμείλικτος
- λείψανα
- αφαιρέστε
- Καταργήθηκε
- Αποθήκη
- αντιπροσωπεύει
- έρευνα
- Υποστηρικτικό υλικό
- εκείνοι
- Αποτελέσματα
- Ρόλος
- τρέξιμο
- τρέξιμο
- SA
- ένα ασφαλές
- σοφός
- ίδιο
- Αποθήκευση
- επεκτάσιμη
- Κλίμακα
- Ζυγός
- απολέπιση
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- Εφαρμογές
- δευτερόλεπτα
- Τμήμα
- δείτε
- δει
- τμήματα
- επιλέγονται
- επιλογή
- αρχαιότερος
- Σειρές
- Χωρίς διακομιστή
- εξυπηρετεί
- υπηρεσία
- Υπηρεσίες
- σειρά
- Κοινοποίηση
- Shared
- θα πρέπει να
- δείχνουν
- ανάδειξη
- Δείχνει
- Απλούς
- απλά
- έκτος
- επιβραδύνουν
- So
- λύση
- Λύσεις
- SOLVE
- μερικοί
- Πηγή
- χωρική
- ειδικά
- προδιαγραφές
- καθορίζεται
- αιγίδα
- σωρός
- στάδια
- αυτόνομο
- Εκκίνηση
- ξεκίνησε
- παραμονή
- Βήματα
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- καταστήματα
- ειλικρινής
- Στρατηγική
- Στρατηγικές Συνεργασίες
- Στρατηγική
- μεταγενέστερος
- Ακολούθως
- επιτυχής
- τέτοιος
- Επιφάνεια
- ανακύπτει
- Βιωσιμότητα
- βιώσιμης
- σύστημα
- συστήματα
- τραπέζι
- Πάρτε
- tech
- Τεχνολογίες
- Τεχνολογία
- δοκιμή
- από
- ότι
- Η
- οι πληροφορίες
- Η Πηγη
- το Ηνωμένο Βασίλειο
- ο κόσμος
- τους
- τότε
- Εκεί.
- εκ τούτου
- Αυτοί
- αυτοί
- αυτό
- εκείνοι
- τρία
- Ευδοκιμούν
- Μέσω
- διακίνηση
- ώρα
- Χρονική σειρά
- φορές
- τίτλους
- προς την
- σήμερα
- μαζι
- εργαλεία
- τροχιά
- Παρακολούθηση
- μεταφορά
- μετασχηματίζοντας
- διαμετακόμιση
- ενεργοποίηση
- ΣΤΡΟΦΗ
- δύο
- τύπος
- Typescript
- τυπικός
- Uk
- υπό
- ξεκλειδώσετε
- μη βιώσιμη
- up-to-ημερομηνία
- ενημερώσεις
- επάνω σε
- URI
- Χρήση
- χρήση
- μεταχειρισμένος
- Χρήστες
- Χρήστες
- χρησιμοποιώντας
- UTC
- αξιοποιώντας
- VAL
- αξία
- ποικιλία
- διάφορα
- μέσω
- όραμα
- Επίσκεψη
- τόμος
- θέλω
- θέλει
- ζεστός
- ήταν
- Τρόπος..
- τρόπους
- we
- Weather
- ιστός
- Web ανάπτυξη
- ήταν
- αν
- Ποιό
- ευρύς
- Ευρύ φάσμα
- θα
- επιθυμίες
- με
- χωρίς
- Εργασία
- εργάτης
- εργαζομένων
- κόσμος
- ανησυχία
- θα
- γραφή
- χρόνια
- ακόμη
- Βελτιστοποίηση
- εσείς
- Σας
- zephyrnet