Καθώς η μηχανική δεδομένων γίνεται ολοένα και πιο περίπλοκη, οι οργανισμοί αναζητούν νέους τρόπους για να εξορθολογίσουν τις ροές εργασίας επεξεργασίας δεδομένων τους. Πολλοί μηχανικοί δεδομένων σήμερα χρησιμοποιούν το Apache Airflow για την κατασκευή, τον προγραμματισμό και την παρακολούθηση των αγωγών δεδομένων τους.
Ωστόσο, καθώς ο όγκος των δεδομένων αυξάνεται, η διαχείριση και η κλιμάκωση αυτών των αγωγών μπορεί να γίνει μια τρομακτική εργασία. Ροές εργασίας που διαχειρίζεται η Amazon για ροή αέρα Apache (Amazon MWAA) μπορεί να βοηθήσει στην απλοποίηση της διαδικασίας κατασκευής, λειτουργίας και διαχείρισης αγωγών δεδομένων. Παρέχοντας το Apache Airflow ως μια πλήρως διαχειριζόμενη πλατφόρμα, το Amazon MWAA επιτρέπει στους μηχανικούς δεδομένων να επικεντρώνονται στη δημιουργία ροών εργασίας δεδομένων αντί να ανησυχούν για την υποδομή.
Σήμερα, οι επιχειρήσεις και οι οργανισμοί απαιτούν οικονομικά αποδοτικούς και αποδοτικούς τρόπους για την επεξεργασία μεγάλων ποσοτήτων δεδομένων. Amazon EMR χωρίς διακομιστή είναι μια οικονομικά αποδοτική και επεκτάσιμη λύση για την επεξεργασία μεγάλων δεδομένων που μπορεί να χειριστεί μεγάλους όγκους δεδομένων. Ο πάροχος Amazon στο Apache Airflow συνοδεύεται από χειριστές EMR Serverless και περιλαμβάνεται ήδη στο Amazon MWAA, διευκολύνοντας τους μηχανικούς δεδομένων να δημιουργήσουν επεκτάσιμους και αξιόπιστους αγωγούς επεξεργασίας δεδομένων. Μπορείτε να χρησιμοποιήσετε το EMR Serverless για να εκτελέσετε εργασίες Spark στα δεδομένα και να χρησιμοποιήσετε το Amazon MWAA για να διαχειριστείτε τις ροές εργασίας και τις εξαρτήσεις μεταξύ αυτών των εργασιών. Αυτή η ενοποίηση μπορεί επίσης να συμβάλει στη μείωση του κόστους με την αυτόματη κλιμάκωση των πόρων που απαιτούνται για την επεξεργασία δεδομένων.
Το Amazon Athena είναι μια διαδραστική υπηρεσία ανάλυσης χωρίς διακομιστή, βασισμένη σε πλαίσια ανοιχτού κώδικα, που υποστηρίζει ανοιχτούς πίνακες και μορφές αρχείων. Μπορείτε να χρησιμοποιήσετε τυπική SQL για αλληλεπίδραση με δεδομένα. Η Athena, μια υπηρεσία ανάλυσης χωρίς διακομιστή και διαδραστική, το καθιστά δυνατό χωρίς την ανάγκη διαχείρισης πολύπλοκων υποδομών.
Σε αυτήν την ανάρτηση, χρησιμοποιούμε το Amazon MWAA, το EMR Serverless και το Athena για να δημιουργήσουμε έναν πλήρη αγωγό επεξεργασίας δεδομένων από άκρο σε άκρο.
Επισκόπηση λύσεων
Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.
Η ροή εργασίας περιλαμβάνει τα ακόλουθα βήματα:
- Δημιουργήστε μια ροή εργασίας Amazon MWAA που ανακτά δεδομένα από τα δεδομένα εισόδου σας Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος.
- Χρησιμοποιήστε το EMR Serverless για να επεξεργαστείτε τα δεδομένα που είναι αποθηκευμένα στο Amazon S3. Το EMR Serverless κλιμακώνεται αυτόματα προς τα πάνω ή προς τα κάτω με βάση τον φόρτο εργασίας, επομένως δεν χρειάζεται να ανησυχείτε για την παροχή ή τη διαχείριση οποιασδήποτε υποδομής.
- Χρησιμοποιήστε το EMR Serverless για να μετατρέψετε τα δεδομένα χρησιμοποιώντας τον κώδικα PySpark και, στη συνέχεια, αποθηκεύστε τα μετασχηματισμένα δεδομένα στον κάδο S3 σας.
- Χρησιμοποιήστε το Athena για να δημιουργήσετε έναν εξωτερικό πίνακα με βάση το σύνολο δεδομένων S3 και να εκτελέσετε ερωτήματα για να αναλύσετε τα μετασχηματισμένα δεδομένα. Η Αθηνά χρησιμοποιεί το Κόλλα AWS Κατάλογος δεδομένων για την αποθήκευση των μεταδεδομένων πίνακα.
Προϋποθέσεις
Θα πρέπει να έχετε τις ακόλουθες προϋποθέσεις:
Προετοιμασία δεδομένων
Για να δείξουμε τη χρήση εργασιών χωρίς διακομιστή EMR με το Apache Spark μέσω του Amazon MWAA και την επικύρωση δεδομένων χρησιμοποιώντας το Athena, χρησιμοποιούμε το δημοσίως διαθέσιμο σύνολο δεδομένων ταξί της Νέας Υόρκης. Κατεβάστε τα ακόλουθα σύνολα δεδομένων στον τοπικό σας υπολογιστή:
- Ρεκόρ πράσινων ταξί και κίτρινων ταξιδιών ταξί – Εγγραφές ταξιδιών για κίτρινα και πράσινα ταξί, που περιλαμβάνουν πληροφορίες όπως ημερομηνίες και ώρες παραλαβής και αποβίβασης, τοποθεσίες, αποστάσεις ταξιδιού και είδη πληρωμής. Στο παράδειγμά μας, χρησιμοποιούμε τα πιο πρόσφατα αρχεία Parquet για το 2022.
- Σύνολο δεδομένων για αναζήτηση ζώνης ταξί – Ένα σύνολο δεδομένων που παρέχει αναγνωριστικά τοποθεσίας και στοιχεία αντίστοιχων ζωνών για ταξί.
Σε επόμενα βήματα, ανεβάζουμε αυτά τα σύνολα δεδομένων στο Amazon S3.
Δημιουργήστε πόρους λύσης
Αυτή η ενότητα περιγράφει τα βήματα για τη ρύθμιση της επεξεργασίας και του μετασχηματισμού δεδομένων.
Δημιουργήστε μια εφαρμογή χωρίς διακομιστή EMR
Μπορείτε να δημιουργήσετε μία ή περισσότερες εφαρμογές χωρίς διακομιστή EMR που χρησιμοποιούν πλαίσια αναλυτικών στοιχείων ανοιχτού κώδικα όπως το Apache Spark ή το Apache Hive. Σε αντίθεση με το EMR στο EC2, δεν χρειάζεται να διαγράψετε ή να τερματίσετε εφαρμογές χωρίς διακομιστή EMR. Η εφαρμογή χωρίς διακομιστή EMR είναι μόνο ένας ορισμός και μόλις δημιουργηθεί, μπορεί να επαναχρησιμοποιηθεί όσο χρειάζεται. Αυτό κάνει τον αγωγό MWAA απλούστερο καθώς τώρα πρέπει απλώς να υποβάλετε εργασίες σε μια προ-δημιουργημένη εφαρμογή EMR Serverless.
Από προεπιλογή, η εφαρμογή χωρίς διακομιστή EMR θα ξεκινήσει αυτόματα κατά την υποβολή της εργασίας και θα σταματήσει αυτόματα όταν είναι σε αδράνεια για 15 λεπτά από προεπιλογή για να διασφαλίσει την αποδοτικότητα του κόστους. Μπορείτε να τροποποιήσετε τον χρόνο αδράνειας ή να επιλέξετε να απενεργοποιήσετε τη λειτουργία.
Για να δημιουργήσετε μια εφαρμογή χρησιμοποιώντας κονσόλα χωρίς διακομιστή EMR, ακολουθήστε τις οδηγίες στο "Δημιουργήστε μια εφαρμογή χωρίς διακομιστή EMR". Σημειώστε το αναγνωριστικό της εφαρμογής καθώς θα το χρησιμοποιήσουμε στα ακόλουθα βήματα.
Δημιουργήστε έναν κάδο και φακέλους S3
Ολοκληρώστε τα παρακάτω βήματα για να ρυθμίσετε τον κάδο και τους φακέλους S3:
- Στην κονσόλα Amazon S3, δημιουργήστε έναν κάδο S3 για να αποθηκεύσετε το σύνολο δεδομένων.
- Σημειώστε το όνομα του κάδου S3 για χρήση σε μεταγενέστερα βήματα.
- Δημιουργία ενός
input_data
φάκελο για την αποθήκευση δεδομένων εισόδου. - Μέσα σε αυτόν τον φάκελο, δημιουργήστε τρεις ξεχωριστούς φακέλους, έναν για κάθε σύνολο δεδομένων:
green
,yellow
, ναzone_lookup
.
Μπορείτε να κάνετε λήψη και να εργαστείτε με τα πιο πρόσφατα διαθέσιμα σύνολα δεδομένων. Για τη δοκιμή μας, χρησιμοποιούμε τα ακόλουθα αρχεία:
- Η
green/
φάκελος έχει το αρχείοgreen_tripdata_2022-06.parquet
- Η
yellow/
φάκελος έχει το αρχείοyellow_tripdata_2022-06.parquet
- Η
zone_lookup/
φάκελος έχει το αρχείοtaxi_zone_lookup.csv
Ρυθμίστε τα σενάρια Amazon MWAA DAG
Ολοκληρώστε τα παρακάτω βήματα για να ρυθμίσετε τα σενάρια DAG:
- Κατεβάστε τα ακόλουθα σενάρια στον τοπικό σας υπολογιστή:
- απαιτήσεις.txt – Εξάρτηση Python είναι οποιοδήποτε πακέτο ή διανομή που δεν περιλαμβάνεται στην εγκατάσταση βάσης Apache Airflow για την έκδοση Apache Airflow στο περιβάλλον Amazon MWAA. Για αυτήν την ανάρτηση, χρησιμοποιούμε το Boto3
version >=1.23.9
. - blog_dag_mwaa_emrs_ny_taxi.py – Αυτό το σενάριο είναι μέρος του Amazon MWAA DAG και αποτελείται από τις ακόλουθες εργασίες:
yellow_taxi_zone_lookup
,green_taxi_zone_lookup
, ναny_taxi_summary
,. Αυτές οι εργασίες περιλαμβάνουν την εκτέλεση εργασιών Spark για την αναζήτηση ζωνών ταξί και τη δημιουργία μιας σύνοψης δεδομένων . - green_zone.py – Αυτό το σενάριο PySpark διαβάζει αρχεία δεδομένων για βόλτες με πράσινο ταξί και αναζήτηση ζώνης, εκτελεί μια λειτουργία σύνδεσης για να τα συνδυάσει και δημιουργεί ένα αρχείο εξόδου που περιέχει πράσινες βόλτες με ταξί με πληροφορίες ζώνης. Χρησιμοποιεί προσωρινές όψεις για το
df_green
καιdf_zone
πλαίσια δεδομένων, εκτελεί ενώσεις βάσει στήλης και συγκεντρώνει δεδομένα όπως ο αριθμός των επιβατών, η απόσταση ταξιδιού και το ποσό του ναύλου. Τέλος, δημιουργεί τοoutput_data
φάκελο στον καθορισμένο κάδο S3 για να γράψετε το πλαίσιο δεδομένων που προκύπτει,df_green_zone
, ως αρχεία Παρκέ. - yellow_zone.py – Αυτό το σενάριο PySpark επεξεργάζεται αρχεία δεδομένων αναζήτησης κίτρινου ταξί και ζώνης ενώνοντάς τα για να δημιουργήσει ένα αρχείο εξόδου που περιέχει κίτρινες διαδρομές ταξί με πληροφορίες ζώνης. Το σενάριο δέχεται ένα όνομα κάδου S3 που παρέχεται από τον χρήστη και ξεκινά μια περίοδο λειτουργίας Spark με το όνομα της εφαρμογής
yellow_zone
. Διαβάζει τα κίτρινα αρχεία ταξί και το αρχείο αναζήτησης ζώνης από τον καθορισμένο κάδο S3, δημιουργεί προσωρινές προβολές, εκτελεί μια ένωση με βάση το αναγνωριστικό τοποθεσίας και υπολογίζει στατιστικά στοιχεία όπως τον αριθμό των επιβατών, την απόσταση ταξιδιού και το ποσό του ναύλου. Τέλος, δημιουργεί τοoutput_data
φάκελο στον καθορισμένο κάδο S3 για να γράψετε το πλαίσιο δεδομένων που προκύπτει,df_yellow_zone
, ως αρχεία Παρκέ. - ny_taxi_summary.py – Αυτό το σενάριο PySpark επεξεργάζεται το
green_zone
καιyellow_zone
αρχεία για τη συγκέντρωση στατιστικών στοιχείων για τις διαδρομές με ταξί, ομαδοποίηση δεδομένων ανά ζώνες εξυπηρέτησης και αναγνωριστικά τοποθεσίας. Απαιτεί ένα όνομα κάδου S3 ως όρισμα γραμμής εντολών, δημιουργεί ένα SparkSession με όνομαny_taxi_summary
, διαβάζει τα αρχεία από το S3, εκτελεί μια ένωση και δημιουργεί ένα νέο πλαίσιο δεδομένων με το όνομαny_taxi_summary
. Δημιουργεί έναν φάκελο output_data στον καθορισμένο κάδο S3 για να γράψει το πλαίσιο δεδομένων που προκύπτει σε νέα αρχεία Parquet.
- απαιτήσεις.txt – Εξάρτηση Python είναι οποιοδήποτε πακέτο ή διανομή που δεν περιλαμβάνεται στην εγκατάσταση βάσης Apache Airflow για την έκδοση Apache Airflow στο περιβάλλον Amazon MWAA. Για αυτήν την ανάρτηση, χρησιμοποιούμε το Boto3
- Στον τοπικό σας υπολογιστή, ενημερώστε το
blog_dag_mwaa_emrs_ny_taxi.py
script με τις ακόλουθες πληροφορίες:- Ενημερώστε το όνομα του κάδου S3 στις ακόλουθες δύο γραμμές:
- Ενημερώστε το όνομα του ρόλου σας ARN:
- Ενημερώστε το αναγνωριστικό εφαρμογής χωρίς διακομιστή EMR. Χρησιμοποιήστε το αναγνωριστικό εφαρμογής που δημιουργήθηκε νωρίτερα.
- Ανεβάστε το
requirements.txt
αρχείο στον κάδο S3 που δημιουργήθηκε νωρίτερα - Στον κάδο S3, δημιουργήστε έναν φάκελο με το όνομα
dags
και ανεβάστε το ενημερωμένοblog_dag_mwaa_emrs_ny_taxi.py
αρχείο από τον τοπικό σας υπολογιστή. - Στην κονσόλα Amazon S3, δημιουργήστε έναν νέο φάκελο με το όνομα
scripts
μέσα στον κάδο S3 και μεταφορτώστε τα σενάρια σε αυτόν τον φάκελο από τον τοπικό σας υπολογιστή.
Δημιουργήστε ένα περιβάλλον Amazon MWAA
Για να δημιουργήσετε ένα περιβάλλον Airflow, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα Amazon MWAA, επιλέξτε Δημιουργήστε περιβάλλον.
- Για Όνομα, εισαγω
mwaa_emrs_athena_pipeline
. - Για Έκδοση ροής αέρα, επιλέξτε την πιο πρόσφατη έκδοση (για αυτήν την ανάρτηση, 2.5.1).
- Για Κάδος S3, εισαγάγετε τη διαδρομή προς τον κάδο S3 σας.
- Για Φάκελος DAGs, εισαγάγετε τη διαδρομή προς σας
dags
φάκελο. - Για Αρχείο απαιτήσεων, εισάγετε το μονοπάτι προς το
requirements.txt
αρχείο. - Επιλέξτε Επόμενο.
- Για Εικονικό ιδιωτικό σύννεφο (VPC), επιλέξτε ένα VPC που έχει τουλάχιστον δύο ιδιωτικά υποδίκτυα.
Αυτό θα συμπληρώσει δύο από τα ιδιωτικά υποδίκτυα στο VPC σας.
- Κάτω από Πρόσβαση σε διακομιστή Ιστού, Επιλέξτε Δημόσιο δίκτυο.
Αυτό επιτρέπει στο Apache Airflow UI να είναι προσβάσιμο μέσω Διαδικτύου από χρήστες στους οποίους έχει παραχωρηθεί πρόσβαση στο Πολιτική IAM για το περιβάλλον σας.
- Για Ομάδες ασφαλείας, Επιλέξτε Δημιουργία νέας ομάδας ασφαλείας.
- Για Περιβαλλοντική τάξη, Επιλέξτε mw1.μικρό.
- Για Ο ρόλος εκτέλεσης, επιλέξτε Δημιουργήστε ένα νέο ρόλο.
- Για Όνομα ρόλου, πληκτρολογήστε ένα όνομα.
- Αφήστε τις άλλες διαμορφώσεις ως προεπιλογές και επιλέξτε Επόμενο.
- Στην επόμενη σελίδα, επιλέξτε Δημιουργία θετική ατμόσφαιρα.
Μπορεί να χρειαστούν περίπου 20–30 λεπτά για να δημιουργήσετε το περιβάλλον Amazon MWAA σας.
- Όταν η κατάσταση περιβάλλοντος MWAA του Amazon αλλάζει σε Διαθέσιμος, μεταβείτε στην κονσόλα IAM και ενημερώστε τον ρόλο εκτέλεσης συμπλέγματος για προσθήκη περάσουν προνόμια ρόλου προς την
emr_serverless_execution_role
.
Ενεργοποιήστε το Amazon MWAA DAG
Για να ενεργοποιήσετε το DAG, ολοκληρώστε τα ακόλουθα βήματα:
- Στην κονσόλα Amazon MWAA, επιλέξτε Περιβάλλοντα στο παράθυρο πλοήγησης.
- Ανοίξτε το περιβάλλον σας και επιλέξτε Ανοίξτε το περιβάλλον χρήστη ροής αέρα.
- Αγορά
blog_dag_mwaa_emr_ny_taxi
, επιλέξτε το εικονίδιο αναπαραγωγής και επιλέξτε Σκανδάλη DAG. - Όταν εκτελείται το DAG, επιλέξτε το DAG
blog_dag_mwaa_emrs_ny_taxi
Και επιλέξτε Διάγραμμα για να εντοπίσετε τη ροή εργασιών εκτέλεσης DAG.
Το DAG θα χρειαστεί περίπου 4–6 λεπτά για να τρέξει όλα τα σενάρια. Θα δείτε όλες τις πλήρεις εργασίες και η συνολική κατάσταση του DAG θα εμφανίζεται ως επιτυχία.
Για να εκτελέσετε ξανά το DAG, αφαιρέστε s3://<<your_s3_bucket here >>/output_data/
.
Προαιρετικά, για να κατανοήσετε πώς το Amazon MWAA εκτελεί αυτές τις εργασίες, επιλέξτε την εργασία που θέλετε να επιθεωρήσετε.
Επιλέξτε τρέξιμο για να δείτε τις λεπτομέρειες εκτέλεσης εργασιών.
Το ακόλουθο στιγμιότυπο οθόνης δείχνει ένα παράδειγμα των αρχείων καταγραφής εργασιών.
Εάν θέλετε να βουτήξετε βαθιά στα αρχεία καταγραφής εκτέλεσης, τότε στην κονσόλα χωρίς διακομιστή EMR, μεταβείτε στις "Εφαρμογές". Τα αρχεία καταγραφής του προγράμματος οδήγησης Apache Spark θα υποδεικνύουν την έναρξη της εργασίας σας μαζί με τις λεπτομέρειες για τους εκτελεστές, τα στάδια και τις εργασίες που δημιουργήθηκαν από το EMR Serverless. Αυτά τα αρχεία καταγραφής μπορεί να είναι χρήσιμα για την παρακολούθηση της προόδου της εργασίας σας και την αντιμετώπιση προβλημάτων.
Από προεπιλογή, το EMR Serverless θα αποθηκεύει τα αρχεία καταγραφής εφαρμογών με ασφάλεια στη διαχειριζόμενη αποθήκευση EMR του Amazon για μια περίοδο 30 ημερών. Ωστόσο, μπορείτε επίσης να προσδιορίσετε Amazon S3 ή Amazon CloudWatch ως επιλογές παράδοσης αρχείων καταγραφής κατά την υποβολή της εργασίας.
Επικυρώστε το τελικό αποτέλεσμα με την Αθηνά
Ας επικυρώσουμε τα δεδομένα που φορτώθηκαν από τη διαδικασία χρησιμοποιώντας ερωτήματα Athena SQL.
- Στην κονσόλα Athena, επιλέξτε Ερώτημα-επεξεργαστής στο παράθυρο πλοήγησης.
- Εάν χρησιμοποιείτε το Athena για πρώτη φορά, κάτω από ρυθμίσεις, επιλέξτε Διαχειριστείτε και εισαγάγετε τη θέση του κάδου S3 που δημιουργήσατε νωρίτερα (
<S3_BUCKET_NAME>/athena
), Στη συνέχεια, επιλέξτε Αποθήκευση. - Στο πρόγραμμα επεξεργασίας ερωτημάτων, εισαγάγετε το ακόλουθο ερώτημα για να δημιουργήσετε έναν εξωτερικό πίνακα:
Εκτελέστε το ακόλουθο ερώτημα στο πρόσφατα δημιουργημένο ny_taxi_summary
πίνακα για την ανάκτηση των πρώτων 10 σειρών για την επικύρωση των δεδομένων:
εκκαθάριση
Για να αποφύγετε μελλοντικές χρεώσεις, ολοκληρώστε τα παρακάτω βήματα:
- Στην κονσόλα Amazon S3, διαγράψτε τον κάδο S3 που δημιουργήσατε για να αποθηκεύσετε το Amazon MWAA DAG, τα σενάρια και τα αρχεία καταγραφής.
- Στην κονσόλα Athena, αποθέστε τον πίνακα που δημιουργήσατε:
- Στην κονσόλα Amazon MWAA, πλοηγηθείτε στο περιβάλλον που δημιουργήσατε και επιλέξτε Διαγραφή.
- Στην κονσόλα EMR Studio, διαγράψτε την εφαρμογή.
Για να διαγράψετε την εφαρμογή, μεταβείτε στο Κατάλογος εφαρμογών σελίδα. Επιλέξτε την εφαρμογή που δημιουργήσατε και επιλέξτε Ενέργειες → Διακοπή να σταματήσει η εφαρμογή. Αφού η εφαρμογή είναι σε κατάσταση ΔΙΑΚΟΠΗ, επιλέξτε την ίδια εφαρμογή και επιλέξτε Ενέργειες → Διαγραφή.
Συμπέρασμα
Η μηχανική δεδομένων είναι ένα κρίσιμο συστατικό πολλών οργανισμών και καθώς ο όγκος δεδομένων συνεχίζει να αυξάνεται, είναι σημαντικό να βρεθούν τρόποι για τον εξορθολογισμό των ροών εργασίας επεξεργασίας δεδομένων. Ο συνδυασμός των Amazon MWAA, EMR Serverless και Athena παρέχει μια ισχυρή λύση για την αποτελεσματική δημιουργία, εκτέλεση και διαχείριση αγωγών δεδομένων. Με αυτόν τον αγωγό επεξεργασίας δεδομένων από άκρο σε άκρο, οι μηχανικοί δεδομένων μπορούν εύκολα να επεξεργάζονται και να αναλύουν μεγάλες ποσότητες δεδομένων γρήγορα και οικονομικά χωρίς την ανάγκη διαχείρισης πολύπλοκων υποδομών. Η ενοποίηση αυτών των υπηρεσιών AWS παρέχει μια ισχυρή και επεκτάσιμη λύση για την επεξεργασία δεδομένων, βοηθώντας τους οργανισμούς να λαμβάνουν τεκμηριωμένες αποφάσεις με βάση τις γνώσεις τους για τα δεδομένα.
Τώρα που είδατε πώς να υποβάλετε εργασίες Spark σε EMR Serverless μέσω Amazon MWAA, σας ενθαρρύνουμε να χρησιμοποιήσετε το Amazon MWAA για να δημιουργήσετε μια ροή εργασίας που θα εκτελεί εργασίες PySpark μέσω EMR Serverless.
Χαιρετίζουμε τα σχόλια και τις ερωτήσεις σας. Μη διστάσετε να επικοινωνήσετε μαζί μας εάν έχετε οποιεσδήποτε ερωτήσεις ή σχόλια.
Σχετικά με τους συγγραφείς
Ραχούλ Σοναουάνε είναι κύριος αρχιτέκτονας λύσεων Analytics στο AWS με το AI/ML και το Analytics ως τομέα ειδικότητάς του.
Gaurav Parekh είναι ένας αρχιτέκτονας λύσεων που βοηθά τους πελάτες της AWS να δημιουργήσουν μοντέρνα αρχιτεκτονική μεγάλης κλίμακας. Ειδικεύεται στην ανάλυση δεδομένων και τη δικτύωση. Εκτός δουλειάς, ο Gaurav του αρέσει να παίζει κρίκετ, ποδόσφαιρο και βόλεϊ.
Ιστορικό Ελέγχου
Δεκέμβριος 2023: Αυτή η ανάρτηση ελέγχθηκε για τεχνική ακρίβεια από τον Santosh Gantaram, Sr. Technical Account Manager.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-spark-jobs-with-amazon-mwaa-and-data-validation-using-amazon-athena/
- :έχει
- :είναι
- :δεν
- $UP
- 1
- 10
- 100
- 118
- 15%
- 16
- 2022
- 2023
- 23
- 25
- 30
- 300
- 7
- 700
- 8
- 9
- 990
- a
- ΠΛΗΡΟΦΟΡΙΕΣ
- Αποδέχεται
- πρόσβαση
- πρόσβαση
- Λογαριασμός
- ακρίβεια
- προσθέτω
- Μετά το
- σύνολο
- AI / ML
- Όλα
- επιτρέπει
- κατά μήκος
- ήδη
- Επίσης
- Amazon
- Αμαζόν Αθηνά
- EMR Αμαζονίου
- Amazon υπηρεσίες Web
- ποσό
- Ποσά
- an
- analytics
- αναλύσει
- και
- κάθε
- Apache
- Apache Spark
- Εφαρμογή
- εφαρμογές
- περίπου
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- επιχείρημα
- AS
- At
- αυτομάτως
- διαθέσιμος
- AWS
- πίσω
- βάση
- βασίζονται
- BE
- γίνονται
- γίνεται
- μεταξύ
- Μεγάλος
- Big Data
- χτίζω
- Κτίριο
- χτισμένο
- επιχειρήσεις
- by
- υπολογίζει
- CAN
- κατάλογος
- αλλαγή
- Αλλαγές
- φορτία
- Επιλέξτε
- ταξινόμηση
- Backup
- συστάδα
- κωδικός
- συνδυασμός
- συνδυασμός
- έρχεται
- σχόλια
- πλήρης
- συγκρότημα
- συστατικό
- αποτελείται
- πρόξενος
- ΣΥΝΕΧΕΙΑ
- Αντίστοιχος
- Κόστος
- αποδοτική
- Δικαστικά έξοδα
- δημιουργία
- δημιουργήθηκε
- δημιουργεί
- κρίκετ
- κρίσιμης
- Πελάτες
- DAG
- ημερομηνία
- Δεδομένα Analytics
- επεξεργασία δεδομένων
- σύνολα δεδομένων
- Ημερομηνίες
- Ημ.
- αποφάσεις
- βαθύς
- Προεπιλογή
- ορισμός
- διανομή
- εξαρτήσεις
- Εξάρτηση
- καθέκαστα
- απόσταση
- διανομή
- κατάδυση
- do
- Μην
- διπλασιαστεί
- κάτω
- κατεβάσετε
- οδηγός
- Πτώση
- κατά την διάρκεια
- e
- κάθε
- Νωρίτερα
- εύκολα
- εύκολος
- συντάκτης
- αποδοτικότητα
- αποτελεσματικός
- αποτελεσματικά
- ενθαρρύνει
- από άκρη σε άκρη
- Μηχανική
- Μηχανικοί
- εξασφαλίζω
- εισάγετε
- Περιβάλλον
- ουσιώδης
- Αιθέρας (ΕΤΗ)
- παράδειγμα
- εκτέλεση
- εξωτερικός
- επιπλέον
- αποτυχίες
- Χαρακτηριστικό
- ανατροφοδότηση
- αισθάνομαι
- Αρχεία
- Αρχεία
- τελικός
- Εύρεση
- Όνομα
- πρώτη φορά
- Συγκέντρωση
- ακολουθήστε
- Εξής
- Για
- μορφή
- ΠΛΑΙΣΙΟ
- πλαισίων
- Δωρεάν
- από
- πλήρως
- μελλοντικός
- παράγουν
- δημιουργεί
- παραγωγής
- χορηγείται
- Πράσινο
- Grow
- μεγαλώνει
- Hadoop
- λαβή
- Έχω
- he
- βοήθεια
- χρήσιμο
- βοήθεια
- εδώ
- του
- Κυψέλη
- Πως
- Πώς να
- Ωστόσο
- HTML
- http
- HTTPS
- IAM
- ICON
- ID
- Idle
- ids
- if
- εικονογραφώ
- απεικονίζει
- in
- περιλαμβάνουν
- περιλαμβάνονται
- περιλαμβάνει
- όλο και περισσότερο
- υποδεικνύω
- πληροφορίες
- ενημερώνεται
- Υποδομή
- Αρχίζει
- μύηση
- εισαγωγή
- Ερωτήσεις
- μέσα
- ιδέες
- εγκαθιστώ
- αντί
- οδηγίες
- ολοκλήρωση
- αλληλεπιδρούν
- διαδραστικό
- Internet
- εμπλέκω
- IT
- Δουλειά
- Θέσεις εργασίας
- ενταχθούν
- ενώνει
- Ενώνει
- jpg
- μόλις
- large
- εν τέλει
- αργότερα
- αργότερο
- Μου αρέσει
- LIMIT
- γραμμή
- γραμμές
- τοπικός
- τοποθεσία
- θέσεις
- κούτσουρο
- Μακριά
- κοιτάζοντας
- αναζήτηση
- μηχανή
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- διαχείριση
- διαχειρίζεται
- διευθυντής
- διαχείριση
- πολοί
- Ενδέχεται..
- Μεταδεδομένα
- ελάχιστο
- πρακτικά
- ΜΟΝΤΕΡΝΑ
- τροποποιήσει
- Παρακολούθηση
- περισσότερο
- όνομα
- Ονομάστηκε
- Πλοηγηθείτε
- Πλοήγηση
- Ανάγκη
- που απαιτούνται
- δικτύωσης
- Νέα
- επόμενη
- Ν/Α
- τώρα
- NYC
- of
- off
- on
- μια φορά
- ONE
- αποκλειστικά
- ανοίξτε
- ανοικτού κώδικα
- λειτουργία
- φορείς
- Επιλογές
- or
- οργανώσεις
- ΑΛΛΑ
- δικός μας
- έξω
- περιγράφει
- παραγωγή
- εκτός
- επί
- φόρμες
- πακέτο
- σελίδα
- παράθυρο
- μέρος
- μονοπάτι
- πληρωμή
- εκτελεί
- περίοδος
- αγωγού
- πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δοκιμάστε να παίξετε
- παιχνίδι
- σας παρακαλούμε
- πολιτική
- δυνατός
- Θέση
- ισχυρός
- προαπαιτούμενα
- πρόληψη
- Κύριος
- ιδιωτικός
- διαδικασια μας
- Διεργασίες
- μεταποίηση
- Πρόοδος
- προμηθευτής
- παρέχει
- χορήγηση
- δημοσίως
- Python
- ερωτήματα
- Ερωτήσεις
- γρήγορα
- φθάσουν
- πρόσφατα
- αρχεία
- μείωση
- αξιόπιστος
- αφαιρέστε
- απαιτούν
- Απαιτεί
- Υποστηρικτικό υλικό
- αποτέλεσμα
- με αποτέλεσμα
- αξιολόγηση
- Βόλτα
- βόλτες
- εύρωστος
- Ρόλος
- ΣΕΙΡΑ
- τρέξιμο
- τρέξιμο
- τρέχει
- s
- ίδιο
- επεκτάσιμη
- Κλίμακα
- Ζυγός
- απολέπιση
- πρόγραμμα
- γραφή
- Εφαρμογές
- Τμήμα
- ασφαλώς
- ασφάλεια
- δείτε
- δει
- επιλέξτε
- ξεχωριστό
- διακομιστής
- Χωρίς διακομιστή
- υπηρεσία
- Υπηρεσίες
- Συνεδρίαση
- σειρά
- τον καθορισμό
- θα πρέπει να
- δείχνουν
- Δείχνει
- Απλούς
- απλοποίηση
- So
- Ποδόσφαιρο
- λύση
- Λύσεις
- Πηγή
- Σπινθήρας
- ειδικεύεται
- Ειδικότητα
- καθορίζεται
- SQL
- στάδια
- πρότυπο
- Κατάσταση
- στατιστική
- Κατάσταση
- Βήματα
- στάση
- σταμάτησε
- χώρος στο δίσκο
- κατάστημα
- αποθηκεύονται
- εξορθολογισμό
- Σπάγγος
- στούντιο
- υποβολή
- υποβάλουν
- υποδίκτυα
- τέτοιος
- ΠΕΡΙΛΗΨΗ
- Στήριξη
- τραπέζι
- Πάρτε
- Έργο
- εργασίες
- Τεχνικός
- προσωρινή
- Δοκιμές
- ότι
- Η
- τους
- Τους
- τότε
- Αυτοί
- αυτό
- τρία
- ώρα
- φορές
- προς την
- σήμερα
- Μεταμορφώστε
- Μεταμόρφωση
- μετασχηματίζεται
- ενεργοποιούν
- ταξίδι
- ΣΤΡΟΦΗ
- δύο
- τύποι
- ui
- υπό
- καταλαβαίνω
- διαφορετικός
- Ενημέρωση
- ενημερώθηκε
- us
- χρήση
- Χρήστες
- χρησιμοποιεί
- χρησιμοποιώντας
- χρησιμοποιεί
- ΕΠΙΚΥΡΩΝΩ
- επικύρωση
- εκδοχή
- μέσω
- Δες
- εμφανίσεις
- τόμος
- όγκους
- θέλω
- ήταν
- τρόπους
- we
- ιστός
- διαδικτυακές υπηρεσίες
- καλωσόρισμα
- ήταν
- πότε
- Ποιό
- θα
- με
- χωρίς
- Εργασία
- ροής εργασίας
- ροές εργασίας
- ανησυχία
- ανησυχητικό
- γράφω
- κίτρινος
- εσείς
- Σας
- zephyrnet
- ζώνες