Μειώστε το κόστος του Amazon EMR cluster έως και 19% με νέες βελτιώσεις στο Amazon EMR Managed Scaling

Μειώστε το κόστος του Amazon EMR cluster έως και 19% με νέες βελτιώσεις στο Amazon EMR Managed Scaling

Κόμβος πηγής: 1985302

Τον Ιούνιο του 2020, η AWS ανακοίνωσε τη γενική διαθεσιμότητα του Amazon EMR Managed Scaling. Με το EMR Managed Scaling, καθορίζετε τα ελάχιστα και μέγιστα όρια υπολογισμού για τα cluster σας και το Amazon EMR αλλάζει αυτόματα το μέγεθος του cluster σας για βέλτιστη απόδοση και χρήση πόρων. Η διαχειριζόμενη κλιμάκωση EMR παρακολουθεί συνεχώς βασικές μετρήσεις που σχετίζονται με το φόρτο εργασίας και χρησιμοποιεί έναν αλγόριθμο που βελτιστοποιεί το μέγεθος του συμπλέγματος για την καλύτερη αξιοποίηση των πόρων. Δεδομένου ότι η λειτουργία είναι πλήρως διαχειριζόμενη, οι βελτιώσεις στον αλγόριθμο πραγματοποιούνται αμέσως χωρίς να χρειάζεται αναβάθμιση έκδοσης. Το Amazon EMR μπορεί να αυξήσει την κλίμακα του συμπλέγματος κατά τη διάρκεια αιχμής και να το μειώσει με χάρη σε περιόδους αδράνειας, μειώνοντας το κόστος σας και βελτιστοποιώντας τη χωρητικότητα του συμπλέγματος για την καλύτερη απόδοση.

Κατά τη διάρκεια του 2022, πραγματοποιήσαμε πολλαπλές βελτιώσεις στον αλγόριθμο διαχειριζόμενης κλίμακας EMR. Με αυτές τις βελτιώσεις, παρατηρήσαμε ότι για τα cluster που ενεργοποιήθηκαν με τη διαχειριζόμενη κλίμακα EMR, η χρήση βελτιώθηκε έως και 15 τοις εκατό και το συνολικό κόστος μειώθηκε περαιτέρω έως και 19 τοις εκατό. Από τα μέσα Δεκεμβρίου 2022, οι βελτιώσεις διαχειριζόμενης κλιμάκωσης EMR ενεργοποιήθηκαν από προεπιλογή για συμπλέγματα που χρησιμοποιούν εκδόσεις Amazon EMR 5.34.0 και νεότερες εκδόσεις και εκδόσεις Amazon EMR 6.4.0 και νεότερες, τόσο για νέα όσο και για υπάρχοντα συμπλέγματα. Επιπλέον, δεδομένου ότι η λειτουργία είναι πλήρως διαχειριζόμενη, θα λάβετε τον νέο βελτιστοποιημένο αλγόριθμο Διαχειριζόμενης Κλιμάκωσης από προεπιλογή και δεν απαιτείται καμία ενέργεια από την πλευρά σας.

Παρακάτω παρατίθενται μερικές από τις βασικές βελτιώσεις που ενεργοποιήσαμε για τη διαχειριζόμενη κλίμακα EMR:

  • Βελτιωμένη χρήση συμπλέγματος με στοχευμένη μείωση της κλίμακας του συμπλέγματος EMR
  • Μειώθηκε το κόστος αποτρέποντας τη μείωση των περιπτώσεων που αποθηκεύουν δεδομένα ενδιάμεσης τυχαίας αναπαραγωγής χρησιμοποιώντας Συνειδητοποίηση δεδομένων Spark Shuffle
  • Βελτιωμένη χρήση συμπλέγματος και μείωση του κόστους με τη σταδιακή κλιμάκωση του συμπλέγματος EMR

Ιστορίες επιτυχίας πελατών

Πώς ο βελτιωμένος αλγόριθμος EMR Managed Scaling βοήθησε μια επιχείρηση τεχνολογίας να μειώσει το κόστος:

Για να δείξουμε την εξοικονόμηση κόστους με παραδείγματα, εξετάσαμε ένα σύμπλεγμα EMR για μια τεχνολογική επιχείρηση, η οποία χρησιμοποιεί σε μεγάλο βαθμό το Amazon EMR για την επεξεργασία δεδομένων χρέωσης σε πραγματικό χρόνο μεταξύ Kafka και S3 χρησιμοποιώντας το Spark. Εκτελούν ένα μόνιμο σύμπλεγμα EMR με EMR έκδοση 5.35 και έχουν ενεργοποιημένη τη διαχειριζόμενη κλίμακα EMR. Ο ακόλουθος πίνακας ελέγχου του Amazon CloudWatch δείχνει πώς από τις 21 Δεκεμβρίου, παρέχεται ο βελτιωμένος αλγόριθμος διαχειριζόμενης κλίμακας (το σύνολο των κόμβων που ζητήθηκαν) μόνο 70 κόμβοι έναντι του προηγούμενου αλγόριθμου Managed Scaling που παρείχε 179 κόμβους για ένα παρόμοιο προφίλ εργασίας. Όσο χαμηλότερος είναι ο αριθμός των πόρων που παρέχονται για την εκτέλεση των εργασιών σας, τόσο χαμηλότερο είναι το συνολικό κόστος του συμπλέγματος EMR.

Πώς ο βελτιωμένος αλγόριθμος EMR Managed Scaling βοήθησε μια διαφημιστική επιχείρηση να μειώσει το κόστος:

Εξετάσαμε επίσης ένα σύμπλεγμα EMR για μια διαφημιστική επιχείρηση, το οποίο αξιοποιεί το Amazon EMR για τη στρατηγική ανάλυσης δεδομένων και εκτελεί τις ομαδικές εργασίες ETL χρησιμοποιώντας το Spark. Εκτελούν τα cluster τους στην έκδοση 6.5 EMR και έχουν ενεργοποιημένη τη διαχειριζόμενη κλίμακα EMR. Ο ακόλουθος πίνακας ελέγχου του Amazon CloudWatch δείχνει πώς από τις 15 Δεκεμβρίου, παρέχεται ο βελτιωμένος αλγόριθμος διαχειριζόμενης κλίμακας (συνολικές μονάδες που ζητήθηκαν) μόνο 41 κόμβοι έναντι του προηγούμενου αλγόριθμου Managed Scaling που παρείχε 86 κόμβους για ένα παρόμοιο προφίλ εργασίας.

Εκτίμηση της εξοικονόμησης κόστους και των βελτιώσεων χρήσης για τα συμπλέγματα EMR:

Εξοικονόμηση κόστους συμπλέγματος:

Για να δείτε την εκτιμώμενη εξοικονόμηση κόστους για το σύμπλεγμα EMR με τις βελτιώσεις διαχειριζόμενης κλίμακας EMR, ακολουθήστε τα παρακάτω βήματα:

  • Ανοίξτε το Κονσόλα μετρήσεων CloudWatch και, κάτω από EMR, αναζήτηση με δική σας ClusterId.
  • Από τη λίστα με τις διαθέσιμες μετρήσεις για το EMR, επιλέξτε τις ακόλουθες δύο μετρήσεις:
    • Ικανότητα λειτουργίας – Με βάση τον τύπο μονάδας που καθορίσατε στην πολιτική διαχειριζόμενης κλίμακας, αυτός θα είναι διαθέσιμος ως "TotalUnitsRunning" ή "TotalNodesRunning"Ή"TotalVCPURunning"
    • Χωρητικότητα που ζητήθηκε από τη Διαχειριζόμενη Κλιμάκωση – Με βάση τον τύπο μονάδας που καθορίσατε στην πολιτική διαχειριζόμενης κλίμακας, αυτός θα είναι διαθέσιμος ως "Σύνολο Units Requested" ή "TotalNodesRequested"Ή"Ζητήθηκε TotalVCPU"
  •  Σχεδιάστε και τις δύο μετρήσεις στον πίνακα ελέγχου του CloudWatch.
  • Επιλέξτε το χρονικό πλαίσιο ως τους 3 μήνες μεταξύ Νοεμβρίου 2022 και Ιανουαρίου 2023 για να δείτε τις βελτιώσεις με τον βελτιωμένο αλγόριθμο διαχειριζόμενης κλίμακας σε σύγκριση με τον προηγούμενο αλγόριθμο διαχειριζόμενης κλίμακας.

Βελτιώσεις χρήσης συμπλέγματος:

Για να εκτιμήσετε τις βελτιώσεις στη χρήση του συμπλέγματος EMR με τις βελτιώσεις διαχειριζόμενης κλίμακας EMR, ακολουθήστε τα παρακάτω βήματα:

  • Ανοίξτε την κονσόλα μετρήσεων CloudWatch και, κάτω EMR, αναζήτηση με δική σας ClusterId.
  • Από τη λίστα με τις διαθέσιμες μετρήσεις για το EMR, επιλέξτε το "YARNMemoryAvailablePercentage” μετρικός.
  • Για να εξαγάγετε τη μνήμη που χρησιμοποιείται από το YARN, προσθέστε μια μαθηματική έκφραση όπως "Προσθήκη μαθηματικών → Έναρξη με κενή έκφραση"
    • Για τη νέα μαθηματική έκφραση, ορίστε Label=Αξιοποίηση νήματος και να θέσει Details=100-YARNMemoryAvailablePercentage.
  • Σχεδιάστε τη μέτρηση χρήσης συμπλέγματος στον πίνακα ελέγχου του CloudWatch.
  • Επιλέξτε το χρονικό πλαίσιο ως τους 3 μήνες μεταξύ Νοεμβρίου 2022 και Ιανουαρίου 2023 για να δείτε τις βελτιώσεις με τον βελτιωμένο αλγόριθμο διαχειριζόμενης κλίμακας σε σύγκριση με τον προηγούμενο αλγόριθμο διαχειριζόμενης κλίμακας.

Τι έπεται

Θα συνεχίσουμε να συντονίζουμε τον αλγόριθμο Managed Scaling με κάθε νέα έκδοση EMR και, ως εκ τούτου, να βελτιώνουμε την εμπειρία του πελάτη κατά την κλιμάκωση συμπλεγμάτων με τη Managed Scaling EMR.

Συμπέρασμα

Σε αυτήν την ανάρτηση, παρέχουμε μια επισκόπηση της βασικής βελτίωσης που παρουσιάσαμε στη διαχειριζόμενη κλίμακα EMR. Με αυτές τις βελτιώσεις, παρατηρήσαμε ότι η χρήση των συστάδων βελτιώθηκε έως και 15 τοις εκατό και το κόστος του συμπλέγματος μειώθηκε έως και κατά 19 τοις εκατό. Από τα μέσα Δεκεμβρίου 2022, αυτές οι βελτιώσεις ενεργοποιήθηκαν από προεπιλογή για συμπλέγματα EMR που χρησιμοποιούν τις εκδόσεις Amazon EMR 5.34.0 και νεότερες, και τις εκδόσεις Amazon EMR 6.4.0 και νεότερες. Δεδομένου ότι το EMR Managed Scaling είναι μια πλήρως διαχειριζόμενη λειτουργία, θα λάβετε τον νέο, βελτιστοποιημένο αλγόριθμο EMR Managed Scaling από προεπιλογή και δεν απαιτείται καμία ενέργεια από την πλευρά σας.

Για να μάθετε περισσότερα και να ξεκινήσετε με τη διαχειριζόμενη κλιμάκωση EMR, επισκεφθείτε τη διεύθυνση Σελίδα τεκμηρίωσης διαχειριζόμενης κλίμακας EMR.


Σχετικά με τους Συγγραφείς

Sushant Majithia είναι κύριος διευθυντής προϊόντων για το EMR στην Amazon Web Services.

 Vishal Vyas είναι Ανώτερος Μηχανικός Λογισμικού για EMR στο Amazon Web Services.

Μάθιου Λίεμ είναι Ανώτερος Διευθυντής Αρχιτεκτονικής Λύσεων στην AWS.

Σφραγίδα ώρας:

Περισσότερα από Μεγάλα δεδομένα AWS