Το Amazon EMR εγκαινιάζει υποστήριξη για περιπτώσεις Amazon EC2 C7g (Graviton3) για να βελτιώσει την απόδοση κόστους για φόρτους εργασίας Spark κατά 7–13%

Το Amazon EMR εγκαινιάζει υποστήριξη για περιπτώσεις Amazon EC2 C7g (Graviton3) για να βελτιώσει την απόδοση κόστους για φόρτους εργασίας Spark κατά 7–13%

Κόμβος πηγής: 1935298

EMR Αμαζονίου παρέχει μια διαχειριζόμενη υπηρεσία για την εύκολη εκτέλεση εφαρμογών ανάλυσης χρησιμοποιώντας πλαίσια ανοιχτού κώδικα όπως Apache Spark, Hive, Presto, Trino, HBase και Flink. Ο χρόνος εκτέλεσης του Amazon EMR για Σπινθήρας και Presto περιλαμβάνει βελτιστοποιήσεις που παρέχουν υπερδιπλάσιες βελτιώσεις απόδοσης σε σύγκριση με το Apache Spark και το Presto ανοιχτού κώδικα.

Με την έκδοση 6.7 του Amazon EMR, μπορείτε πλέον να χρησιμοποιήσετε Amazon Elastic Compute Cloud (Amazon EC2) Στιγμιότυπα C7g, που χρησιμοποιούν το AWS Graviton3 επεξεργαστές. Αυτές οι περιπτώσεις βελτιώνουν την τιμή-απόδοση της εκτέλεσης φόρτου εργασίας Spark στο Amazon EMR κατά 7.93–13.35% σε σχέση με τις παρουσίες προηγούμενης γενιάς, ανάλογα με το μέγεθος της παρουσίας. Σε αυτήν την ανάρτηση, περιγράφουμε πώς εκτιμήσαμε το όφελος τιμής-απόδοσης.

Απόδοση χρόνου εκτέλεσης Amazon EMR με περιπτώσεις EC2 C7g

Εκτελέσαμε ερωτήματα συγκριτικής αξιολόγησης TPC-DS 3 TB στο Amazon EMR 6.9 χρησιμοποιώντας το χρόνο εκτέλεσης Amazon EMR για Apache Spark (συμβατό με Apache Spark 3.3) με παρουσίες C7g. Τα δεδομένα αποθηκεύτηκαν σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) και τα αποτελέσματα συγκρίθηκαν με ισοδύναμες ομάδες C6g από την οικογένεια παραδειγμάτων προηγούμενης γενιάς. Μετρήσαμε τις βελτιώσεις απόδοσης χρησιμοποιώντας τον συνολικό χρόνο εκτέλεσης ερωτήματος και τον γεωμετρικό μέσο όρο του χρόνου εκτέλεσης του ερωτήματος σε ερωτήματα συγκριτικής αξιολόγησης TPC-DS 3 TB.

Τα αποτελέσματά μας έδειξαν βελτίωση 13.65–18.73% στη συνολική απόδοση χρόνου εκτέλεσης ερωτήματος και 16.98–20.28% βελτίωση στον γεωμετρικό μέσο όρο σε συστάδες EMR με C7g σε σύγκριση με ισοδύναμα συμπλέγματα EMR με στιγμιότυπα C6g, ανάλογα με το μέγεθος της παρουσίας. Συγκρίνοντας το κόστος, παρατηρήσαμε 7.93–13.35% μείωση του κόστους στο σύμπλεγμα EMR με C7g σε σύγκριση με το αντίστοιχο με C6g, ανάλογα με το μέγεθος της παρουσίας. Δεν κάναμε συγκριτική αξιολόγηση για την παρουσία C6g xlarge επειδή δεν είχε επαρκή μνήμη για την εκτέλεση των ερωτημάτων.

Ο παρακάτω πίνακας δείχνει τα αποτελέσματα από την εκτέλεση των ερωτημάτων συγκριτικής αξιολόγησης TPC-DS 3 TB χρησιμοποιώντας το Amazon EMR 6.9 σε σύγκριση με ισοδύναμα συμπλέγματα EMR παρουσίας C7g και C6g.

Μέγεθος Στιγμιότυπου 16 XL 12 XL 8 XL 4 XL 2 XL
Συνολικό μέγεθος του συμπλέγματος (1 αρχηγός + 5 κόμβοι πυρήνα) 6 6 6 6 6
Συνολικός χρόνος εκτέλεσης ερωτήματος σε C6g (δευτερόλεπτα) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Συνολικός χρόνος εκτέλεσης ερωτήματος σε C7g (δευτερόλεπτα) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Συνολική βελτίωση χρόνου εκτέλεσης ερωτήματος με το C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Γεωμετρικός μέσος χρόνος εκτέλεσης ερωτήματος C6g (δευτερόλεπτα) 22.2113 21.75459 23.38081 31.97192 45.41656
Γεωμετρικός μέσος χρόνος εκτέλεσης ερωτήματος C7g (δευτερόλεπτα) 18.43905 17.65898 19.01684 25.48695 37.43737
Γεωμετρική μέση βελτίωση χρόνου εκτέλεσης ερωτήματος με C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Τιμή παρουσίας EC2 C6g ($ ανά ώρα) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Τιμή παρουσίας EMR C6g ($ ανά ώρα) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
τιμή παρουσίας (EC2 + EMR) ($ ανά ώρα) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Κόστος λειτουργίας σε C6g ($ ανά περίπτωση) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Τιμή παρουσίας EC2 C7g ($ ανά ώρα) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Τιμή EMR C7g ($ ανά ώρα ανά περίπτωση) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) τιμή παρουσίας C7g ($ ανά ώρα) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Κόστος λειτουργίας σε C7g ($ ανά περίπτωση) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Συνολική μείωση κόστους με C7g συμπεριλαμβανομένης της βελτίωσης της απόδοσης -7.93% -9.52% -9.32% -13.35% -11.13%

Το παρακάτω γράφημα δείχνει βελτιώσεις ανά ερώτημα που παρατηρήθηκαν σε περιπτώσεις C7g 2xlarge σε σύγκριση με αντίστοιχες γενιές C6g.

Μεθοδολογία συγκριτικής αξιολόγησης

Το σημείο αναφοράς που χρησιμοποιείται σε αυτήν την ανάρτηση προέρχεται από το πρότυπο αναφοράς TPC-DS του κλάδου και χρησιμοποιεί ερωτήματα από το Spark SQL Performance Tests GitHub repo με τα ακόλουθα διορθώσεις εφαρμοσμένος.

Υπολογίσαμε το TCO πολλαπλασιάζοντας το κόστος ανά ώρα με τον αριθμό των περιπτώσεων στο σύμπλεγμα και τον χρόνο που απαιτείται για την εκτέλεση των ερωτημάτων στο σύμπλεγμα. Χρησιμοποιήσαμε τιμολόγηση κατ' απαίτηση στην Ανατολική Περιφέρεια των ΗΠΑ (Ν. Βιρτζίνια) για όλες τις περιπτώσεις.

Συμπέρασμα

Σε αυτήν την ανάρτηση, περιγράψαμε πώς υπολογίσαμε το όφελος κόστους-απόδοσης από τη χρήση του Amazon EMR με παρουσίες C7g σε σύγκριση με τη χρήση ισοδύναμων παρουσιών προηγούμενης γενιάς. Η χρήση αυτών των νέων περιπτώσεων με το Amazon EMR βελτιώνει την απόδοση κόστους κατά επιπλέον 7–13%.


Σχετικά με τους συγγραφείς

AI MSAl MS είναι διαχειριστής προϊόντων για το Amazon EMR στο Amazon Web Services.

Kyeonghyun Ryoo είναι Μηχανικός Ανάπτυξης Λογισμικού για EMR στην Amazon Web Services. Εργάζεται κυρίως στο σχεδιασμό και την κατασκευή εργαλείων αυτοματισμού για εσωτερικές ομάδες και πελάτες για να μεγιστοποιήσουν την παραγωγικότητά τους. Εκτός δουλειάς, είναι ένας συνταξιούχος παγκόσμιος πρωταθλητής στο επαγγελματικό gaming που εξακολουθεί να του αρέσει να παίζει βιντεοπαιχνίδια.

Yuzhou Sun είναι μηχανικός ανάπτυξης λογισμικού για το EMR στην Amazon Web Services.

Στηβ Κουνσέ είναι Διευθυντής Μηχανικών για EMR στην Amazon Web Services.

Σφραγίδα ώρας:

Περισσότερα από Μεγάλα δεδομένα AWS