Το Amazon EMR εγκαινιάζει υποστήριξη για περιπτώσεις Amazon EC2 C7g (Graviton3) για βελτίωση της απόδοσης κόστους για φόρτους εργασίας Spark κατά 7–13%

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

EMR Αμαζονίου παρέχει μια διαχειριζόμενη υπηρεσία για την εύκολη εκτέλεση εφαρμογών ανάλυσης χρησιμοποιώντας πλαίσια ανοιχτού κώδικα όπως Apache Spark, Hive, Presto, Trino, HBase και Flink. Ο χρόνος εκτέλεσης του Amazon EMR για Σπινθήρας και Presto περιλαμβάνει βελτιστοποιήσεις που παρέχουν υπερδιπλάσιες βελτιώσεις απόδοσης σε σύγκριση με το Apache Spark και το Presto ανοιχτού κώδικα.

Με την έκδοση 6.7 του Amazon EMR, μπορείτε πλέον να χρησιμοποιήσετε Amazon Elastic Compute Cloud (Amazon EC2) Στιγμιότυπα C7g, που χρησιμοποιούν το AWS Graviton3 επεξεργαστές. Αυτές οι περιπτώσεις βελτιώνουν την τιμή-απόδοση της εκτέλεσης φόρτου εργασίας Spark στο Amazon EMR κατά 7.93–13.35% σε σχέση με τις παρουσίες προηγούμενης γενιάς, ανάλογα με το μέγεθος της παρουσίας. Σε αυτήν την ανάρτηση, περιγράφουμε πώς εκτιμήσαμε το όφελος τιμής-απόδοσης.

Απόδοση χρόνου εκτέλεσης Amazon EMR με περιπτώσεις EC2 C7g

Εκτελέσαμε ερωτήματα συγκριτικής αξιολόγησης TPC-DS 3 TB στο Amazon EMR 6.9 χρησιμοποιώντας το χρόνο εκτέλεσης Amazon EMR για Apache Spark (συμβατό με Apache Spark 3.3) με παρουσίες C7g. Τα δεδομένα αποθηκεύτηκαν σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) και τα αποτελέσματα συγκρίθηκαν με ισοδύναμες ομάδες C6g από την οικογένεια παραδειγμάτων προηγούμενης γενιάς. Μετρήσαμε τις βελτιώσεις απόδοσης χρησιμοποιώντας τον συνολικό χρόνο εκτέλεσης ερωτήματος και τον γεωμετρικό μέσο όρο του χρόνου εκτέλεσης του ερωτήματος σε ερωτήματα συγκριτικής αξιολόγησης TPC-DS 3 TB.

Τα αποτελέσματά μας έδειξαν βελτίωση 13.65–18.73% στη συνολική απόδοση χρόνου εκτέλεσης ερωτήματος και 16.98–20.28% βελτίωση στον γεωμετρικό μέσο όρο σε συστάδες EMR με C7g σε σύγκριση με ισοδύναμα συμπλέγματα EMR με στιγμιότυπα C6g, ανάλογα με το μέγεθος της παρουσίας. Συγκρίνοντας το κόστος, παρατηρήσαμε 7.93–13.35% μείωση του κόστους στο σύμπλεγμα EMR με C7g σε σύγκριση με το αντίστοιχο με C6g, ανάλογα με το μέγεθος της παρουσίας. Δεν κάναμε συγκριτική αξιολόγηση για την παρουσία C6g xlarge επειδή δεν είχε επαρκή μνήμη για την εκτέλεση των ερωτημάτων.

Ο παρακάτω πίνακας δείχνει τα αποτελέσματα από την εκτέλεση των ερωτημάτων συγκριτικής αξιολόγησης TPC-DS 3 TB χρησιμοποιώντας το Amazon EMR 6.9 σε σύγκριση με ισοδύναμα συμπλέγματα EMR παρουσίας C7g και C6g.

Μέγεθος Στιγμιότυπου	16 XL	12 XL	8 XL	4 XL	2 XL
Συνολικό μέγεθος του συμπλέγματος (1 αρχηγός + 5 κόμβοι πυρήνα)	6	6	6	6	6
Συνολικός χρόνος εκτέλεσης ερωτήματος σε C6g (δευτερόλεπτα)	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
Συνολικός χρόνος εκτέλεσης ερωτήματος σε C7g (δευτερόλεπτα)	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
Συνολική βελτίωση χρόνου εκτέλεσης ερωτήματος με το C7g	13.65%	15.13%	14.95%	18.73%	16.64%
Γεωμετρικός μέσος χρόνος εκτέλεσης ερωτήματος C6g (δευτερόλεπτα)	22.2113	21.75459	23.38081	31.97192	45.41656
Γεωμετρικός μέσος χρόνος εκτέλεσης ερωτήματος C7g (δευτερόλεπτα)	18.43905	17.65898	19.01684	25.48695	37.43737
Γεωμετρική μέση βελτίωση χρόνου εκτέλεσης ερωτήματος με C7g	16.98%	18.83%	18.66%	20.28%	17.57%
Τιμή παρουσίας EC2 C6g ($ ανά ώρα)	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
Τιμή παρουσίας EMR C6g ($ ανά ώρα)	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
τιμή παρουσίας (EC2 + EMR) ($ ανά ώρα)	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
Κόστος λειτουργίας σε C6g ($ ανά περίπτωση)	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
Τιμή παρουσίας EC2 C7g ($ ανά ώρα)	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
Τιμή EMR C7g ($ ανά ώρα ανά περίπτωση)	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) τιμή παρουσίας C7g ($ ανά ώρα)	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
Κόστος λειτουργίας σε C7g ($ ανά περίπτωση)	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
Συνολική μείωση κόστους με C7g συμπεριλαμβανομένης της βελτίωσης της απόδοσης	-7.93%	-9.52%	-9.32%	-13.35%	-11.13%

Το παρακάτω γράφημα δείχνει βελτιώσεις ανά ερώτημα που παρατηρήθηκαν σε περιπτώσεις C7g 2xlarge σε σύγκριση με αντίστοιχες γενιές C6g.

Μεθοδολογία συγκριτικής αξιολόγησης

Το σημείο αναφοράς που χρησιμοποιείται σε αυτήν την ανάρτηση προέρχεται από το πρότυπο αναφοράς TPC-DS του κλάδου και χρησιμοποιεί ερωτήματα από το Spark SQL Performance Tests GitHub repo με τα ακόλουθα διορθώσεις εφαρμοσμένος.

Υπολογίσαμε το TCO πολλαπλασιάζοντας το κόστος ανά ώρα με τον αριθμό των περιπτώσεων στο σύμπλεγμα και τον χρόνο που απαιτείται για την εκτέλεση των ερωτημάτων στο σύμπλεγμα. Χρησιμοποιήσαμε τιμολόγηση κατ' απαίτηση στην Ανατολική Περιφέρεια των ΗΠΑ (Ν. Βιρτζίνια) για όλες τις περιπτώσεις.

Συμπέρασμα

Σε αυτήν την ανάρτηση, περιγράψαμε πώς υπολογίσαμε το όφελος κόστους-απόδοσης από τη χρήση του Amazon EMR με παρουσίες C7g σε σύγκριση με τη χρήση ισοδύναμων παρουσιών προηγούμενης γενιάς. Η χρήση αυτών των νέων περιπτώσεων με το Amazon EMR βελτιώνει την απόδοση κόστους κατά επιπλέον 7–13%.

Σχετικά με τους συγγραφείς

AI MS Al MS είναι διαχειριστής προϊόντων για το Amazon EMR στο Amazon Web Services.

Kyeonghyun Ryoo είναι Μηχανικός Ανάπτυξης Λογισμικού για EMR στην Amazon Web Services. Εργάζεται κυρίως στο σχεδιασμό και την κατασκευή εργαλείων αυτοματισμού για εσωτερικές ομάδες και πελάτες για να μεγιστοποιήσουν την παραγωγικότητά τους. Εκτός δουλειάς, είναι ένας συνταξιούχος παγκόσμιος πρωταθλητής στο επαγγελματικό gaming που εξακολουθεί να του αρέσει να παίζει βιντεοπαιχνίδια.

Yuzhou Sun είναι μηχανικός ανάπτυξης λογισμικού για το EMR στην Amazon Web Services.

Στηβ Κουνσέ είναι Διευθυντής Μηχανικών για EMR στην Amazon Web Services.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
πηγή: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

Σφραγίδα ώρας: Φεβρουάριος 1, 2023

Σφραγίδα ώρας: 27 Απριλίου 2023

Το Amazon EMR εγκαινιάζει υποστήριξη για περιπτώσεις Amazon EC2 C7g (Graviton3) για να βελτιώσει την απόδοση κόστους για φόρτους εργασίας Spark κατά 7–13%

Αναδημοσίευση από τον Πλάτωνα

Απόδοση χρόνου εκτέλεσης Amazon EMR με περιπτώσεις EC2 C7g

Μεθοδολογία συγκριτικής αξιολόγησης

Συμπέρασμα

Σχετικά με τους συγγραφείς

Περισσότερα από Μεγάλα δεδομένα AWS

Αυτοματοποιήστε την αναπαραγωγή σχεσιακών πηγών σε μια λίμνη δεδομένων συναλλαγών με Apache Iceberg και AWS Glue

Ξεκινώντας με το AWS Glue Data Quality for ETL Pipelines

Κορυφαίες στρατηγικές για ανίχνευση μεγάλου όγκου με την Απορρόφηση OpenSearch του Amazon

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός