Amazon EMR führt Unterstützung für Amazon EC2 C7g (Graviton3)-Instances ein, um die Kostenleistung für Spark-Workloads um 7–13 % zu verbessern

Amazon EMR führt Unterstützung für Amazon EC2 C7g (Graviton3)-Instances ein, um die Kostenleistung für Spark-Workloads um 7–13 % zu verbessern

Quellknoten: 1935298

Amazon EMR bietet einen verwalteten Dienst zum einfachen Ausführen von Analyseanwendungen mit Open-Source-Frameworks wie Apache Spark, Hive, Presto, Trino, HBase und Flink. Die Amazon EMR-Laufzeit für Spark und Presto enthält Optimierungen, die im Vergleich zu Open-Source-Apache Spark und Presto mehr als die doppelte Leistungsverbesserung bieten.

Mit Amazon EMR Version 6.7 können Sie jetzt verwenden Amazon Elastic Compute-Cloud (Amazon EC2) C7g-Instances, die die AWS Graviton3 Prozessoren. Diese Instances verbessern das Preis-Leistungs-Verhältnis beim Ausführen von Spark-Workloads auf Amazon EMR um 7.93–13.35 % gegenüber Instances der vorherigen Generation, je nach Instance-Größe. In diesem Beitrag beschreiben wir, wie wir den Preis-Leistungs-Vorteil eingeschätzt haben.

Amazon EMR-Laufzeitleistung mit EC2 C7g-Instances

Wir haben TPC-DS 3 TB Benchmark-Abfragen auf Amazon EMR 6.9 mit der Amazon EMR-Laufzeit für Apache Spark (kompatibel mit Apache Spark 3.3) mit C7g-Instances ausgeführt. Daten wurden gespeichert Amazon Simple Storage-Service (Amazon S3) und die Ergebnisse wurden mit äquivalenten C6g-Clustern aus der Instance-Familie der vorherigen Generation verglichen. Wir haben die Leistungsverbesserungen anhand der Gesamtabfragelaufzeit und des geometrischen Mittels der Abfragelaufzeit über TPC-DS 3 TB-Benchmark-Abfragen hinweg gemessen.

Unsere Ergebnisse zeigten 13.65–18.73 % Verbesserung der gesamten Abfragelaufzeitleistung und 16.98–20.28 % Verbesserung des geometrischen Mittelwerts auf EMR-Clustern mit C7g im Vergleich zu entsprechenden EMR-Clustern mit C6g-Instanzen, je nach Instanzgröße. Beim Kostenvergleich haben wir je nach Instanzgröße eine Kostensenkung von 7.93–13.35 % auf dem EMR-Cluster mit C7g im Vergleich zum Äquivalent mit C6g festgestellt. Wir haben die C6g xlarge-Instanz nicht bewertet, da sie nicht über ausreichend Arbeitsspeicher zum Ausführen der Abfragen verfügte.

Die folgende Tabelle zeigt die Ergebnisse der Ausführung der TPC-DS 3 TB-Benchmark-Abfragen mit Amazon EMR 6.9 im Vergleich zu äquivalenten C7g- und C6g-Instance-EMR-Clustern.

Instanzgröße 16 XL 12 XL 8 XL 4 XL 2 XL
Gesamtgröße des Clusters (1 Leader + 5 Kernknoten) 6 6 6 6 6
Gesamte Abfragelaufzeit auf C6g (Sekunden) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Gesamte Abfragelaufzeit auf C7g (Sekunden) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Gesamtverbesserung der Abfragelaufzeit mit C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Geometrisches Mittel der Abfragelaufzeit C6g (Sekunden) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometrisches Mittel der Abfragelaufzeit C7g (Sekunden) 18.43905 17.65898 19.01684 25.48695 37.43737
Verbesserung der geometrischen mittleren Abfragelaufzeit mit C7g 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g-Instance-Preis ($ pro Stunde) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g-Instance-Preis ($ pro Stunde) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) Instance-Preis ($ pro Stunde) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Betriebskosten auf C6g ($ pro Instanz) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g-Instance-Preis ($ pro Stunde) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g-Preis ($ pro Stunde pro Instanz) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g-Instance-Preis ($ pro Stunde) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Betriebskosten auf C7g ($ pro Instanz) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Gesamtkostenreduzierung mit C7g einschließlich Leistungssteigerung -7.93% -9.52% -9.32% -13.35% -11.13%

Das folgende Diagramm zeigt Verbesserungen pro Abfrage, die auf C7g 2xlarge-Instanzen im Vergleich zu entsprechenden C6g-Generationen beobachtet wurden.

Benchmarking-Methodik

Der in diesem Beitrag verwendete Benchmark ist vom branchenüblichen TPC-DS-Benchmark abgeleitet und verwendet Abfragen aus dem Spark SQL-Leistungstests GitHub-Repository mit der GMT Fixes angewendet.

Wir haben die TCO berechnet, indem wir die Kosten pro Stunde mit der Anzahl der Instanzen im Cluster und der Zeit multipliziert haben, die zum Ausführen der Abfragen im Cluster benötigt wurde. Wir haben für alle Instanzen On-Demand-Preise in der Region USA Ost (Nord-Virginia) verwendet.

Zusammenfassung

In diesem Beitrag haben wir beschrieben, wie wir den Kosten-Leistungs-Vorteil der Verwendung von Amazon EMR mit C7g-Instances im Vergleich zur Verwendung gleichwertiger Instances der vorherigen Generation geschätzt haben. Die Verwendung dieser neuen Instances mit Amazon EMR verbessert die Kostenleistung um weitere 7–13 %.


Über die Autoren

KI-MSAl MS ist Produktmanager für Amazon EMR bei Amazon Web Services.

Kyeonghyun Ryoo ist Software Development Engineer für EMR bei Amazon Web Services. Er arbeitet hauptsächlich an der Entwicklung und Erstellung von Automatisierungstools für interne Teams und Kunden, um deren Produktivität zu maximieren. Außerhalb der Arbeit ist er ein pensionierter Weltmeister im professionellen Gaming, der immer noch gerne Videospiele spielt.

Yuzhou Sonne ist Softwareentwicklungsingenieur für EMR bei Amazon Web Services.

Steve Koonce ist Engineering Manager für EMR bei Amazon Web Services.

Zeitstempel:

Mehr von AWS Big Data