Amazon EMR startet Unterstützung für Amazon EC2 C7g (Graviton3)-Instanzen, um die Kostenleistung für Spark-Workloads um 7–13 % zu verbessern

Neuauflage von Plato

Verfolger: 0

Amazon EMR bietet einen verwalteten Dienst zum einfachen Ausführen von Analyseanwendungen mit Open-Source-Frameworks wie Apache Spark, Hive, Presto, Trino, HBase und Flink. Die Amazon EMR-Laufzeit für Spark und Presto enthält Optimierungen, die im Vergleich zu Open-Source-Apache Spark und Presto mehr als die doppelte Leistungsverbesserung bieten.

Mit Amazon EMR Version 6.7 können Sie jetzt verwenden Amazon Elastic Compute-Cloud (Amazon EC2) C7g-Instances, die die AWS Graviton3 Prozessoren. Diese Instances verbessern das Preis-Leistungs-Verhältnis beim Ausführen von Spark-Workloads auf Amazon EMR um 7.93–13.35 % gegenüber Instances der vorherigen Generation, je nach Instance-Größe. In diesem Beitrag beschreiben wir, wie wir den Preis-Leistungs-Vorteil eingeschätzt haben.

Amazon EMR-Laufzeitleistung mit EC2 C7g-Instances

Wir haben TPC-DS 3 TB Benchmark-Abfragen auf Amazon EMR 6.9 mit der Amazon EMR-Laufzeit für Apache Spark (kompatibel mit Apache Spark 3.3) mit C7g-Instances ausgeführt. Daten wurden gespeichert Amazon Simple Storage-Service (Amazon S3) und die Ergebnisse wurden mit äquivalenten C6g-Clustern aus der Instance-Familie der vorherigen Generation verglichen. Wir haben die Leistungsverbesserungen anhand der Gesamtabfragelaufzeit und des geometrischen Mittels der Abfragelaufzeit über TPC-DS 3 TB-Benchmark-Abfragen hinweg gemessen.

Unsere Ergebnisse zeigten 13.65–18.73 % Verbesserung der gesamten Abfragelaufzeitleistung und 16.98–20.28 % Verbesserung des geometrischen Mittelwerts auf EMR-Clustern mit C7g im Vergleich zu entsprechenden EMR-Clustern mit C6g-Instanzen, je nach Instanzgröße. Beim Kostenvergleich haben wir je nach Instanzgröße eine Kostensenkung von 7.93–13.35 % auf dem EMR-Cluster mit C7g im Vergleich zum Äquivalent mit C6g festgestellt. Wir haben die C6g xlarge-Instanz nicht bewertet, da sie nicht über ausreichend Arbeitsspeicher zum Ausführen der Abfragen verfügte.

Die folgende Tabelle zeigt die Ergebnisse der Ausführung der TPC-DS 3 TB-Benchmark-Abfragen mit Amazon EMR 6.9 im Vergleich zu äquivalenten C7g- und C6g-Instance-EMR-Clustern.

Instanzgröße	16 XL	12 XL	8 XL	4 XL	2 XL
Gesamtgröße des Clusters (1 Leader + 5 Kernknoten)	6	6	6	6	6
Gesamte Abfragelaufzeit auf C6g (Sekunden)	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
Gesamte Abfragelaufzeit auf C7g (Sekunden)	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
Gesamtverbesserung der Abfragelaufzeit mit C7g	13.65%	15.13%	14.95%	18.73%	16.64%
Geometrisches Mittel der Abfragelaufzeit C6g (Sekunden)	22.2113	21.75459	23.38081	31.97192	45.41656
Geometrisches Mittel der Abfragelaufzeit C7g (Sekunden)	18.43905	17.65898	19.01684	25.48695	37.43737
Verbesserung der geometrischen mittleren Abfragelaufzeit mit C7g	16.98%	18.83%	18.66%	20.28%	17.57%
EC2 C6g-Instance-Preis ($ pro Stunde)	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
EMR C6g-Instance-Preis ($ pro Stunde)	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
(EC2 + EMR) Instance-Preis ($ pro Stunde)	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
Betriebskosten auf C6g ($ pro Instanz)	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
EC2 C7g-Instance-Preis ($ pro Stunde)	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
EMR C7g-Preis ($ pro Stunde pro Instanz)	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) C7g-Instance-Preis ($ pro Stunde)	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
Betriebskosten auf C7g ($ pro Instanz)	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
Gesamtkostenreduzierung mit C7g einschließlich Leistungssteigerung	-7.93%	-9.52%	-9.32%	-13.35%	-11.13%

Das folgende Diagramm zeigt Verbesserungen pro Abfrage, die auf C7g 2xlarge-Instanzen im Vergleich zu entsprechenden C6g-Generationen beobachtet wurden.

Benchmarking-Methodik

Der in diesem Beitrag verwendete Benchmark ist vom branchenüblichen TPC-DS-Benchmark abgeleitet und verwendet Abfragen aus dem Spark SQL-Leistungstests GitHub-Repository mit der GMT Fixes angewendet.

Wir haben die TCO berechnet, indem wir die Kosten pro Stunde mit der Anzahl der Instanzen im Cluster und der Zeit multipliziert haben, die zum Ausführen der Abfragen im Cluster benötigt wurde. Wir haben für alle Instanzen On-Demand-Preise in der Region USA Ost (Nord-Virginia) verwendet.

Zusammenfassung

In diesem Beitrag haben wir beschrieben, wie wir den Kosten-Leistungs-Vorteil der Verwendung von Amazon EMR mit C7g-Instances im Vergleich zur Verwendung gleichwertiger Instances der vorherigen Generation geschätzt haben. Die Verwendung dieser neuen Instances mit Amazon EMR verbessert die Kostenleistung um weitere 7–13 %.

Über die Autoren

KI-MS Al MS ist Produktmanager für Amazon EMR bei Amazon Web Services.

Kyeonghyun Ryoo ist Software Development Engineer für EMR bei Amazon Web Services. Er arbeitet hauptsächlich an der Entwicklung und Erstellung von Automatisierungstools für interne Teams und Kunden, um deren Produktivität zu maximieren. Außerhalb der Arbeit ist er ein pensionierter Weltmeister im professionellen Gaming, der immer noch gerne Videospiele spielt.

Yuzhou Sonne ist Softwareentwicklungsingenieur für EMR bei Amazon Web Services.

Steve Koonce ist Engineering Manager für EMR bei Amazon Web Services.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

Zeitstempel: 1. Februar 2023

Zeitstempel: 27. April 2023

Amazon EMR führt Unterstützung für Amazon EC2 C7g (Graviton3)-Instances ein, um die Kostenleistung für Spark-Workloads um 7–13 % zu verbessern

Neuauflage von Plato

Amazon EMR-Laufzeitleistung mit EC2 C7g-Instances

Benchmarking-Methodik

Zusammenfassung

Über die Autoren

Mehr von AWS Big Data

Automatisieren Sie die Replikation relationaler Quellen in einen transaktionalen Data Lake mit Apache Iceberg und AWS Glue

Erste Schritte mit AWS Glue Data Quality für ETL-Pipelines

Top-Strategien für die Verfolgung großer Mengen mit Amazon OpenSearch Ingestion

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto