Amazon EMR bietet einen verwalteten Dienst zum einfachen Ausführen von Analyseanwendungen mit Open-Source-Frameworks wie Apache Spark, Hive, Presto, Trino, HBase und Flink. Die Amazon EMR-Laufzeit für Spark und Presto enthält Optimierungen, die im Vergleich zu Open-Source-Apache Spark und Presto mehr als die doppelte Leistungsverbesserung bieten.
Mit Amazon EMR Version 6.7 können Sie jetzt verwenden Amazon Elastic Compute-Cloud (Amazon EC2) C7g-Instances, die die AWS Graviton3 Prozessoren. Diese Instances verbessern das Preis-Leistungs-Verhältnis beim Ausführen von Spark-Workloads auf Amazon EMR um 7.93–13.35 % gegenüber Instances der vorherigen Generation, je nach Instance-Größe. In diesem Beitrag beschreiben wir, wie wir den Preis-Leistungs-Vorteil eingeschätzt haben.
Amazon EMR-Laufzeitleistung mit EC2 C7g-Instances
Wir haben TPC-DS 3 TB Benchmark-Abfragen auf Amazon EMR 6.9 mit der Amazon EMR-Laufzeit für Apache Spark (kompatibel mit Apache Spark 3.3) mit C7g-Instances ausgeführt. Daten wurden gespeichert Amazon Simple Storage-Service (Amazon S3) und die Ergebnisse wurden mit äquivalenten C6g-Clustern aus der Instance-Familie der vorherigen Generation verglichen. Wir haben die Leistungsverbesserungen anhand der Gesamtabfragelaufzeit und des geometrischen Mittels der Abfragelaufzeit über TPC-DS 3 TB-Benchmark-Abfragen hinweg gemessen.
Unsere Ergebnisse zeigten 13.65–18.73 % Verbesserung der gesamten Abfragelaufzeitleistung und 16.98–20.28 % Verbesserung des geometrischen Mittelwerts auf EMR-Clustern mit C7g im Vergleich zu entsprechenden EMR-Clustern mit C6g-Instanzen, je nach Instanzgröße. Beim Kostenvergleich haben wir je nach Instanzgröße eine Kostensenkung von 7.93–13.35 % auf dem EMR-Cluster mit C7g im Vergleich zum Äquivalent mit C6g festgestellt. Wir haben die C6g xlarge-Instanz nicht bewertet, da sie nicht über ausreichend Arbeitsspeicher zum Ausführen der Abfragen verfügte.
Die folgende Tabelle zeigt die Ergebnisse der Ausführung der TPC-DS 3 TB-Benchmark-Abfragen mit Amazon EMR 6.9 im Vergleich zu äquivalenten C7g- und C6g-Instance-EMR-Clustern.
Instanzgröße | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Gesamtgröße des Clusters (1 Leader + 5 Kernknoten) | 6 | 6 | 6 | 6 | 6 |
Gesamte Abfragelaufzeit auf C6g (Sekunden) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Gesamte Abfragelaufzeit auf C7g (Sekunden) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Gesamtverbesserung der Abfragelaufzeit mit C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Geometrisches Mittel der Abfragelaufzeit C6g (Sekunden) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Geometrisches Mittel der Abfragelaufzeit C7g (Sekunden) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Verbesserung der geometrischen mittleren Abfragelaufzeit mit C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
EC2 C6g-Instance-Preis ($ pro Stunde) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g-Instance-Preis ($ pro Stunde) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) Instance-Preis ($ pro Stunde) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Betriebskosten auf C6g ($ pro Instanz) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g-Instance-Preis ($ pro Stunde) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g-Preis ($ pro Stunde pro Instanz) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g-Instance-Preis ($ pro Stunde) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Betriebskosten auf C7g ($ pro Instanz) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Gesamtkostenreduzierung mit C7g einschließlich Leistungssteigerung | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Das folgende Diagramm zeigt Verbesserungen pro Abfrage, die auf C7g 2xlarge-Instanzen im Vergleich zu entsprechenden C6g-Generationen beobachtet wurden.
Benchmarking-Methodik
Der in diesem Beitrag verwendete Benchmark ist vom branchenüblichen TPC-DS-Benchmark abgeleitet und verwendet Abfragen aus dem Spark SQL-Leistungstests GitHub-Repository mit der GMT Fixes angewendet.
Wir haben die TCO berechnet, indem wir die Kosten pro Stunde mit der Anzahl der Instanzen im Cluster und der Zeit multipliziert haben, die zum Ausführen der Abfragen im Cluster benötigt wurde. Wir haben für alle Instanzen On-Demand-Preise in der Region USA Ost (Nord-Virginia) verwendet.
Zusammenfassung
In diesem Beitrag haben wir beschrieben, wie wir den Kosten-Leistungs-Vorteil der Verwendung von Amazon EMR mit C7g-Instances im Vergleich zur Verwendung gleichwertiger Instances der vorherigen Generation geschätzt haben. Die Verwendung dieser neuen Instances mit Amazon EMR verbessert die Kostenleistung um weitere 7–13 %.
Über die Autoren
Al MS ist Produktmanager für Amazon EMR bei Amazon Web Services.
Kyeonghyun Ryoo ist Software Development Engineer für EMR bei Amazon Web Services. Er arbeitet hauptsächlich an der Entwicklung und Erstellung von Automatisierungstools für interne Teams und Kunden, um deren Produktivität zu maximieren. Außerhalb der Arbeit ist er ein pensionierter Weltmeister im professionellen Gaming, der immer noch gerne Videospiele spielt.
Yuzhou Sonne ist Softwareentwicklungsingenieur für EMR bei Amazon Web Services.
Steve Koonce ist Engineering Manager für EMR bei Amazon Web Services.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- über
- Zusätzliche
- AI
- Alle
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- Analytik
- und
- Apache
- Apache Funken
- Anwendungen
- angewandt
- Automation
- weil
- Benchmark
- Nutzen
- Building
- berechnet
- Champion
- Cluster
- verglichen
- Vergleich
- kompatibel
- Berechnen
- Kernbereich
- Kosten
- Kostenreduzierung
- Kosten
- Kunden
- technische Daten
- Abhängig
- Abgeleitet
- beschreiben
- beschrieben
- Entwerfen
- Entwicklung
- DID
- leicht
- Osten
- Ingenieur
- Entwicklung
- genießen
- Äquivalent
- geschätzt
- Äther (ETH)
- Familie
- Folgende
- Gerüste
- für
- Games
- Gaming
- Generation
- Generationen
- GitHub
- Graph
- Bienenstock
- Ultraschall
- HTTPS
- zu unterstützen,
- Verbesserung
- Verbesserungen
- verbessert
- in
- Dazu gehören
- Einschließlich
- Instanz
- intern
- IT
- startet
- Führer
- verwaltet
- Manager
- Maximieren
- Memory
- MS
- Multiplizieren
- Neu
- Fiber Node
- Anzahl
- Open-Source-
- aussen
- Leistung
- Plato
- Datenintelligenz von Plato
- PlatoData
- spielend
- Post
- früher
- Preis
- gebühr
- in erster Linie
- Prozessoren
- Produkt
- Produkt-Manager
- PRODUKTIVITÄT
- Professionell
- die
- bietet
- Region
- Release
- Die Ergebnisse
- Führen Sie
- Laufen
- Sekunden
- Lösungen
- Konzerte
- Einfacher
- Größe
- Software
- Software-Entwicklung
- Spark
- SQL
- Immer noch
- Lagerung
- gelagert
- so
- ausreichend
- Support
- Tabelle
- Teams
- Tests
- Das
- ihr
- Zeit
- zu
- Werkzeuge
- Gesamt
- us
- -
- Video
- Videospiele
- Virginia
- Netz
- Web-Services
- welche
- WHO
- Arbeiten
- Werk
- weltweit wie ausgehandelt und gekauft ausgeführt wird.
- Zephyrnet