Reduzieren Sie die Kosten für Amazon EMR-Cluster um bis zu 19 % mit neuen Verbesserungen in Amazon EMR Managed Scaling

Reduzieren Sie die Kosten für Amazon EMR-Cluster um bis zu 19 % mit neuen Verbesserungen in Amazon EMR Managed Scaling

Quellknoten: 1985302

Im Juni 2020 gab AWS die allgemeine Verfügbarkeit von bekannt Amazon EMR-verwaltete Skalierung. Mit EMR Managed Scaling geben Sie die minimalen und maximalen Rechengrenzen für Ihre Cluster an, und Amazon EMR passt die Größe Ihres Clusters automatisch an, um eine optimale Leistung und Ressourcennutzung zu erzielen. EMR Managed Scaling überwacht ständig wichtige Workload-bezogene Metriken und verwendet einen Algorithmus, der die Clustergröße für die beste Ressourcennutzung optimiert. Da die Funktion vollständig verwaltet wird, werden Verbesserungen des Algorithmus sofort realisiert, ohne dass ein Versions-Upgrade erforderlich ist. Amazon EMR kann den Cluster während Spitzenzeiten hochskalieren und während Leerlaufzeiten elegant herunterskalieren, wodurch Ihre Kosten gesenkt und die Clusterkapazität für die beste Leistung optimiert werden.

Im Laufe des Jahres 2022 haben wir mehrere Verbesserungen am EMR Managed Scaling-Algorithmus vorgenommen. Mit diesen Verbesserungen haben wir beobachtet, dass sich bei Clustern, die mit EMR Managed Scaling aktiviert wurden, die Auslastung um bis zu 15 Prozent verbesserte und die Gesamtkosten um bis zu 19 Prozent weiter gesenkt wurden. Ab Mitte Dezember 2022 wurden EMR Managed Scaling-Verbesserungen standardmäßig für Cluster aktiviert, die Amazon EMR-Versionen 5.34.0 und höher und Amazon EMR-Versionen 6.4.0 und höher für neue und vorhandene Cluster verwenden. Da die Funktion vollständig verwaltet wird, erhalten Sie außerdem standardmäßig den neuen optimierten verwalteten Skalierungsalgorithmus, und auf Ihrer Seite ist keine Aktion erforderlich.

Nachfolgend sind einige der wichtigsten Verbesserungen aufgeführt, die wir für EMR Managed Scaling aktiviert haben:

  • Verbesserte Clusterauslastung durch gezieltes Herunterskalieren Ihres EMR-Clusters
  • Reduzierte Kosten, indem das Herunterskalieren von Instanzen verhindert wird, die Zwischen-Shuffle-Daten verwenden Spark Shuffle-Datenbewusstsein
  • Verbesserte Clusterauslastung und reduzierte Kosten durch schrittweises Hochskalieren Ihres EMR-Clusters

Erfolgsberichte unserer Kunden

Wie der verbesserte EMR Managed Scaling-Algorithmus einem Technologieunternehmen dabei half, Kosten zu senken:

Um die Kosteneinsparungen anhand von Beispielen zu veranschaulichen, haben wir uns einen EMR-Cluster für ein Technologieunternehmen angesehen, das Amazon EMR stark nutzt, um Echtzeit-Abrechnungsdaten zwischen Kafka und S3 mit Spark zu verarbeiten. Sie führen einen persistenten EMR-Cluster mit EMR-Version 5.35 aus und haben EMR Managed Scaling aktiviert. Das folgende Amazon CloudWatch-Dashboard zeigt, wie ab dem 21. Dezember der verbesserte Managed Scaling-Algorithmus bereitgestellt wird (insgesamt angeforderte Knoten) nur 70 Knoten im Vergleich zum vorherigen Managed Scaling-Algorithmus, der 179 Knoten für ein ähnliches Jobprofil bereitstellte. Je weniger Ressourcen für die Ausführung Ihrer Jobs bereitgestellt werden, desto niedriger sind die Gesamtkosten Ihres EMR-Clusters.

Wie der verbesserte EMR Managed Scaling-Algorithmus einem Werbeunternehmen geholfen hat, Kosten zu senken:

Wir haben uns auch einen EMR-Cluster für ein Werbeunternehmen angesehen, das Amazon EMR für seine Datenanalysestrategie nutzt und seine Batch-ETL-Jobs mit Spark ausführt. Sie führen ihre Cluster auf EMR Version 6.5 aus und haben EMR Managed Scaling aktiviert. Das folgende Amazon CloudWatch-Dashboard zeigt, wie ab dem 15. Dezember der verbesserte Managed Scaling-Algorithmus bereitgestellt wird (insgesamt angeforderte Einheiten) nur 41 Knoten im Vergleich zum vorherigen Managed Scaling-Algorithmus, der 86 Knoten für ein ähnliches Jobprofil bereitstellte.

Schätzung der Kosteneinsparungen und Auslastungsverbesserungen für Ihre EMR-Cluster:

Cluster-Kosteneinsparungen:

Führen Sie die folgenden Schritte aus, um die geschätzten Kosteneinsparungen für Ihren EMR-Cluster mit den EMR Managed Scaling-Verbesserungen anzuzeigen:

  • Öffnen Sie den Microsoft Store auf Ihrem Windows-PC. CloudWatch-Metrikkonsole und unter EMR, suchen Sie nach Ihrem ClusterId.
  • Wählen Sie aus der Liste der für EMR verfügbaren Metriken die folgenden zwei Metriken aus:
    • Betriebskapazität – Basierend auf dem Einheitentyp, den Sie in Ihrer verwalteten Skalierungsrichtlinie angegeben haben, ist dies entweder als „TotalUnitsRunning" oder "TotalNodesRunning" oder "GesamtVCPUWird ausgeführt"
    • Von Managed Scaling angeforderte Kapazität – Basierend auf dem Einheitentyp, den Sie in Ihrer verwalteten Skalierungsrichtlinie angegeben haben, ist dies entweder als „TotalUnitsRequested" oder "TotalNodesRequested" oder "Gesamt-VCPUangefordert"
  •  Zeichnen Sie beide Metriken in Ihr CloudWatch-Dashboard.
  • Wählen Sie als Zeitrahmen die 3 Monate zwischen November 2022 und Januar 2023 aus, um die Verbesserungen mit dem verbesserten Managed Scaling-Algorithmus im Vergleich zum vorherigen Managed Scaling-Algorithmus anzuzeigen.

Verbesserungen der Clusterauslastung:

Führen Sie die folgenden Schritte aus, um die Verbesserungen Ihrer EMR-Clusternutzung mit den EMR-Verwalteten Skalierungsverbesserungen abzuschätzen:

  • Öffnen Sie die CloudWatch-Metrikkonsole und unter EMR, suchen Sie nach Ihrem ClusterId.
  • Wählen Sie aus der Liste der für EMR verfügbaren Metriken die „YARNMemoryAvailablePercentage“ metrisch.
  • Um den von YARN genutzten Speicher abzuleiten, fügen Sie einen mathematischen Ausdruck wie „Add Math → Start with empty expression“ hinzu.
    • Legen Sie für den neuen mathematischen Ausdruck fest Label=Garnnutzung und einstellen Details=100-YARNMemoryAvailablePercentage.
  • Zeichnen Sie die Clusterauslastungsmetrik in Ihrem CloudWatch-Dashboard.
  • Wählen Sie als Zeitrahmen die 3 Monate zwischen November 2022 und Januar 2023 aus, um die Verbesserungen mit dem verbesserten Managed Scaling-Algorithmus im Vergleich zum vorherigen Managed Scaling-Algorithmus anzuzeigen.

Was kommt als nächstes

Wir werden den Managed Scaling-Algorithmus mit jeder neuen EMR-Version weiter optimieren und dadurch das Kundenerlebnis bei der Skalierung von Clustern mit EMR Managed Scaling verbessern.

Zusammenfassung

In diesem Beitrag haben wir einen Überblick über die wichtigsten Verbesserungen gegeben, die wir in EMR Managed Scaling eingeführt haben. Mit diesen Verbesserungen haben wir beobachtet, dass sich die Clusterauslastung um bis zu 15 Prozent verbesserte und die Clusterkosten um bis zu 19 Prozent gesenkt wurden. Ab Mitte Dezember 2022 wurden diese Verbesserungen standardmäßig für EMR-Cluster aktiviert, die Amazon EMR-Versionen 5.34.0 und höher und Amazon EMR-Versionen 6.4.0 und höher verwenden. Da EMR Managed Scaling eine vollständig verwaltete Funktion ist, erhalten Sie standardmäßig den neuen, optimierten EMR Managed Scaling-Algorithmus, und von Ihrer Seite ist keine Aktion erforderlich.

Um mehr zu erfahren und mit EMR Managed Scaling zu beginnen, besuchen Sie die Dokumentationsseite zu EMR Managed Scaling.


Über die Autoren

Sushant Majithia ist Principal Product Manager für EMR bei Amazon Web Services.

 Vishal Vyas ist Senior Software Engineer für EMR bei Amazon Web Services.

Matthäus Liem ist Senior Solution Architecture Manager bei AWS.

Zeitstempel:

Mehr von AWS Big Data