Riduci i costi del cluster Amazon EMR fino al 19% con nuovi miglioramenti in Amazon EMR Managed Scaling

Riduci i costi del cluster Amazon EMR fino al 19% con nuovi miglioramenti in Amazon EMR Managed Scaling

Nodo di origine: 1985302

Nel giugno 2020, AWS ha annunciato la disponibilità generale di Ridimensionamento gestito da Amazon EMR. Con EMR Managed Scaling, specifichi i limiti di elaborazione minimi e massimi per i tuoi cluster e Amazon EMR ridimensiona automaticamente il tuo cluster per prestazioni e utilizzo delle risorse ottimali. EMR Managed Scaling monitora costantemente i parametri chiave relativi al carico di lavoro e utilizza un algoritmo che ottimizza le dimensioni del cluster per il migliore utilizzo delle risorse. Dato che la funzionalità è completamente gestita, i miglioramenti all'algoritmo vengono immediatamente realizzati senza bisogno di un aggiornamento della versione. Amazon EMR può aumentare il cluster durante i picchi e ridurlo gradualmente durante i periodi di inattività, riducendo i costi e ottimizzando la capacità del cluster per le migliori prestazioni.

Nel corso del 2022, abbiamo apportato numerosi miglioramenti all'algoritmo EMR Managed Scaling. Grazie a questi miglioramenti, abbiamo osservato che per i cluster abilitati con EMR Managed Scaling, l'utilizzo è migliorato fino al 15% e i costi totali sono stati ulteriormente ridotti fino al 19%. A partire da metà dicembre 2022, i miglioramenti di EMR Managed Scaling sono stati abilitati per impostazione predefinita per i cluster che utilizzano Amazon EMR versioni 5.34.0 e successive e Amazon EMR versioni 6.4.0 e successive sia per i cluster nuovi che per quelli esistenti. Inoltre, dato che la funzionalità è completamente gestita, otterrai il nuovo algoritmo di Scaling Gestito ottimizzato per impostazione predefinita e non sarà necessaria alcuna azione da parte tua.

Di seguito sono elencati alcuni dei miglioramenti chiave che abbiamo abilitato per il ridimensionamento gestito da EMR:

  • Utilizzo migliorato del cluster con riduzione mirata del cluster EMR
  • Costi ridotti impedendo la riduzione delle istanze che archiviano i dati shuffle intermedi utilizzando Consapevolezza dei dati Spark Shuffle
  • Miglioramento dell'utilizzo del cluster e riduzione dei costi con il graduale aumento del cluster EMR

Storie di successo dei clienti

In che modo l'algoritmo EMR Managed Scaling migliorato ha aiutato un'azienda tecnologica a ridurre i costi:

Per illustrare i risparmi sui costi tramite esempi, abbiamo esaminato i cluster EMR per un'azienda tecnologica, che utilizza ampiamente Amazon EMR per elaborare i dati di fatturazione in tempo reale tra Kafka e S3 utilizzando Spark. Eseguono un cluster EMR persistente con la versione EMR 5.35 e hanno il ridimensionamento gestito EMR attivato. Il seguente dashboard di Amazon CloudWatch mostra come, a partire dal 21 dicembre, è stato effettuato il provisioning dell'algoritmo migliorato di Managed Scaling (totale nodi richiesti) solo 70 nodi rispetto al precedente algoritmo di Managed Scaling che effettuava il provisioning di 179 nodi per un profilo di lavoro simile. Minore è il numero di risorse fornite per eseguire i processi, minore sarà il costo totale del cluster EMR.

In che modo l'algoritmo EMR Managed Scaling migliorato ha aiutato un'impresa pubblicitaria a ridurre i costi:

Abbiamo anche esaminato un cluster EMR per un'impresa pubblicitaria, che sfrutta Amazon EMR per la propria strategia di analisi dei dati ed esegue i processi ETL batch utilizzando Spark. Eseguono i loro cluster su EMR versione 6.5 e hanno attivato EMR Managed Scaling. Il seguente dashboard di Amazon CloudWatch mostra come, a partire dal 15 dicembre, l'algoritmo migliorato di Managed Scaling ha effettuato il provisioning (unità totali richieste) solo 41 nodi rispetto al precedente algoritmo di Managed Scaling che effettuava il provisioning di 86 nodi per un profilo di lavoro simile.

Stima del risparmio sui costi e dei miglioramenti nell'utilizzo per i cluster EMR:

Risparmio sui costi del cluster:

Per visualizzare i risparmi sui costi stimati per il tuo cluster EMR con i miglioramenti del ridimensionamento gestito EMR, procedi nel seguente modo:

  • Aprire il Console dei parametri di CloudWatch e, sotto EMR, cerca per tuo ClusterId.
  • Dall'elenco dei parametri disponibili per EMR, seleziona i due parametri seguenti:
    • Capacità di marcia – In base al tipo di unità specificato nella policy di dimensionamento gestito, questo sarà disponibile come “TotalUnitsRunning" o "TotalNodesRunning" o "TotalVCPURunning"
    • Capacità richiesta dal ridimensionamento gestito – In base al tipo di unità specificato nella policy di dimensionamento gestito, questo sarà disponibile come “Unità totali richieste" o "TotalNodesRequested" o "TotaleVCPURichiesto"
  •  Traccia entrambi i parametri nel dashboard CloudWatch.
  • Seleziona l'intervallo di tempo pari a 3 mesi tra novembre 2022 e gennaio 2023 per visualizzare i miglioramenti con l'algoritmo Managed Scaling migliorato rispetto al precedente algoritmo Managed Scaling.

Miglioramenti nell'utilizzo del cluster:

Per stimare i miglioramenti nell'utilizzo del cluster EMR con i miglioramenti del ridimensionamento gestito EMR, seguire i passaggi seguenti:

  • Apri la console dei parametri CloudWatch e, in EMR, cerca per tuo ClusterId.
  • Dall'elenco delle metriche disponibili per EMR, seleziona "YARNMemoriaDisponibilePercentuale” metrico.
  • Per ricavare la memoria utilizzata da YARN, aggiungi un'espressione matematica come "Aggiungi matematica → Inizia con un'espressione vuota"
    • Per la nuova espressione matematica, imposta Etichetta=Utilizzo del filato e impostare Dettagli=100-YARNMemoryAvailablePercentage.
  • Traccia il parametro di utilizzo del cluster nel dashboard CloudWatch.
  • Seleziona l'intervallo di tempo pari a 3 mesi tra novembre 2022 e gennaio 2023 per visualizzare i miglioramenti con l'algoritmo Managed Scaling migliorato rispetto al precedente algoritmo Managed Scaling.

Qual'è il prossimo

Continueremo a ottimizzare l'algoritmo di Managed Scaling con ogni nuova versione di EMR e quindi a migliorare l'esperienza del cliente durante il dimensionamento dei cluster con EMR Managed Scaling.

Conclusione

In questo post, abbiamo fornito una panoramica del miglioramento chiave che abbiamo lanciato in EMR Managed Scaling. Grazie a questi miglioramenti, abbiamo osservato che l'utilizzo dei cluster è migliorato fino al 15% e il costo dei cluster è stato ridotto fino al 19%. A partire da metà dicembre 2022, questi miglioramenti sono stati abilitati per impostazione predefinita per i cluster EMR che utilizzano Amazon EMR versioni 5.34.0 e successive e Amazon EMR versioni 6.4.0 e successive. Dato che EMR Managed Scaling è una funzionalità completamente gestita, otterrai il nuovo algoritmo EMR Managed Scaling ottimizzato per impostazione predefinita e non sarà necessaria alcuna azione da parte tua.

Per saperne di più e iniziare a utilizzare lo scaling gestito da EMR, visita il Pagina della documentazione sul dimensionamento gestito da EMR.


Informazioni sugli autori

Sushant Majithia è Principal Product Manager per EMR presso Amazon Web Services.

 Vishal Vyas è un ingegnere software senior per EMR presso Amazon Web Services.

Matteo Liem è Senior Solution Architecture Manager presso AWS.

Timestamp:

Di più da Big Data di AWS