Kapacitetsstyring og Amazon EMR-styrede skaleringsforbedringer til Amazon EMR på EC2-klynger | Amazon Web Services

Genudgivet af Platon

Abonnenter: 0

In 2022, fortalte vi dig om de nye forbedringer, vi lavede i Amazon EMR Managed Scaling, hvilket hjalp med at forbedre klyngeudnyttelsen samt reducerede klyngeomkostninger. I 2023 er vi glade for at kunne rapportere, at Amazon EMR-teamet har arbejdet hårdt. Vi arbejdede baglæns i forhold til kundernes krav og lancerede flere nye funktioner for at forbedre din Amazon EMR på EC2-klyngers kapacitetsstyring og skaleringsoplevelse.

Amazon EMR er cloud big data-løsningen til petabyte-skala databehandling, interaktiv analyse og maskinlæring (ML) ved hjælp af open source-rammer som f.eks. Apache Spark, Apache Hiveog Presto. Kunder bad os om funktioner, der yderligere ville forbedre kapacitetsstyringen og skaleringsoplevelsen af deres EMR på EC2-klynger, inklusive deres store, langvarige klynger. Vi har arbejdet hårdt for at imødekomme disse behov. Følgende er nogle af de vigtigste forbedringer:

Forbedret kundegennemsigtighed og fleksibilitet med leveringstimeout for Spot-forekomster
Opskalering af optimerede opgavenoder til Amazon EMR på EC2-klynger lanceret med instansgrupper
Forbedret arbejdsfasthed med forbedret beskyttelse til Spark Drivers

Lad os dykke dybere og diskutere den nye Amazon EMR om EC2-funktioner i detaljer.

Forbedret kundegennemsigtighed og fleksibilitet med leveringstimeout for Spot-forekomster

Mange Amazon EMR-kunder bruger EC2 Spot-forekomster for deres EMR på EC2-klynger for at reducere omkostningerne. Spot-forekomster er ledige Amazon Elastic Compute Cloud (Amazon EC2) beregningskapacitet, der tilbydes med rabatter på op til 90 % sammenlignet med On-Demand-priser. Amazon EMR giver dig mulighed for at skalere din klynge enten manuelt eller ved at bruge Automatisk skalering. Du kan også bruge Amazon EMR Managed Scaling funktion til automatisk at ændre størrelsen på din klynge baseret på arbejdsbyrde og udnyttelse.

For at forbedre kundeoplevelsen, når du skalerer op ved hjælp af Spot-forekomster, for EMR på EC2-klynger, der er lanceret ved hjælp af forekomstflåder, kan du nu angive en klargøringstimeout for Spot-forekomster. En klargøringstimeout vil fortælle Amazon EMR om at stoppe med at klargøre Spot Instance-kapacitet, hvis klyngen overskrider en specificeret tidstærskel under klyngeskaleringsoperationer. Du kan konfigurere Spot-instansens klargøringstimeout for klynger, der ændres manuelt eller ved hjælp af Amazon EMR Managed Scaling og Auto Scaling.

For at give bedre gennemsigtighed, når timeout-perioden udløber, sender Amazon EMR også automatisk begivenheder til en Amazon CloudWatch-begivenheder strøm. Med disse CloudWatch-begivenheder kan du oprette regler, der matcher hændelser i henhold til et specificeret mønster, og derefter dirigere hændelserne til mål for at handle. For at lære mere, se venligst Tilpas en leveringstimeoutperiode for klyngestørrelse i Amazon EMR.

Nedenfor finder du en opsummering af oplevelsen for forskellige scenarier, når du konfigurerer en leveringstimeoutperiode under ændring af størrelse for din Amazon EMR på EC2-klynge

Scenario	Erfaring
Amazon EMR er i stand til at levere den ønskede Spot-kapacitet inden udløbet af leveringstimeoutet	Amazon EMR skalerer automatisk klyngen op til den ønskede kapacitet, og der kræves ingen handling fra kundens side
Amazon EMR er ikke i stand til at klargøre nogen Spot-kapacitet eller kun i stand til at levere delvis Spot-kapacitet, og leveringstimeoutet er udløbet	Hvis Amazon EMR ikke kan levere den nødvendige Spot-kapacitet, og leveringstimeoutet er udløbet, annullerer Amazon EMR anmodningen om ændring af størrelse og stopper sine forsøg på at klargøre yderligere Spot-kapacitet. Amazon EMR vil også offentliggøre begivenheder til en Amazon CloudWatch Events-stream. Kunder kan bruge disse begivenheder til at oprette regler og træffe passende handlinger
Hvis Spot-forekomsterne i din Amazon EMR på EC2-klynger afbrydes, da Amazon EC2 har brug for dem tilbage	Amazon EMR vil automatisk udløse en ny størrelsesanmodning for at genbalancere dine klynger ved at erstatte forekomster med en af de tilgængelige typer i din klynge. Amazon EMR vil også bruge den samme timeout for tilpasning af klargøring, som blev konfigureret på klyngen. Der kræves ingen handling fra kundens side.

Du bør overveje, hvor kritisk kapacitetstilgængeligheden er, når du angiver timeoutværdien for klargøring:

Når tilgængeligheden af din arbejdsbelastningskapacitet er kritisk - For at sikre, at den ønskede kapacitet er tilgængelig, anbefaler vi, at du konfigurerer timeout for tilpasning af klargøring baseret på den tid, det tager at køre applikationen og applikationens SLA'er. Hvis f.eks. applikations-SLA er 60 minutter, og det tager 30 minutter for applikationen at fuldføre, skal du indstille timeout for ændring af størrelsen på klargøring til 30 minutter eller mindre. Amazon EMR vil forsøge at klargøre for at få Spot-kapacitet, indtil timeout udløber (30 minutter eller mindre) og offentliggøre en CloudWatch-begivenhed, så du kan tage passende handlinger.
Når din arbejdsbyrde er tidsfleksibel, og kapacitetstilgængelighed ikke er en faktor - Hvis arbejdsbyrden er tidsfleksibel, og kapacitetstilgængelighed ikke er en faktor, kan du for at sikre den højeste sandsynlighed for at få den ønskede Spot-kapacitet konfigurere en højere timeoutværdi for timeout for klargøring af størrelsen.

Opskalering af optimerede opgavenoder til Amazon EMR på EC2-klynger lanceret med Instance-grupper

Forekomstgrupper tilbyder en enklere opsætning til at starte EMR på EC2-klynger. Hver klynge, der lanceres ved hjælp af instansgrupper, kan omfatte op til 50 instansgrupper: én primær instansgruppe, der indeholder én EC2-instans, en kerneinstansgruppe, der indeholder en eller flere EC2-instanser, og op til 48 valgfri opgaveinstansgrupper. Du kan skalere hver forekomstgruppe ved at tilføje og fjerne EC2-forekomster manuelt, eller du kan konfigurere automatisk skalering. Du kan også bruge Amazon EMR Managed Scaling-funktionen til automatisk at ændre størrelsen på din klynge baseret på arbejdsbelastning og udnyttelse.

For at forbedre kundeoplevelsen, f.eks. grupper på EMR på EC2-klynger ved opskalering af opgavenoder ved hjælp af Amazon EMR Managed Scaling, har vi forbedret den administrerede skaleringsalgoritme for at vælge de opgaveinstansgrupper, der har størst sandsynlighed for at erhverve kapacitet. Ydermere, når styret skalering ikke er i stand til at erhverve kapacitet med en enkelt opgaveinstansgruppe, for at reducere eventuelle opskaleringsforsinkelser, skifter Amazon EMR automatisk til en anden opgavegruppe og opfylder kapaciteten ved at bruge flere opgaveinstansgrupper. Jo mere fleksibel du er med hensyn til dine instanstyper, jo større er chancerne for at klargøre kapacitet. For at lære mere, se Bedste praksis for eksempel og tilgængelighedszone-fleksibilitet.

Forbedret arbejdsfasthed med forbedret beskyttelse til Spark Drivers

In 2022, for at forbedre jobresiliensen ved brug af Amazon EMR Managed Scaling, forbedrede vi administreret skalering til at være Spark-shuffle-databevidst, hvilket forhindrer nedskalering af forekomster, der gemmer mellemliggende shuffle-data for Apache Spark. Dette hjælper med at forhindre genforsøg og genberegninger af job, hvilket fører til bedre ydeevne og lavere omkostninger.

For yderligere at forbedre jobresiliens ved brug af Amazon EMR Managed Scaling, har vi yderligere forbedret managed scaling for at være Spark Driver opmærksom, hvilket sikrer, at Amazon EMR Managed Scaling under nedskalering af klynge prioriterer nedskaleringen af noder, der ikke har en aktive Spark Driver kører på dem. Dette hjælper med at minimere jobfejl og jobforsøg, hvilket hjælper med at forbedre ydeevnen yderligere og reducere omkostningerne. Denne forbedring er aktiveret som standard for EMR-klynger, der bruger Amazon EMR version 5.34.0 og nyere, og Amazon EMR version 6.4.0 og nyere.

For at bekræfte, hvilke noder i din klynge der kører Spark Driver, kan du besøge Spark History Server og filtrere efter driveren på Eksekutører fanen på dit Spark-applikations-id.

Konklusion

I dette indlæg fremhævede vi de forbedringer, vi lavede i kapacitetsstyring og Amazon EMR Managed Scaling til EMR på EC2-klynger. Vi fokuserede på at forbedre jobresiliens, øget fleksibilitet og gennemsigtighed ved levering af Spot Instances og optimere opskaleringsoplevelsen ved brug af administreret skalering med instansgrupper på Amazon EMR på EC2-klynger. Selvom vi har lanceret flere funktioner indtil videre i 2023, og innovationstempoet fortsætter med at accelerere, er det stadig dag 1, og vi ser frem til at høre fra dig om, hvordan disse funktioner hjælper dig med at låse op for mere værdi for dine organisationer. Vi inviterer dig til at prøve disse nye funktioner og komme i kontakt med os gennem dit AWS-kontoteam, hvis du har yderligere kommentarer.

Om forfatterne

Sushant Majithia er hovedproduktchef for EMR hos AWS.

Ankur Goyal er et SDM med Amazon EMR Big Data Platform-team. Han bygger distribuerede applikationer i stor skala og klyngeoptimeringsalgoritmer. Ankur er interesseret i emner som Analytics, Machine Learning og Forecasting.

Matthew Liem er Senior Solution Architecture Manager hos AWS.

Tarun Chanana er en SDM med Amazon EMR Big Data Platform team.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Automotive/elbiler, Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
ChartPrime. Løft dit handelsspil med ChartPrime. Adgang her.
BlockOffsets. Modernisering af miljømæssig offset-ejerskab. Adgang her.
Kilde: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/

Tidsstempel: September 7, 2023

Tidsstempel: Jan 25, 2023

Genudgivet af Platon

Forbedre overvågning og fejlfinding for AWS Glue-job ved hjælp af nye jobobservabilitetsmetrikker | Amazon Web Services

Hvad er nyt med Amazon MWAA-understøttelse af opstartsscripts | Amazon Web Services

Superladede pivotborde i Amazon QuickSight

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto