In 2022smo vas obvestili o novih izboljšavah, ki smo jih naredili v Upravljano skaliranje Amazon EMR, kar je pomagalo izboljšati uporabo gruče in zmanjšalo stroške gruče. Leta 2023 z veseljem poročamo, da je ekipa Amazon EMR trdo delala. Delali smo nazaj glede na zahteve strank in uvedli več novih funkcij za izboljšanje vaše izkušnje z upravljanjem zmogljivosti in skaliranjem gruče Amazon EMR na EC2.
Amazonski EMR je rešitev za velike podatke v oblaku za petabajtno obdelavo podatkov, interaktivno analitiko in strojno učenje (ML) z uporabo odprtokodnih okvirov, kot je Apache Spark, Apache panjin Presto. Stranke so nas prosile za funkcije, ki bi dodatno izboljšale upravljanje zmogljivosti in izkušnjo skaliranja njihovih EMR v gručah EC2, vključno z njihovimi velikimi, dolgo delujočimi gručami. Trdo smo delali, da bi zadovoljili te potrebe. Sledi nekaj ključnih izboljšav:
- Izboljšana preglednost in prilagodljivost strank s časovno omejitvijo zagotavljanja za promptne primerke
- Optimizirano povečanje vozlišč nalog za Amazon EMR na gručah EC2, ki so se začele s skupinami primerkov
- Izboljšana odpornost na delo z izboljšano zaščito za gonilnike Spark
Potopimo se globlje in podrobno razpravljamo o novih funkcijah Amazon EMR na EC2.
Izboljšana preglednost in prilagodljivost strank s časovno omejitvijo zagotavljanja za promptne primerke
Številne stranke Amazon EMR uporabljajo Točkovni primerki EC2 za njihove EMR na grozdih EC2 za zmanjšanje stroškov. Točkovni primerki so rezervni Amazonski elastični računalniški oblak (Amazon EC2) računalniška zmogljivost, ponujena s popusti do 90 % v primerjavi s cenami na zahtevo. Amazon EMR vam ponuja možnost, da svojo gručo povečate ročno ali z uporabo Samodejno skaliranje. Uporabite lahko tudi Upravljano skaliranje Amazon EMR funkcijo za samodejno spreminjanje velikosti gruče glede na delovno obremenitev in uporabo.
Če želite izboljšati uporabniško izkušnjo pri povečevanju z uporabo točkovnih primerkov, lahko za EMR v gručah EC2, zagnanih z uporabo flote primerkov, zdaj določite časovno omejitev zagotavljanja za točkovne primerke. Časovna omejitev zagotavljanja bo sporočila Amazon EMR, naj preneha zagotavljati kapaciteto Spot Instance, če gruča med operacijami skaliranja gruče preseže določen časovni prag. Konfigurirate lahko časovno omejitev zagotavljanja instance Spot za ročno spreminjanje velikosti gruč ali z uporabo Amazon EMR Managed Scaling in Auto Scaling.
Poleg tega bo Amazon EMR za boljšo preglednost, ko poteče časovna omejitev, samodejno poslal dogodke Amazon CloudWatch Dogodki tok. S temi dogodki CloudWatch lahko ustvarite pravila, ki se ujemajo z dogodki v skladu z določenim vzorcem, nato pa dogodke usmerite k ciljem, da ukrepajo. Če želite izvedeti več, glejte Prilagodite časovno omejitev zagotavljanja za spreminjanje velikosti gruče v Amazon EMR.
Spodaj najdete povzetek izkušenj za različne scenarije, ko konfigurirate časovno omejitev zagotavljanja med spreminjanjem velikosti za vaš Amazon EMR v gruči EC2
Scenarij | Izkušnje |
Amazon EMR lahko zagotovi želeno kapaciteto Spot pred iztekom časovne omejitve zagotavljanja | Amazon EMR samodejno poveča gručo na želeno zmogljivost in stranka ne potrebuje nobenega ukrepanja |
Amazon EMR ne more zagotoviti nobene zmogljivosti Spot ali pa lahko zagotovi le delno zmogljivost Spot in časovna omejitev zagotavljanja je potekla | Če Amazon EMR ne more zagotoviti zahtevane zmogljivosti Spot in je časovna omejitev zagotavljanja potekla, bo Amazon EMR preklical zahtevo za spreminjanje velikosti in ustavil svoje poskuse zagotavljanja dodatne zmogljivosti Spot. Amazon EMR bo dogodke objavljal tudi v toku Amazon CloudWatch Events. Stranke lahko te dogodke uporabijo za ustvarjanje pravil in izvajanje ustreznih dejanj |
Če so primerki Spot v vaših gručih Amazon EMR na EC2 prekinjeni, ker jih Amazon EC2 potrebuje nazaj | Amazon EMR bo samodejno sprožil novo zahtevo za spremembo velikosti za ponovno uravnoteženje vaših gruč z zamenjavo primerkov s katero koli od razpoložljivih vrst v vaši gruči. Amazon EMR bo uporabil tudi isto časovno omejitev spreminjanja velikosti za zagotavljanje, ki je bila konfigurirana v gruči. Stranki ni potrebno nobeno dejanje. |
Pri podajanju vrednosti časovne omejitve zagotavljanja morate upoštevati kritičnost razpoložljivosti zmogljivosti:
- Ko je razpoložljivost vaše delovne obremenitve kritična - Če želite zagotoviti, da je na voljo želena zmogljivost, priporočamo, da konfigurirate časovno omejitev zagotavljanja spreminjanja velikosti glede na čas, ki je potreben za zagon aplikacije in SLA za aplikacijo. Na primer, če je SLA za aplikacijo 60 minut in traja 30 minut, da se aplikacija dokonča, bi morali časovno omejitev zagotavljanja spreminjanja velikosti nastaviti na 30 minut ali manj. Amazon EMR bo poskušal omogočiti pridobitev zmogljivosti Spot do izteka časovne omejitve (30 minut ali manj) in objaviti dogodek CloudWatch, da boste lahko ustrezno ukrepali.
- Ko je vaša delovna obremenitev časovno prilagodljiva in razpoložljivost zmogljivosti ni dejavnik - Če je delovna obremenitev časovno prilagodljiva in razpoložljivost zmogljivosti ni dejavnik, lahko za zagotovitev največje verjetnosti za pridobitev želene kapacitete Spot konfigurirate višjo vrednost časovne omejitve za časovno omejitev zagotavljanja spreminjanja velikosti.
Optimizirano povečanje vozlišč nalog za Amazon EMR na gručah EC2, ki so se začele s skupinami primerkov
Skupine primerkov ponujajo enostavnejšo nastavitev za zagon EMR v gručah EC2. Vsaka gruča, zagnana z uporabo skupin instanc, lahko vključuje do 50 skupin instanc: eno primarno skupino instanc, ki vsebuje en primerek EC2, jedrno skupino instanc, ki vsebuje enega ali več primerkov EC2, in do 48 neobveznih skupin instanc opravil. Vsako skupino instanc lahko prilagodite z ročnim dodajanjem in odstranjevanjem instanc EC2 ali pa nastavite samodejno skaliranje. Uporabite lahko tudi funkcijo Amazon EMR Managed Scaling za samodejno spreminjanje velikosti vaše gruče glede na delovno obremenitev in uporabo.
Da bi izboljšali uporabniško izkušnjo za skupine instanc na EMR v gručah EC2 pri povečevanju vozlišč nalog z Amazon EMR Managed Scaling, smo izboljšali upravljani algoritem skaliranja za izbiro skupin instanc nalog, ki imajo največjo verjetnost, da bodo pridobile zmogljivost. Poleg tega, ko upravljano skaliranje ne more pridobiti zmogljivosti z eno samo skupino primerkov opravil, bo Amazon EMR za zmanjšanje morebitnih zamud pri povečanju samodejno preklopil na drugo skupino opravil in izpolnil zmogljivost z uporabo več skupin primerkov opravil. Posledično bolj kot ste prilagodljivi glede vrst instanc, večje so možnosti za zagotavljanje zmogljivosti. Če želite izvedeti več, glejte Najboljše prakse na primer in prilagodljivost območja razpoložljivosti.
Izboljšana odpornost na delo z izboljšano zaščito za gonilnike Spark
In 2022, da bi izboljšali odpornost opravil pri uporabi Amazon EMR Managed Scaling, smo izboljšali upravljano skaliranje, da upošteva podatke Spark shuffle, kar preprečuje pomanjšanje instanc, ki shranjujejo vmesne podatke shuffle za Apache Spark. To pomaga preprečiti ponovne poskuse opravila in ponovne izračune, kar vodi do boljše učinkovitosti in nižjih stroškov.
Za dodatno izboljšanje odpornosti opravil pri uporabi Amazon EMR Managed Scaling smo dodatno izboljšali upravljano skaliranje, da pozna gonilnik Spark Driver, kar zagotavlja, da med zmanjševanjem gruče Amazon EMR Managed Scaling daje prednost pomanjšanju vozlišč, ki nimajo na njih teče aktivni gonilnik Spark. To pomaga zmanjšati neuspešne naloge in ponovne poskuse opravil, kar dodatno pomaga izboljšati učinkovitost in zmanjšati stroške. Ta izboljšava je privzeto omogočena za gruče EMR, ki uporabljajo Amazon EMR različice 5.34.0 in novejše ter Amazon EMR različice 6.4.0 in novejše.
Če želite preveriti, katera vozlišča v vaši gruči izvajajo gonilnik Spark, lahko obiščete strežnik zgodovine Spark in filtrirate gonilnik na Izvršitelji ID-ja vaše aplikacije Spark.
zaključek
V tej objavi smo poudarili izboljšave, ki smo jih izvedli pri upravljanju zmogljivosti in Amazon EMR Managed Scaling za EMR na gručah EC2. Osredotočili smo se na izboljšanje odpornosti delovnih mest, izboljšano prilagodljivost in preglednost pri zagotavljanju točkovnih primerkov ter optimizacijo izkušnje povečanja pri uporabi upravljanega skaliranja s skupinami primerkov na Amazon EMR na gručah EC2. Čeprav smo v letu 2023 do zdaj uvedli več funkcij in se hitrost inovacij še naprej pospešuje, ostaja dan 1 in veselimo se vašega odgovora o tem, kako vam te funkcije pomagajo odkleniti večjo vrednost za vaše organizacije. Vabimo vas, da preizkusite te nove funkcije in stopite v stik z nami prek skupine za račun AWS, če imate dodatne pripombe.
O avtorjih
Sushant Majithia je glavni produktni vodja za EMR pri AWS.
Ankur Goyal je SDM z ekipo Amazon EMR Big Data Platform. Gradi obsežne distribuirane aplikacije in algoritme za optimizacijo gruč. Ankurja zanimajo teme analitike, strojnega učenja in napovedovanja.
Matthew Liem je višji vodja arhitekture rešitev pri AWS.
Tarun Chanana je SDM z ekipo Amazon EMR Big Data Platform.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- ChartPrime. Izboljšajte svojo igro trgovanja s ChartPrime. Dostopite tukaj.
- BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/
- :ima
- : je
- :ne
- $GOR
- 1
- 100
- 11
- 2023
- 30
- 50
- 60
- 7
- 9
- a
- Sposobna
- O meni
- pospeši
- Po
- Račun
- pridobiti
- pridobitev
- Ukrep
- dejavnosti
- aktivna
- dodajanje
- Dodatne
- algoritem
- algoritmi
- Prav tako
- Čeprav
- Amazon
- Amazon EC2
- Amazonski EMR
- Amazon Web Services
- an
- analitika
- in
- Še ena
- kaj
- Apache
- Apache Spark
- uporaba
- aplikacije
- primerno
- Arhitektura
- SE
- AS
- At
- Poskusi
- avto
- Samodejno
- samodejno
- razpoložljivost
- Na voljo
- zaveda
- AWS
- temeljijo
- BE
- bilo
- pred
- spodaj
- Boljše
- Big
- Big Podatki
- Gradi
- by
- CAN
- zmožnost
- kapaciteta
- kvote
- Izberite
- Cloud
- veliki podatki v oblaku
- Grozd
- komentarji
- v primerjavi z letom
- dokončanje
- Izračunajte
- konfigurirano
- Potrdi
- Posledično
- Razmislite
- Vsebuje
- se nadaljuje
- Core
- strošek
- stroški
- ustvarjajo
- kritičnost
- stranka
- Izkušnje s strankami
- Stranke, ki so
- datum
- Podatkovna platforma
- obdelava podatkov
- dan
- globlje
- privzeto
- zamude
- želeno
- Podatki
- drugačen
- popusti
- razpravlja
- porazdeljena
- potop
- dont
- voznik
- med
- vsak
- bodisi
- omogočena
- okrepi
- okrepljeno
- Izboljšave
- izboljšave
- zagotovitev
- zagotavlja
- Eter (ETH)
- Event
- dogodki
- Primer
- presega
- izkušnje
- potekel
- Faktor
- daleč
- Feature
- Lastnosti
- filter
- Najdi
- prilagodljivost
- prilagodljiv
- osredotočena
- po
- za
- Naprej
- okviri
- iz
- Izpolnite
- nadalje
- Poleg tega
- dobili
- pridobivanje
- skupina
- Skupine
- srečna
- Trdi
- Imajo
- he
- sluha
- pomoč
- pomagal
- pomoč
- Pomaga
- več
- najvišja
- Poudarjeno
- zgodovina
- Kako
- HTML
- http
- HTTPS
- ID
- if
- izboljšanje
- Izboljšave
- izboljšanju
- in
- vključujejo
- Vključno
- Inovacije
- primer
- interaktivno
- zainteresirani
- Vmesna
- prekinjen
- povabi
- IT
- Job
- Ključne
- velika
- pozneje
- kosilo
- začela
- Interesenti
- UČITE
- učenje
- manj
- verjetnost
- Poglej
- nižje
- stroj
- strojno učenje
- je
- upravlja
- upravljanje
- upravitelj
- ročno
- Stave
- Srečati
- min
- ML
- več
- več
- potrebna
- potrebe
- Novo
- Nove funkcije
- št
- vozlišča
- zdaj
- of
- ponudba
- ponujen
- Ponudbe
- on
- Na zahtevo
- ONE
- samo
- open source
- operacije
- optimizacija
- optimizacijo
- or
- organizacije
- Pace
- Vzorec
- performance
- Obdobje
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- prosim
- Prispevek
- vaje
- preprečuje
- cenitev
- primarni
- , ravnateljica
- obravnavati
- Izdelek
- produktni vodja
- zaščita
- zagotavljajo
- zagotavljanje
- objavijo
- rebalans
- Priporočamo
- zmanjša
- Zmanjšana
- glejte
- ostanki
- odstranjevanje
- poročilo
- zahteva
- obvezna
- Zahteve
- Pot
- pravila
- Run
- tek
- Enako
- Lestvica
- povečanje
- skaliranje
- SDM
- pošljite
- višji
- Storitve
- nastavite
- nastavitev
- shouldnt
- shuffle
- sam
- So
- doslej
- Rešitev
- nekaj
- Spark
- določeno
- Komercialni
- stop
- Postanki
- trgovina
- tok
- taka
- Preklop
- Bodite
- meni
- Cilji
- Naloga
- skupina
- povej
- da
- O
- njihove
- Njih
- POTEM
- te
- ta
- tisti,
- Prag
- skozi
- čas
- do
- Teme
- na dotik
- Preglednost
- sprožijo
- poskusite
- Vrste
- odklepanje
- dokler
- us
- uporaba
- uporabo
- vrednost
- obisk
- je
- we
- web
- spletne storitve
- Dobro
- kdaj
- ki
- bo
- z
- delo
- delal
- bi
- jo
- Vaša rutina za
- zefirnet