In 2022, kerroimme uusista parannuksista, joita teimme Amazon EMR Managed Scaling, mikä auttoi parantamaan klusterin käyttöastetta ja alentamaan klusterin kustannuksia. Vuonna 2023 olemme iloisia voidessamme raportoida, että Amazon EMR -tiimi on ollut ahkera. Työskentelimme taaksepäin asiakkaiden vaatimuksista ja julkaisimme useita uusia ominaisuuksia parantaaksemme Amazon EMR:si EC2-klusterien kapasiteetin hallinnassa ja skaalauskokemuksessa.
Amazonin EMR on pilvibig data -ratkaisu petatavun mittakaavan tiedonkäsittelyyn, interaktiiviseen analytiikkaan ja koneoppimiseen (ML) käyttämällä avoimen lähdekoodin kehyksiä, kuten esim. Apache Spark, Apache Hiveja Presto. Asiakkaat pyysivät meiltä ominaisuuksia, jotka parantaisivat entisestään heidän EMR:n kapasiteetin hallintaa ja skaalauskokemusta EC2-klustereissa, mukaan lukien niiden suuret, pitkäkestoiset klusterit. Olemme tehneet kovasti töitä täyttääksemme nämä tarpeet. Seuraavassa on joitain tärkeimmistä parannuksista:
- Parannettu asiakkaiden läpinäkyvyys ja joustavuus Spot-esiintymien toimitusaikakatkaisulla
- Optimoidut tehtäväsolmut skaalautuvat Amazon EMR:lle EC2-klustereissa, jotka on käynnistetty ilmentymäryhmien kanssa
- Parannettu työn kestävyys ja parannettu suoja Spark Drivers -ajureille
Sukellaan syvemmälle ja keskustellaan uudesta Amazon EMR:stä EC2:n ominaisuuksista yksityiskohtaisesti.
Parannettu asiakkaiden läpinäkyvyys ja joustavuus Spot-esiintymien toimitusaikakatkaisulla
Monet Amazon EMR -asiakkaat käyttävät EC2 Spot-esiintymät EC2-klusterien EMR:ään vähentääkseen kustannuksia. Spot-instanssit ovat varassa Amazonin elastinen laskentapilvi (Amazon EC2) laskentakapasiteettia tarjotaan jopa 90 % alennuksella on-Demand-hinnoitteluun verrattuna. Amazon EMR tarjoaa sinulle mahdollisuuden skaalata klusterisi joko manuaalisesti tai käyttämällä Automaattinen skaalaus. Voit myös käyttää Amazon EMR Managed Scaling ominaisuus muuttaa klusterin kokoa automaattisesti työmäärän ja käytön perusteella.
Parantaaksesi asiakaskokemusta skaalattaessa Spot-instanssien avulla EMR:lle EC2-klustereissa, jotka on käynnistetty ilmentymäkalustojen avulla, voit nyt määrittää asennuksen aikakatkaisun spot-esiintymille. Valmistelun aikakatkaisu kertoo Amazon EMR:n lopettavan Spot Instance -kapasiteetin provisioinnin, jos klusteri ylittää tietyn aikarajan klusterin skaalaustoimintojen aikana. Voit määrittää Spot-ilmentymän valmistelun aikakatkaisun klustereille, joiden kokoa muutetaan manuaalisesti tai käyttämällä Amazon EMR Managed Scaling - ja Auto Scaling -toimintoa.
Lisäksi paremman läpinäkyvyyden takaamiseksi, kun aikakatkaisuaika päättyy, Amazon EMR lähettää tapahtumat automaattisesti myös Amazon CloudWatch -tapahtumat virta. Näiden CloudWatch-tapahtumien avulla voit luoda sääntöjä, jotka vastaavat tapahtumia tietyn mallin mukaan, ja sitten reitittää tapahtumat kohteille toimenpiteitä varten. Lisätietoja saat osoitteesta Mukauta varauksen aikakatkaisujakso klusterin koon muuttamiselle Amazon EMR:ssä.
Alla on yhteenveto eri skenaarioiden kokemuksista, kun määrität asennuksen aikakatkaisujakson Amazon EMR:n koon muuttamisen aikana EC2-klusterissa
skenaario | Kokea |
Amazon EMR pystyy tarjoamaan halutun Spot-kapasiteetin ennen toimitusaikakatkaisun päättymistä | Amazon EMR skaalaa klusterin automaattisesti haluttuun kapasiteettiin, eikä asiakkaan tarvitse tehdä mitään |
Amazon EMR ei pysty tarjoamaan mitään Spot-kapasiteettia tai pystyy tarjoamaan vain osittaisen Spot-kapasiteetin ja tarjonnan aikakatkaisu on umpeutunut | Jos Amazon EMR ei pysty tarjoamaan vaadittua Spot-kapasiteettia ja toimituksen aikakatkaisu on umpeutunut, Amazon EMR peruuttaa koonmuutospyynnön ja lopettaa yrityksensä tarjota lisää Spot-kapasiteettia. Amazon EMR julkaisee tapahtumat myös Amazon CloudWatch Events -streamissa. Asiakkaat voivat käyttää näitä tapahtumia luodakseen sääntöjä ja ryhtyäkseen tarvittaviin toimiin |
Jos Spot-esiintymät Amazon EMR:ssäsi EC2-klustereissa keskeytyvät, koska Amazon EC2 tarvitsee ne takaisin | Amazon EMR käynnistää automaattisesti uuden koonmuutospyynnön klusterisi tasapainottamiseksi korvaamalla esiintymät millä tahansa klusterin käytettävissä olevista tyypeistä. Amazon EMR käyttää myös samaa provisioinnin koon muuttamisen aikakatkaisua, joka oli määritetty klusterille. Asiakkaalta ei vaadita toimenpiteitä. |
Sinun tulee ottaa huomioon kapasiteetin saatavuuden kriittisyys määrittäessäsi asennuksen aikakatkaisuarvoa:
- Kun työkuormasi kapasiteetin saatavuus on kriittinen - Varmistaaksesi, että haluttu kapasiteetti on käytettävissä, suosittelemme määrittämään koon muuttamisen valmistelun aikakatkaisun sovelluksen ja sovelluksen SLA-sopimusten suorittamiseen kuluvan ajan perusteella. Jos sovelluksen palvelutasosopimus on esimerkiksi 60 minuuttia ja sovelluksen valmistuminen kestää 30 minuuttia, sinun tulee asettaa koon muuttamisen valmistelun aikakatkaisuksi enintään 30 minuuttia. Amazon EMR yrittää hankkia Spot-kapasiteetin, kunnes aikakatkaisu päättyy (30 minuuttia tai vähemmän), ja julkaisee CloudWatch-tapahtuman, jotta voit ryhtyä tarvittaviin toimiin.
- Kun työmääräsi on aika joustavaa ja kapasiteetin saatavuus ei ole tekijä - Jos työkuorma on ajallisesti joustavaa eikä kapasiteetin saatavuus ole tekijä, voit varmistaa suurimman todennäköisyyden halutun Spot-kapasiteetin saamiseksi määrittämällä korkeamman aikakatkaisuarvon koon muuttamisen varauksen aikakatkaisulle.
Optimoidut tehtäväsolmut skaalautuvat Amazon EMR:lle EC2-klustereissa, jotka on käynnistetty instanssiryhmien kanssa
Ilmentymäryhmät tarjoavat yksinkertaisemman asennuksen käynnistää EMR EC2-klustereissa. Jokainen ilmentymäryhmien avulla käynnistetty klusteri voi sisältää enintään 50 ilmentymän ryhmää: yksi ensisijainen ilmentymäryhmä, joka sisältää yhden EC2-ilmentymän, ydinilmentymäryhmä, joka sisältää yhden tai useamman EC2-ilmentymän, ja enintään 48 valinnaista tehtäväilmentymän ryhmää. Voit skaalata kunkin esiintymäryhmän lisäämällä ja poistamalla EC2-esiintymiä manuaalisesti tai voit määrittää automaattisen skaalauksen. Voit myös käyttää Amazon EMR Managed Scaling -ominaisuutta muuttaaksesi klusterin kokoa automaattisesti työmäärän ja käytön perusteella.
Parantaaksemme esimerkiksi EC2-klustereiden EMR-ryhmien asiakaskokemusta skaalattaessa tehtäväsolmuja Amazon EMR Managed Scalingin avulla, olemme parantaneet hallittua skaalausalgoritmia valitsemaan tehtäväilmentymien ryhmät, joilla on suurin todennäköisyys hankkia kapasiteettia. Lisäksi kun hallittu skaalaus ei pysty hankkimaan kapasiteettia yhdellä tehtäväilmentymäryhmällä, Amazon EMR vaihtaa automaattisesti toiseen tehtäväryhmään ja täyttää kapasiteetin käyttämällä useita tehtäväilmentymien ryhmiä. Näin ollen, mitä joustavampi olet ilmentymätyypeissäsi, sitä suuremmat mahdollisuudet kapasiteettia on. Lisätietoja saat osoitteesta Esimerkiksi parhaat käytännöt ja Saatavuusalueen joustavuus.
Parannettu työn kestävyys ja parannettu suoja Spark Drivers -ajureille
In 2022, parantaaksemme työn sietokykyä käytettäessä Amazon EMR Managed Scalingia, paransimme hallittua skaalausta olemaan Spark shuffle data tietoinen, mikä estää Apache Sparkille välivaiheen satunnaisdataa tallentavien esiintymien pienentämisen. Tämä auttaa estämään työn uudelleenyritykset ja uudelleenlaskennan, mikä johtaa parempaan suorituskykyyn ja alhaisempiin kustannuksiin.
Parantaaksemme entisestään työn sietokykyä Amazon EMR Managed Scalingia käytettäessä olemme edelleen parantaneet hallittua skaalausta Spark Driver -tietoisiksi, mikä varmistaa, että klusterin skaalauksen aikana Amazon EMR Managed Scaling priorisoi niiden solmujen pienentämisen, joilla ei ole aktiivinen Spark Driver käynnissä niissä. Tämä auttaa minimoimaan epäonnistumiset ja työn uudelleenyritykset, parantaen entisestään suorituskykyä ja alentaen kustannuksia. Tämä parannus on oletuksena käytössä EMR-klustereissa, joissa on Amazon EMR -versio 5.34.0 ja uudemmat sekä Amazon EMR -versiot 6.4.0 ja uudemmat.
Voit varmistaa, mitkä klusterin solmut käyttävät Spark Driveria, käymällä Spark History Serverissä ja suodattamalla ohjaimen Suorittajat Spark-sovellustunnuksesi välilehti.
Yhteenveto
Tässä viestissä korostimme parannuksia, joita teimme kapasiteetin hallinnassa ja Amazon EMR Managed Scaling for EMR EC2-klustereissa. Keskityimme parantamaan työn sietokykyä, lisäämään joustavuutta ja läpinäkyvyyttä spot-instanssien provisioinnin yhteydessä sekä optimoimaan skaalauskokemusta käytettäessä hallittua skaalausta ilmentymäryhmien kanssa Amazon EMR:ssä EC2-klustereissa. Vaikka olemme toistaiseksi julkaisseet useita ominaisuuksia vuonna 2023 ja innovaatiovauhti kiihtyy edelleen, se on edelleen päivä 1, ja odotamme innolla kuulevasi siitä, kuinka nämä ominaisuudet auttavat sinua tuomaan lisää arvoa organisaatiollesi. Kutsumme sinut kokeilemaan näitä uusia ominaisuuksia ja ottamaan meihin yhteyttä AWS-tilitiimisi kautta, jos sinulla on lisäkommentteja.
Tietoja kirjoittajista
Sushant Majithia on EMR:n päätuotepäällikkö AWS:ssä.
Ankur Goyal on SDM Amazon EMR Big Data Platform -tiimin kanssa. Hän rakentaa suuren mittakaavan hajautettuja sovelluksia ja klusterin optimointialgoritmeja. Ankur on kiinnostunut Analyticsin, koneoppimisen ja ennustamisen aiheista.
Matthew Liem on AWS:n Senior Solution Architecture Manager.
Tarun Chanana on SDM Amazon EMR Big Data Platform -tiimin kanssa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- ChartPrime. Nosta kaupankäyntipeliäsi ChartPrimen avulla. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/
- :on
- :On
- :ei
- $ YLÖS
- 1
- 100
- 11
- 2023
- 30
- 50
- 60
- 7
- 9
- a
- pystyy
- Meistä
- kiihdyttää
- Mukaan
- Tili
- hankkia
- hankkiminen
- Toiminta
- toimet
- aktiivinen
- lisää
- lisä-
- algoritmi
- algoritmit
- Myös
- Vaikka
- Amazon
- Amazon EC2
- Amazonin EMR
- Amazon Web Services
- an
- Analytics
- ja
- Toinen
- Kaikki
- Apache
- Apache Spark
- Hakemus
- sovellukset
- sopiva
- arkkitehtuuri
- OVAT
- AS
- At
- yrityksiä
- auto
- automaattisesti
- automaattisesti
- saatavuus
- saatavissa
- tietoinen
- AWS
- perustua
- BE
- ollut
- ennen
- alle
- Paremmin
- Iso
- Big Data
- rakentaa
- by
- CAN
- valmiudet
- Koko
- mahdollisuudet
- Valita
- pilvi
- pilvi big data
- Cluster
- kommentit
- verrattuna
- täydellinen
- Laskea
- määritetty
- Vahvistaa
- siis
- Harkita
- sisältää
- jatkuu
- Ydin
- Hinta
- kustannukset
- luoda
- kriittisyys
- asiakas
- asiakaskokemus
- Asiakkaat
- tiedot
- Tietoalusta
- tietojenkäsittely
- päivä
- syvempää
- oletusarvo
- viiveet
- haluttu
- yksityiskohta
- eri
- alennukset
- pohtia
- jaettu
- sukellus
- Dont
- kuljettaja
- aikana
- kukin
- myöskään
- käytössä
- parantaa
- tehostettu
- lisälaite
- parannuksia
- varmistaa
- varmistaa
- Eetteri (ETH)
- tapahtuma
- Tapahtumat
- esimerkki
- ylittää
- experience
- päättyminen
- tekijä
- paljon
- Ominaisuus
- Ominaisuudet
- suodattaa
- Löytää
- Joustavuus
- joustava
- keskityttiin
- jälkeen
- varten
- Eteenpäin
- puitteet
- alkaen
- Täyttää
- edelleen
- Lisäksi
- saada
- saada
- Ryhmä
- Ryhmän
- onnellinen
- Kova
- Olla
- he
- kuulo
- auttaa
- auttanut
- auttaa
- auttaa
- korkeampi
- suurin
- Korostettu
- historia
- Miten
- HTML
- http
- HTTPS
- ID
- if
- parantaa
- parannuksia
- parantaminen
- in
- sisältää
- Mukaan lukien
- Innovaatio
- esimerkki
- vuorovaikutteinen
- kiinnostunut
- väli-
- keskeytynyt
- kutsu
- IT
- Job
- avain
- suuri
- myöhemmin
- käynnistää
- käynnistettiin
- Liidit
- OPPIA
- oppiminen
- vähemmän
- todennäköisyys
- katso
- alentaa
- kone
- koneoppiminen
- tehty
- onnistui
- johto
- johtaja
- käsin
- ottelu
- Tavata
- pöytäkirja
- ML
- lisää
- moninkertainen
- tarvitaan
- tarpeet
- Uusi
- Uudet ominaisuudet
- Nro
- solmut
- nyt
- of
- kampanja
- tarjotaan
- Tarjoukset
- on
- Tarpeen vaatiessa
- ONE
- vain
- avoimen lähdekoodin
- Operations
- optimointi
- optimoimalla
- or
- organisaatioiden
- Rauha
- Kuvio
- suorituskyky
- aika
- foorumi
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- Kirje
- käytännöt
- estää
- hinnoittelu
- ensisijainen
- Pääasiallinen
- käsittely
- Tuotteet
- tuotepäällikkö
- suojaus
- toimittaa
- säännös
- julkaista
- tasapainottaa
- suositella
- vähentää
- Vähentynyt
- katso
- jäännökset
- poistamalla
- raportti
- pyyntö
- tarvitaan
- vaatimukset
- Reitti
- säännöt
- ajaa
- juoksu
- sama
- Asteikko
- skaalata
- skaalaus
- SDM
- lähettää
- vanhempi
- Palvelut
- setti
- setup
- shouldnt
- sekoittaa
- single
- So
- niin kaukana
- ratkaisu
- jonkin verran
- Kipinä
- määritelty
- Kaupallinen
- stop
- Lopettaa
- verkkokaupasta
- virta
- niin
- Vaihtaa
- ottaa
- vie
- tavoitteet
- Tehtävä
- joukkue-
- kertoa
- että
- -
- heidän
- Niitä
- sitten
- Nämä
- tätä
- ne
- kynnys
- Kautta
- aika
- että
- Aiheet
- kosketa
- Läpinäkyvyys
- laukaista
- yrittää
- tyypit
- avata
- asti
- us
- käyttää
- käyttämällä
- arvo
- Vierailla
- oli
- we
- verkko
- verkkopalvelut
- HYVIN
- kun
- joka
- tulee
- with
- Referenssit
- työskenteli
- olisi
- te
- Sinun
- zephyrnet