Postituses Tutvustame AWS ProServe Hadoop Migration Delivery Kit TCO tööriista, tutvustasime AWS ProServe Hadoop Migration Delivery Kit (HMDK) TCO tööriista ja kohapealsete Hadoopi töökoormuste üleviimise eeliseid Amazon EMR. Selles postituses sukeldume tööriista sügavale, käies läbi kõik sammud logi sissevõtmisest, teisendamisest, visualiseerimisest ja arhitektuuri kujundamisest kuni TCO arvutamiseni.
Lahenduse ülevaade
Vaatame lühidalt HMDK TCO tööriista põhifunktsioone. Tööriist pakub YARN-i logide kogujat Hadoop Resource Manageri ühendamiseks YARN-i logide kogumiseks. Pythonil põhinev Hadoopi töökoormuse analüsaator, mida nimetatakse YARN-i logianalüsaatoriks, kontrollib Hadoopi rakendusi. Amazon QuickSight armatuurlauad näitavad analüsaatori tulemusi. Samad tulemused kiirendavad ka tulevaste EMR-juhtumite kavandamist. Lisaks genereerib TCO kalkulaator optimeeritud EMR-klastri TCO hinnangu, et hõlbustada migratsiooni.
Nüüd vaatame, kuidas tööriist töötab. Järgmine diagramm illustreerib otsast lõpuni töövoogu.
Järgmistes jaotistes käsitleme tööriista viit põhietappi.
- Koguge YARNi tööajaloo logisid.
- Muutke tööajaloo logid JSON-ist CSV-ks.
- Analüüsige tööajaloo logisid.
- Kujundage migratsiooni jaoks EMR-klaster.
- Arvutage TCO.
Eeldused
Enne alustamist täitke kindlasti järgmised eeltingimused:
- Kloonige hadoop-migration-assessment-tco hoidla.
- Installige Python 3 oma kohalikku arvutisse.
- Omama sisselülitatud loaga AWS-i kontot AWS Lambda, QuickSight (Enterprise väljaanne) ja AWS CloudFormation.
Koguge YARNi tööajaloo logisid
Esiteks jooksete a LÕNGA palgikoguja, start-collector.sh, teie kohalikus masinas. See samm kogub Hadoopi YARN-i logid ja paigutab logid teie kohalikku masinasse. Skript ühendab teie kohaliku masina Hadoopi esmase sõlmega ja suhtleb ressursihalduriga. Seejärel hangib see tööajaloo teabe (YARN-i logid rakenduste halduritelt), kutsudes välja YARN ResourceManageri rakenduse API.
Enne YARN-i logikoguja käivitamist peate konfigureerima ja looma ühenduse (HTTP: 8088 või HTTPS: 8090; viimane on soovitatav), et kontrollida YARN ResourceManageri juurdepääsetavust ja lubatud YARN-i ajaskaalaserverit (toetatud on Timeline Server v1 või uuem versioon). ). Võimalik, et peate määrama YARN-i logide kogumisintervalli ja säilitamispoliitika. Järjestikuste YARN-i logide kogumise tagamiseks saate logikoguja ajastamiseks õigesse ajavahemikku kasutada cron-tööd. Näiteks 2,000 igapäevase rakendusega Hadoopi klastri puhul, mille säte yarn.resourcemanager.max-completed-applications on seatud väärtusele 1,000, peate teoreetiliselt kõigi YARN-i logide hankimiseks logikoguja käivitama vähemalt kaks korda. Lisaks soovitame terviklike töökoormuste analüüsimiseks koguda vähemalt 7 päeva YARN-i logisid.
Lisateavet logikoguja konfigureerimise ja ajastamise kohta leiate jaotisest lõnga-logikoguja GitHubi repo.
Muutke YARN-i tööajaloo logid JSON-ist CSV-ks
Pärast YARN-i logide hankimist käivitate YARN-i logikorraldaja yarn-log-organizer.py, mis on parser JSON-põhiste logide muutmiseks CSV-failideks. Need väljund CSV-failid on YARN-i logianalüsaatori sisendid. Parseril on ka muid võimalusi, sealhulgas sündmuste aja järgi sortimine, pühenduste eemaldamine ja mitme logi liitmine.
Lisateavet YARNi logi korraldaja kasutamise kohta leiate jaotisest yarn-log-organizer GitHubi repo.
Analüüsige YARNi tööajaloo logisid
Järgmisena käivitate YARN-i logide analüsaatori, et analüüsida YARN-i logisid CSV-vormingus.
QuickSighti abil saate YARN-i logiandmeid visualiseerida ja analüüsida eelehitatud armatuurlaua mallide ja vidina abil loodud andmekogumiid. Vidin loob automaatselt QuickSighti armatuurlauad siht-AWS-i kontol, mis on konfigureeritud CloudFormationi mallis.
Järgmine diagramm illustreerib HMDK TCO arhitektuuri.
YARNi logianalüsaator pakub nelja peamist funktsiooni:
- Laadige üles muudetud YARN-i tööajaloo logid CSV-vormingus (näiteks
cluster_yarn_logs_*.csv
) Kuni Amazoni lihtne salvestusteenus (Amazon S3) kopad. Need CSV-failid on YARN-i logikorraldaja väljundid. - Looge manifesti JSON-fail (näiteks
yarn-log-manifest.json
) QuickSighti jaoks ja laadige see S3 ämbrisse: - Juurutage QuickSighti armatuurlauad YAML-vormingus CloudFormationi malli abil. Pärast juurutamist valige värskendamise ikoon, kuni näete virna olekut
CREATE_COMPLETE
. See samm loob teie AWS-i sihtkontol QuickSighti armatuurlaudadele andmestikud. - QuickSighti armatuurlaualt leiate erinevatest diagrammidest ülevaate analüüsitud Hadoopi töökoormuste kohta. Need ülevaated aitavad teil kavandada tulevasi EMR-i eksemplare migratsiooni kiirendamiseks, nagu on näidatud järgmises etapis.
Kujundage migratsiooni jaoks EMR-klaster
YARN-i logianalüsaatori tulemused aitavad teil mõista olemasoleva süsteemi tegelikku Hadoopi töökoormust. See samm kiirendab tulevaste EMR-juhtumite kavandamist migreerimiseks, kasutades Exceli mall. Mall sisaldab kontrollnimekirja töökoormuse analüüsi ja suutlikkuse planeerimise läbiviimiseks:
- Kas klastris töötavaid rakendusi kasutatakse nende praeguse võimsusega õigesti?
- Kas klaster on teatud ajahetkel koormatud või mitte? Kui jah, siis millal see aeg on?
- Mis tüüpi rakendused ja mootorid (nt MR, TEZ või Spark) klastris töötavad ja milline on iga tüübi ressursside kasutus?
- Kas erinevate tööde käitamistsüklid (reaalajas, partii, ad hoc) töötavad ühes klastris?
- Kas mõni töö töötab tavaliste partiidena ja kui jah, siis millised on need ajakavade intervallid? (Näiteks iga 10 minuti, 1 tunni, 1 päeva järel.) Kas teil on töid, mis nõuavad pika aja jooksul palju ressursse?
- Kas mõni töö vajab jõudluse parandamist?
- Kas mingid konkreetsed organisatsioonid või üksikisikud monopoliseerivad klastrit?
- Kas ühes klastris töötavad segatud arendus- ja käitamistööd?
Pärast kontrollnimekirja täitmist saate paremini aru, kuidas tulevast arhitektuuri kujundada. EMR-klastri kulutõhususe optimeerimiseks on järgmises tabelis toodud üldised juhised õige EMR-klastri tüübi ja Amazon Elastic Compute Cloud (Amazon EC2) perekond.
Õige klastri tüübi ja eksemplariperekonna valimiseks peate tegema YARN-i logide suhtes mitu analüüsivooru erinevate kriteeriumide alusel. Vaatame mõningaid põhinäitajaid.
Timeline
Töökoormuse mustrid leiate ajaaknas käivitatud Hadoopi rakenduste arvu põhjal. Näiteks päeva- või tunnitabelid „Kirjete arv algusaja järgi” annavad järgmise ülevaate.
- Igapäevaste aegridade diagrammides saate võrrelda rakenduste arvu tööpäevade ja pühade vahel ning kalendripäevade vahel. Kui numbrid on sarnased, tähendab see, et klastri igapäevane kasutus on võrreldav. Teisest küljest, kui kõrvalekalle on suur, on ad hoc tööde osakaal märkimisväärne. Samuti saate välja mõelda võimalikud iganädalased või igakuised töökohad teatud päevadel. Sellises olukorras näete hõlpsasti konkreetseid päevi nädalas või kuus, kus töökoormus on suur.
- Tunni ajarea diagrammides saate paremini aru, kuidas rakendusi tunniakendes käitatakse. Päevast leiate tipp- ja puhketunde.
kasutajad
YARN-i logid sisaldavad iga rakenduse kasutajatunnust. See teave aitab teil mõista, kes taotluse järjekorda esitab. Individuaalsete ja koondatud rakenduste käitamise statistika põhjal järjekorra ja kasutaja kohta saate määrata olemasoleva töökoormuse jaotuse kasutajate kaupa. Tavaliselt on sama meeskonna kasutajad jaganud järjekordi. Mõnikord on mitu meeskonda jaganud järjekordi. Kasutajate jaoks järjekordade kujundamisel on teil nüüd teadmisi, mis aitavad teil kavandada ja jaotada rakenduste töökoormust, mis on järjekordade vahel varasemast tasakaalustatum.
Rakenduste tüübid
Saate töökoormust segmenteerida erinevate rakendustüüpide (nt Hive, Spark, Presto või HBase) alusel ja käivitada mootoreid (nt MR, Spark või Tez). Arvutusmahukate töökoormuste (nt MapReduce või Hive-on-MR) jaoks kasutage protsessorile optimeeritud eksemplare. Mälumahukate töökoormuste jaoks, nagu Hive-on-TEZ, Presto ja Spark, kasutage mälule optimeeritud eksemplare.
Kulunud aeg
Saate rakendusi käitusaja järgi kategoriseerida. Manustatud CloudFormationi mall loob QuickSighti armatuurlaual automaatselt välja ElapsedGroup. See võimaldab võtmefunktsiooni, mis võimaldab teil jälgida pikaajalisi töid ühes neljast QuickSighti armatuurlaua graafikust. Seetõttu saate nende suurte tööde jaoks kujundada kohandatud tulevikuarhitektuure.
Vastavad QuickSighti armatuurlauad sisaldavad nelja diagrammi. Saate süvendada iga diagrammi, mis on seotud ühe rühmaga.
Grupp Number |
Töö kestus/kulunud aeg |
1 | Vähem kui 10 minutit |
2 | 10 minuti ja 30 minuti vahel |
3 | vahemikus 30 minutit kuni 1 tund |
4 | Rohkem kui 1 tund |
4. rühma diagrammil saate keskenduda suurte tööde kontrollimisele erinevate mõõdikute, sealhulgas kasutaja, järjekorra, rakenduse tüübi, ajaskaala, ressursikasutuse jms põhjal. Selle kaalutluse põhjal võib teil olla klastris või spetsiaalses EMR-klastris suurte tööde jaoks spetsiaalsed järjekorrad. Samal ajal võite esitada väikeseid töid jagatud järjekordadesse.
Vahendid
Ressursi (CPU, mälu) tarbimisharjumuste põhjal valite jõudluse ja kulutõhususe tagamiseks õige suuruse ja EC2 eksemplaride perekonna. Arvutusmahukate rakenduste jaoks soovitame kasutada protsessorile optimeeritud perekondi. Mälumahukate rakenduste jaoks on soovitatav kasutada mälu jaoks optimeeritud eksemplariperekondi.
Lisaks võite sõltuvalt rakenduse töökoormuse olemusest ja ressursside kasutamisest aja jooksul valida püsiva või mööduva EMR-klastri, Amazon EMR EKS-isvõi Amazon EMR serverita.
Pärast YARN-i logide analüüsimist erinevate mõõdikutega olete valmis kavandama tulevasi EMR-arhitektuure. Järgmises tabelis on välja pakutud EMR-klastrite näited. Lisateavet leiate aadressilt optimeeritud-tco-kalkulaator GitHubi repo.
Arvutage TCO
Lõpuks käivitage oma kohalikus masinas tco-input-generator.py, et koondada YARN-i tööajaloo logid iga tunni järel enne Exceli malli kasutamist optimeeritud TCO arvutamiseks. See samm on ülioluline, kuna tulemused simuleerivad Hadoopi töökoormust tulevastes EMR-juhtumites.
TCO simulatsiooni eelduseks on jooksmine tco-input-generator.py
, mis genereerib tunnipõhiseid koondatud logisid. Järgmisena avate makrode lubamiseks Exceli mallifaili ja sisestate TCO arvutamiseks oma sisendid rohelistes lahtrites. Seoses sisendandmetega sisestate tegeliku andmemahu ilma replikatsioonita ning Hadoopi esmase sõlme ja andmesõlmede riistvaraspetsifikatsioonid (vCore, mem). Samuti peate valima ja üles laadima varem loodud tunnipõhised koondatud logid. Pärast TCO simulatsiooni muutujate määramist, nagu piirkond, EC2 tüüp, Amazon EMR kõrge kättesaadavus, mootori efekt, Amazon EC2 ja Amazon EBS allahindlus (EDP), Amazon S3 mahu allahindlus, kohaliku valuuta kurss ja EMR EC2 ülesande/põhihinna suhe ja hind/tund, TCO simulaator arvutab automaatselt Amazon EC2 tulevaste EMR-juhtumite optimaalse maksumuse. Järgmised ekraanipildid näitavad HMDK TCO tulemuste näidet.
Lisateavet ja juhiseid HMDK TCO arvutuste kohta leiate jaotisest optimeeritud-tco-kalkulaator GitHubi repo.
Koristage
Pärast kõigi toimingute ja testimise lõpetamist tehke kulude vältimiseks ressursside kustutamiseks järgmised sammud.
- Valige AWS CloudFormationi konsoolil loodud virn.
- Vali kustutama.
- Vali Kustuta virn.
- Värskendage lehte, kuni näete olekut
DELETE_COMPLETE
. - Kustutage Amazon S3 konsoolis loodud S3 ämber.
Järeldus
AWS ProServe HMDK TCO tööriist vähendab oluliselt migratsiooni planeerimise jõupingutusi, mis on teie Hadoopi töökoormuse hindamisel aeganõudev ja keeruline ülesanne. HMDK TCO tööriistaga võtab hindamine tavaliselt aega 2–3 nädalat. Samuti saate määrata tulevaste EMR-arhitektuuride arvutatud TCO. HMDK TCO tööriista abil saate kiiresti aru oma töökoormusest ja ressursikasutuse mustritest. Tööriista loodud ülevaated võimaldavad teil kavandada optimaalseid tulevasi EMR-arhitektuure. Paljudel kasutusjuhtudel võimaldab optimeeritud ümbertöödeldud arhitektuuri 1-aastane TCO võrreldes Hadoopi tõste- ja nihutamisega migratsiooniga märkimisväärset kulude kokkuhoidu (64–80% vähenemine) arvutamisel ja salvestamisel.
Hadoopi Amazon EMR-i ja HMDK CTO-tööriistale ülemineku kiirendamise kohta lisateabe saamiseks vaadake Hadoop Migration Delivery Kit TCO GitHubi repovõi võtke ühendust AWS-HMDK@amazon.com.
Autoritest
Sungyouli park on AWS ProServe'i vanempraktikajuht. Ta aitab klientidel oma äri uuendada AWS Analyticsi, IoT ja AI/ML teenustega. Ta on spetsialiseerunud suurandmeteenustele ja -tehnoloogiatele ning on huvitatud klientide äritulemuste koos loomisest.
Jiseong Kim on AWS ProServe'i vanemandmearhitekt. Peamiselt töötab ta ettevõtete klientidega, et aidata andmejärve migratsiooni ja moderniseerimist, ning annab juhiseid ja tehnilist abi suurte andmeprojektide puhul, nagu Hadoop, Spark, andmeladu, reaalajas andmetöötlus ja suuremahuline masinõpe. Samuti mõistab ta, kuidas rakendada tehnoloogiaid suurandmete probleemide lahendamiseks ja hästi läbimõeldud andmearhitektuuri ülesehitamiseks.
George Zhao on AWS ProServe'i vanemandmearhitekt. Ta on kogenud analüütikajuht, kes töötab AWS-i klientidega, et pakkuda kaasaegseid andmelahendusi. Ta on ka ProServe Amazon EMR-i domeenispetsialist, kes pakub ProServe'i konsultantidele Hadoopi EMR-i migratsiooni parimaid tavasid ja tarnekomplekte. Tema huvialad on andmejärved ja kaasaegne andmearhitektuuri edastamine.
Kalen Zhang oli AWS-i partneriandmete ja analüüside globaalse segmendi tehniline juht. Andmete ja analüütika usaldusväärse nõustajana kureeris ta andmete teisendamise strateegilisi algatusi, juhtis andmete ja analüütika töökoormuse migratsiooni ja moderniseerimise programme ning kiirendas klientide migratsiooni teekonda koos partneritega. Ta on spetsialiseerunud hajutatud süsteemidele, ettevõtte andmete haldamisele, täiustatud analüütikale ja suuremahulistele strateegilistele algatustele.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/deep-dive-into-the-aws-proserve-hadoop-migration-delivery-kit-tco-tool/
- 000
- 1
- 10
- 100
- 7
- a
- Võimalik
- MEIST
- kiirendama
- kiirendatud
- kiirendab
- kiirendades
- kiirendus
- kättesaadavus
- konto
- üle
- Ad
- lisamine
- Täiendavad lisad
- Tooteinfo
- Lisaks
- edasijõudnud
- nõuandja
- pärast
- vastu
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon EC2
- Amazon EMR
- vahel
- analüüs
- analytics
- analüüsima
- analüüsides
- ja
- API
- taotlus
- rakendused
- kehtima
- asjakohaselt
- arhitektuur
- PIIRKOND
- hindamine
- Abi
- seotud
- automaatselt
- kättesaadavus
- AWS
- AWS CloudFormation
- põhineb
- alus
- sest
- on
- Kasu
- BEST
- parimaid tavasid
- Parem
- vahel
- Suur
- Big andmed
- lühidalt
- ehitama
- Ehitus
- äri
- arvutama
- arvutatud
- arvutab
- arvutamisel
- kalender
- kutsutud
- kutsudes
- võimeid
- Võimsus
- juhtudel
- Rakke
- kindel
- raske
- Joonis
- Äritegevus
- Vali
- valimine
- Cloud
- Cluster
- koguma
- Kollektsioneerimine
- kogumine
- koguja
- kogub
- COM
- võrreldav
- võrdlema
- võrreldes
- täitma
- Arvutama
- kontsentraat
- kontsentratsioon
- Läbi viima
- Juhtimine
- Võta meiega ühendust
- ühendus
- ühendab
- järjestikune
- tasu
- konsool
- konsultandid
- tarbimine
- sisaldab
- Vastav
- Maksma
- kulude kokkuhoid
- kulud
- Protsessor
- loodud
- loob
- kriteeriumid
- otsustav
- CTO
- kureeritud
- valuuta
- Praegune
- klient
- Kliendid
- tsüklit
- iga päev
- armatuurlaud
- andmed
- andmejärv
- andmehaldus
- andmetöötlus
- andmekogumid
- päev
- Päeva
- pühendunud
- sügav
- sügav sukeldumine
- tarnima
- tarne
- Näidatud
- juurutamine
- Disain
- projekteerimine
- detailid
- Määrama
- & Tarkvaraarendus
- kõrvalekalle
- erinev
- Allahindlus
- levitada
- jagatud
- hajutatud süsteemid
- jaotus
- domeen
- alla
- ajal
- iga
- kergesti
- ebs
- väljaanne
- mõju
- tõhusus
- jõupingutusi
- varjatud
- võimaldama
- lubatud
- võimaldab
- Lõpuks-lõpuni
- Mootor
- Mootorid
- tagama
- sisene
- ettevõte
- ettevõtte kliendid
- varustatud
- looma
- Eeter (ETH)
- sündmused
- Iga
- näide
- näited
- Excel
- olemasolevate
- kogenud
- hõlbustades
- peredele
- pere
- tunnusjoon
- FUNKTSIOONID
- väli
- Joonis
- fail
- Faile
- leidma
- lõpetama
- Järel
- formaat
- Alates
- funktsionaalsused
- edasi
- tulevik
- Üldine
- loodud
- genereerib
- saama
- saamine
- GitHub
- Globaalne
- Green
- Grupp
- suunised
- hadoop
- riistvara
- aitama
- aitab
- Suur
- ajalugu
- Mesilaspere
- pühad
- terviklikku
- Lahtiolekuajad
- Kuidas
- Kuidas
- HTML
- HTTPS
- ICON
- paranemine
- in
- sisaldama
- Kaasa arvatud
- eraldi
- inimesed
- info
- algatused
- uuendama
- sisend
- teadmisi
- Näiteks
- juhised
- huvi
- el
- sisse
- asjade Interneti
- IT
- töö
- Tööturg
- Reisid
- Json
- Võti
- komplekt
- järv
- suur
- suuremahuline
- algatama
- viima
- juht
- Õppida
- õppimine
- Led
- LED-andmed
- Nimekirjad
- koormus
- kohalik
- Pikk
- kaua aega
- Vaata
- Partii
- masin
- masinõpe
- makrosid
- põhiline
- tegema
- juhtimine
- juht
- Juhid
- palju
- vahendid
- Vahepeal
- Mälu
- ühinevad
- Meetrika
- ränne
- protokoll
- segatud
- Kaasaegne
- moderniseerimine
- kuu
- igakuine
- rohkem
- mitmekordne
- loodus
- Vajadus
- järgmine
- sõlme
- sõlmed
- number
- numbrid
- jälgima
- saamine
- ONE
- avatud
- tegutsevad
- töö
- optimaalselt
- optimeeritud
- optimeerimine
- optimaalne
- organisatsioonid
- Muu
- eriline
- partner
- partnerid
- mustrid
- tipp
- täitma
- jõudlus
- periood
- luba
- Kohad
- planeerimine
- Platon
- Platoni andmete intelligentsus
- PlatoData
- poliitika
- võimalik
- post
- tava
- tavad
- eeldused
- varem
- hinnapoliitika
- esmane
- Eelnev
- probleeme
- töötlemine
- Programmid
- projektid
- korralik
- pakutud
- anda
- annab
- Python
- kiiresti
- määr
- suhe
- jõudma
- valmis
- reaalajas
- reaalajas andmeid
- soovitama
- soovitatav
- andmed
- vähendab
- kohta
- piirkond
- regulaarne
- eemaldades
- replikatsioon
- ressurss
- Vahendid
- Tulemused
- säilitamine
- voorud
- jooks
- jooksmine
- sama
- Hoiused
- Skaala
- ajakava
- ekraanipilte
- lõigud
- segment
- vanem
- Seeria
- Teenused
- komplekt
- kehtestamine
- mitu
- jagatud
- näitama
- presentatsioon
- märkimisväärne
- märgatavalt
- sarnane
- lihtne
- simuleerimine
- simulaator
- olukord
- SUURUS
- väike
- So
- Lahendused
- LAHENDAGE
- mõned
- Säde
- spetsialist
- spetsialiseerunud
- Eriala
- konkreetse
- spetsifikatsioonid
- Kestab
- alustatud
- statistika
- olek
- Samm
- Sammud
- ladustamine
- Strateegiline
- esitama
- selline
- Toetatud
- süsteem
- süsteemid
- tabel
- kohandatud
- võtab
- sihtmärk
- ülesanded
- meeskond
- meeskonnad
- tech
- Tehniline
- Tehnoloogiad
- šabloon
- malle
- Testimine
- .
- Tulevik
- oma
- seetõttu
- Läbi
- aeg
- Ajaseeria
- aega võttev
- ajakava
- et
- kokku
- tööriist
- Muutma
- Transformation
- ümber
- tõsi
- Usaldatud
- liigid
- all
- mõistma
- mõistmine
- mõistab
- Kasutus
- kasutama
- Kasutaja
- Kasutajad
- tavaliselt
- eri
- kontrollima
- visualiseerimine
- maht
- jalutamine
- Ladustamine
- nädal
- iga nädal
- nädalat
- M
- Mis on
- mis
- WHO
- aknad
- ilma
- töövoog
- töö
- töötab
- yaml
- Sinu
- sephyrnet