Tänapäeva maailmas haldavad kliendid tohutul hulgal andmemahtusid Amazoni lihtne salvestusteenus (Amazon S3) andmejärved, mis nõuavad keerdunud andmetorusid, et pidevalt mõista andmepaigutuse muudatusi ja teha need tarbitavatele süsteemidele kättesaadavaks. AWS liim indeksoijad pakuvad lihtsat viisi andmete kataloogimiseks AWS-i liimiandmete kataloogis, mis eemaldab skeemihalduse ja andmete klassifitseerimise raskused. AWS Glue indeksoijad eraldavad Amazon S3-st andmeskeemi ja partitsioonid, et täita automaatselt andmekataloog, hoides metaandmeid ajakohasena.
Kuid kui andmed aja jooksul eksponentsiaalselt kasvavad, võib partitsioonide arv antud tabelis märkimisväärselt kasvada. Kuna analüüsiteenustele meeldib Amazonase Athena miljoneid partitsioone sisaldava tabeli päringu esitamisel pikeneb partitsiooni toomiseks kuluv aeg ja see võib põhjustada päringu käitusaja pikenemise.
Tänaseks on AWS Glue roomiku tuge laiendatud, et lisada äsja avastatud tabelitele automaatselt partitsiooniindeksid, et optimeerida päringu töötlemist partitsioonitud andmestikul. Nüüd, kui roomaja loob roomaja käitamise ajal uue andmekataloogi tabeli, loob see vaikimisi ka partitsiooniindeksi, mille võtmeteks on kõigi numbriliste ja stringitüüpi partitsiooniveergude suurim permutatsioon. Seejärel loob andmekataloog nende võtmete põhjal otsitava indeksi, mis vähendab miljonite partitsioonidega tabelites partitsiooni metaandmete toomiseks ja filtreerimiseks kuluvat aega. Jaotusindeksite loomine on kasulik Athenas töötavale analüütika töökoormusele, Amazon EMR, Amazonase punase nihke spekterja AWS-liimi.
Selles postituses kirjeldame, kuidas luua partitsioonide indekseid AWS-i liimiroomikuga ja võrrelda päringu jõudluse paranemist, kui pääsete juurde roomatud andmetele Athena partitsiooniindeksiga ja ilma.
Lahenduse ülevaade
Kasutame AWS CloudFormation malli meie lahendusressursside loomiseks. Järgmistes sammudes demonstreerime, kuidas konfigureerida AWS Glue roomajat partitsiooniindeksi loomiseks, kasutades kas AWS Glue konsooli või AWS-i käsurea liides (AWS CLI). Seejärel võrdleme Athena abil päringu jõudluse täiustusi.
Eeldused
Selle postituse jätkamiseks peab teil olema juurdepääs a AWS-i identiteedi- ja juurdepääsuhaldus (IAM) administraatori roll ressursside loomiseks AWS CloudFormationi abil.
Seadistage oma lahendusressursid
CloudFormationi mall loob järgmised ressursid.
- IAM-i rollid ja poliitikad
- AWS Glue andmebaas skeemi hoidmiseks
- AWS Glue indeksoija, mis osutab tugevalt partitsioonitud andmestikule
- Athena töörühm ja ämber päringutulemuste salvestamiseks
Lahendusressursside seadistamiseks tehke järgmised sammud.
- Logi sisse AWS-i juhtimiskonsool IAM-i administraatorina.
- Vali Käivitage Stack CloudFormationi malli juurutamiseks tehke järgmist.
- eest Andmebaasi nimi, jätke vaikeväärtus
blog_partition_index_crawlerdb
. - Vali järgmine.
- Vaadake viimasel lehel üksikasjad üle ja valige Tunnistan, et AWS CloudFormation võib luua IAM-i ressursse.
- Vali Loo virn.
- Kui virn on lõpetatud, navigeerige AWS CloudFormationi konsoolil Väljundid virna vahekaart.
- Märkige üles väärtused
DatabaseName
jaGlueCrawlerName
.
Mõned selle virna juurutatud ressursid maksavad kasutamisel.
Redigeerige ja käivitage AWS Glue roomaja
AWS-i liimiroomiku konfigureerimiseks ja käitamiseks toimige järgmiselt.
- Valige AWS Glue konsoolil Indekserid navigeerimispaanil.
- Leidke
crawler blog-partition-index-crawler
Ja vali Edit. - aasta Määrake väljund ja ajakava jaotis all Lisavalikudvalige Loo partitsiooniindeksid automaatselt.
- Vaadake üle ja värskendage roomaja seadeid.
Teise võimalusena saate oma roomaja konfigureerida, kasutades AWS-i CLI-d (esitage oma IAM-i roll ja piirkond):
- Nüüd käivitage roomaja ja kontrollige, kas roomaja käitamine on lõppenud.
See on tugevalt jaotatud andmestik ja selle valmimine võtab umbes 90 minutit.
Kontrollige jaotatud tabelit
AWS Glue andmebaasis blog_partition_index_crawlerdb
, kontrollige, kas tabel highly_partitioned_table
on loodud.
Vaikimisi määrab roomaja indeksi, mis põhineb kehtivate veerutüüpide partitsiooniveergude suurimal permutatsioonil sama partitsiooniveergude järjekorras, mis on kas numbrilised või stringid. Roomaja loodud tabeli jaoks (highly_partitioned_table
), meil on partitsiooniveerud year
(string), month
(string), day
(string) ja hour
(string).
Selle määratluse põhjal lõi roomaja indeksi aasta, kuu, päeva ja tunni permutatsiooni kohta. Roomaja lõi indeksid eesliitega crawler_
mis tahes vaikimisi loodud partitsiooniindeksis.
Kontrollige sama, liikudes tabeli juurde highly_partitioned_table
AWS Glue konsoolil ja valides Indexes Tab.
Roomajal õnnestus S3 andmeallikas roomata ja tabeli partitsiooniindeksid edukalt täita.
Võrrelge Athena abil päringu jõudluse täiustusi
Esiteks küsime Athena tabelit ilma partitsiooniindeksit kasutamata. Tabelite kontrollimiseks Athena abil toimige järgmiselt.
- Valige Athena konsoolil
crawler-primary-workgroup
nagu Athena töörühm ja valige Tunnistage. - Käivitage järgmine päring:
Järgmine ekraanipilt näitab, et päringu tegemiseks kulus umbes 32 sekundit, ilma partitsiooniindeksi abil lubatud filtreerimiseta.
- Nüüd lubame Athena päringus partitsiooniindeksi:
- Käivitage järgmine päring uuesti ja märkige üles käitusaeg:
Järgmine ekraanipilt näitab, et päring võttis aega vaid 700 millisekundit, mis on palju kiirem, kui filtreerimine on partitsiooniindeksi abil lubatud.
Koristage
AWS-i konto soovimatute tasude vältimiseks saate AWS-i ressursid kustutada.
- Logige sisse CloudFormationi konsooli IAM-i administraatorina, mida kasutati CloudFormationi virna loomisel.
- Kustutage loodud CloudFormationi virn.
Järeldus
Selles postituses selgitasime, kuidas konfigureerida AWS-i roomajat partitsiooniindeksite loomiseks, ja võrdlesime päringu jõudlust andmetele juurdepääsul Athena indeksitega.
Kui tabelis pole partitsioonide indekseid, laadib AWS Glue kõik tabeli partitsioonid ja seejärel filtreerib laaditud partitsioonid, mille tulemuseks on metaandmete ebaefektiivne toomine. Analüüsiteenused, nagu Redshift Spectrum, Amazon EMR ja AWS Glue ETL Spark DataFrames, saavad nüüd kasutada partitsioonide toomiseks indekseid, mille tulemuseks on märkimisväärne päringu jõudlus.
Lisateavet partitsiooniindeksite ja päringu jõudluse kohta erinevates analüütilistes mootorites leiate aadressilt Parandage Amazon Athena päringu jõudlust AWS Glue Data Catalog partitsiooniindeksite abil ja Parandage päringu jõudlust AWS Glue'i partitsiooniindeksite abil.
Eriline tänu kõigile, kes aitasid kaasa selle roomaja funktsiooni käivitamisele: Yuhang Chen, Kyle Duong ja Mita Gavade.
Autoritest
Srividya Parthasarathy on AWS Lake Formationi meeskonna vanem suurandmete arhitekt. Talle meeldib luua andmevõrgu lahendusi ja jagada neid kogukonnaga.
Sandeep Adwankar on AWS-i vanemtehniline tootejuht. Asub California lahe piirkonnas, teeb ta koostööd klientidega üle kogu maailma, et muuta äri- ja tehnilised nõuded toodeteks, mis võimaldavad klientidel parandada andmete haldamist, turvalisust ja neile juurdepääsu.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- EVM Finance. Detsentraliseeritud rahanduse ühtne liides. Juurdepääs siia.
- Quantum Media Group. IR/PR võimendatud. Juurdepääs siia.
- PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- :on
- :on
- : kus
- $ UP
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- Võimalik
- juurdepääs
- Ligipääs
- konto
- kinnitada
- üle
- lisama
- admin
- jälle
- Materjal: BPA ja flataatide vaba plastik
- mööda
- Ka
- Amazon
- Amazonase Athena
- Amazon EMR
- Amazon Web Services
- summad
- an
- Analüütiline
- analytics
- ja
- mistahes
- umbes
- OLEME
- PIIRKOND
- ümber
- AS
- At
- automaatselt
- saadaval
- vältima
- AWS
- AWS CloudFormation
- AWS liim
- AWS järve kihistu
- põhineb
- laht
- sest
- olnud
- Kasu
- Suur
- Big andmed
- Ehitus
- äri
- by
- California
- CAN
- kataloog
- Põhjus
- Vaidluste lahendamine
- koormuste
- Chen
- Vali
- valimine
- klassifikatsioon
- Veerg
- Veerud
- tuleb
- kogukond
- võrdlema
- võrreldes
- täitma
- konsool
- pidevalt
- Aitas
- kulud
- roomik
- looma
- loodud
- loob
- loomine
- loomine
- Praegune
- Kliendid
- andmed
- juurdepääs andmetele
- andmejärv
- andmebaas
- päev
- vaikimisi
- näitama
- juurutada
- juurutab
- kirjeldama
- detailid
- määrab
- avastasin
- alla
- ajal
- tõhusalt
- kumbki
- võimaldama
- lubatud
- Mootorid
- Eeter (ETH)
- igaüks
- laiendatud
- selgitas
- eksponentsiaalselt
- väljavõte
- eraldada andmed
- kiiremini
- tunnusjoon
- filtreerida
- filtreerimine
- Filtrid
- lõplik
- järgima
- Järel
- eest
- moodustamine
- Alates
- genereerib
- antud
- maakera
- Kasvama
- Kasvavad
- Olema
- he
- raske
- raske tõstmine
- kõrgelt
- hoidma
- tund
- Kuidas
- Kuidas
- HTML
- http
- HTTPS
- IAM
- Identity
- parandama
- paranemine
- parandusi
- in
- Suurendama
- Tõstab
- indeks
- indeksid
- ebaefektiivne
- info
- sisse
- IT
- jpg
- hoidma
- pidamine
- võtmed
- järv
- suurim
- algatama
- Layout
- tõstmine
- nagu
- joon
- saadetised
- tegema
- juhtima
- juhtimine
- juht
- silma
- Metaandmed
- võib
- miljonid
- protokoll
- kuu
- rohkem
- palju
- peab
- Navigate
- navigeerimine
- NAVIGATSIOON
- vaja
- Uus
- äsja
- ei
- nüüd
- number
- of
- on
- ainult
- optimeerima
- or
- et
- meie
- väljund
- üle
- lehekülg
- pane
- tee
- jõudlus
- Platon
- Platoni andmete intelligentsus
- PlatoData
- post
- esitada
- töötlemine
- Toode
- tootejuht
- Toodet
- anda
- vähendamine
- piirkond
- nõutav
- Nõuded
- Vajab
- Vahendid
- tulemuseks
- Tulemused
- Roll
- rollid
- jooks
- jooksmine
- sama
- sekundit
- Osa
- kindlustama
- vanem
- Teenused
- komplekt
- seaded
- jagamine
- ta
- Näitused
- märkimisväärne
- märgatavalt
- lihtne
- lahendus
- Lahendused
- allikas
- Säde
- spekter
- Kestab
- Sammud
- ladustamine
- salvestada
- lihtne
- nöör
- Edukalt
- toetama
- süsteemid
- tabel
- Võtma
- meeskond
- Tehniline
- šabloon
- tänan
- et
- .
- oma
- Neile
- SIIS
- Need
- nad
- see
- aeg
- et
- tänane
- võttis
- tõlkima
- tõsi
- tüüp
- liigid
- all
- mõistma
- soovimatu
- Värskendused
- kasutama
- Kasutatud
- kasutamine
- ära kasutama
- väärtus
- Väärtused
- eri
- suur
- kontrollima
- versioon
- oli
- Tee..
- we
- web
- veebiteenused
- millal
- mis
- WHO
- will
- koos
- ilma
- Töörühm
- töötab
- maailm
- yaml
- aasta
- sa
- Sinu
- sephyrnet