AWS liimistuudio on nüüd integreeritud rakendusega AWS Glue DataBrew. AWS Glue Studio on graafiline liides, mis muudab tööde (ETL) ekstraktimise, teisendamise ja laadimise lihtsaks loomise, käitamise ja jälgimise. AWS liim. DataBrew on visuaalne andmete ettevalmistamise tööriist, mis võimaldab teil andmeid puhastada ja normaliseerida ilma koodi kirjutamata. Selle pakutavad üle 200 teisenduse on nüüd saadaval kasutamiseks AWS Glue Studio visuaalses töös.
DataBrewis a retsept on andmete teisendamise etappide kogum, mida saate selle intuitiivses visuaalses liideses interaktiivselt koostada. Selles postituses näete, kuidas kasutada DataBrewis retsepti koostamist ja seejärel seda AWS Glue Studio visuaalse ETL-i töö osana rakendada.
Sellest integratsioonist saavad kasu ka olemasolevad DataBrew kasutajad – nüüd saate oma retsepte käitada osana suuremast visuaalsest töövoost koos kõigi teiste AWS Glue Studio pakutavate komponentidega, lisaks sellele, et saate kasutada täpsemat töökonfiguratsiooni ja uusimat AWS Glue mootori versiooni. .
See integratsioon toob mõlema tööriista olemasolevatele kasutajatele selgeid eeliseid:
- Teil on AWS Glue Studio'is tsentraliseeritud vaade ETL-i üldisest diagrammist, otsast lõpuni
- Saate interaktiivselt määratleda retsepti, vaadata väärtusi, statistikat ja jaotust DataBrew konsoolil, seejärel uuesti kasutada seda testitud ja versioonidega töötlemisloogikat AWS Glue Studio visuaalsetes töödes.
- Saate korraldada mitu DataBrew retsepti AWS Glue ETL töös või isegi mitu tööd, kasutades AWS Glue töövooge
- DataBrew'i retseptid saavad nüüd kasutada AWS Glue'i tööfunktsioone, nagu järjehoidjad järkjärguliseks andmetöötluseks, automaatseks proovimiseks, automaatseks skaleerimiseks või väikeste failide rühmitamiseks suurema tõhususe tagamiseks
Lahenduse ülevaade
Meie fiktiivse kasutusjuhtumi puhul on nõue puhastada selle postituse jaoks loodud sünteetiliste meditsiiniliste väidete andmestik, millesse on sihilikult lisatud andmekvaliteediga seotud probleeme, et näidata DataBrew'i võimekust andmete ettevalmistamisel. Seejärel sisestatakse nõuete andmed kataloogi (nii et need on analüütikutele nähtavad) pärast seda, kui seda on rikastatud mõne asjakohase üksikasjaga vastavate meditsiiniteenuste osutajate kohta, mis pärinevad eraldi allikast.
Lahendus koosneb AWS Glue Studio visuaalsest tööst, mis loeb kahte CSV-faili vastavalt nõuete ja pakkujatega. Töö rakendab esimese retsepti, et lahendada kvaliteediprobleemid, valida teisest veerud, ühendada mõlemad andmekogumid ja lõpuks salvestada tulemus Amazoni lihtne salvestusteenus (Amazon S3), luues kataloogis tabeli, et väljundandmeid saaks kasutada ka muud tööriistad, näiteks Amazonase Athena.
Looge DataBrew retsept
Alustuseks registreerige andmesalve nõuete faili jaoks. See võimaldab teil koostada retsepti selle interaktiivses redaktoris, kasutades tegelikke andmeid, et saaksite hinnata teisenduste tulemusi nende määratlemisel.
- Laadige alla nõuete CSV-fail, kasutades järgmist linki: alabama_claims_data_Jun2023.csv.
- Valige DataBrew konsoolil Andmekogumid navigeerimispaanil, seejärel valige Ühendage uus andmestik.
- Valige suvand Faili üleslaadimine.
- eest Andmestiku nimi, sisenema
Alabama claims
. - eest Valige üleslaaditav fail, valige fail, mille just arvutisse alla laadisite.
- eest Sisestage S3 sihtkoht, sisestage või sirvige oma kontol ja regioonis ämber.
- Jätke ülejäänud suvandid vaikimisi (eraldatud CSV komaga ja päisega) ja viige andmestiku loomine lõpule.
- Vali Projekt navigeerimispaanil, seejärel valige Loo projekt.
- eest Projekti nimi, nimeta see
ClaimsCleanup
. - alla Retsepti üksikasjadJaoks Lisatud retsept, vali Loo uus retsept, nimeta see
ClaimsCleanup-recipe
ja valigeAlabama claims
äsja loodud andmestik. - Vali DataBrew'le sobiv roll või looge uus ja viige projekti loomine lõpule.
See loob seansi, kasutades andmete konfigureeritavat alamhulka. Pärast seansi initsialiseerimist võite märgata, et mõnel lahtril on kehtetud või puuduvad väärtused.
Lisaks veergudes puuduvad väärtused Diagnoosikood, Nõude summaja Nõude kuupäev, on mõnel andmete väärtusel lisamärke: Diagnoosikood väärtuste ees on mõnikord "kood" (kaasa arvatud tühik) ja Menetluskoodeks väärtustele järgnevad mõnikord üksikud jutumärgid.
Nõude summa väärtusi kasutatakse tõenäoliselt mõnes arvutuses, seega teisendage arvuks ja Nõudeandmed tuleks teisendada kuupäeva tüübiks.
Nüüd, kui oleme tuvastanud andmekvaliteedi probleemid, mida lahendada, peame otsustama, kuidas iga juhtumiga tegeleda.
Retsepti etappide lisamiseks on mitu võimalust, sealhulgas veeru kontekstimenüü, ülaosas oleva tööriistariba või retsepti kokkuvõtte kasutamine. Viimast meetodit kasutades saate selles postituses loodud retsepti kopeerimiseks otsida näidatud sammu tüüpi.
Nõude summa on selle kasutusjuhtumi jaoks hädavajalik ja sellised read tuleb eemaldada.
- Lisage samm Eemaldage puuduvad väärtused.
- eest Allika veerg, vali Nõude summa.
- Jätke vaiketoiming Kustutage puuduvate väärtustega read Ja vali kehtima selle salvestamiseks.
Vaade on nüüd värskendatud, et kajastada sammurakendust ja puuduvate summadega ridu enam pole.
Diagnoosikood võib olla tühi, nii et see on aktsepteeritud, kuid juhul Nõude kuupäev, tahame saada mõistlikku hinnangut. Andmete read sorteeritakse kronoloogilises järjekorras, nii et saate puuduvaid kuupäevi arvutada, kasutades eelvaadete kehtivat väärtust eelmistest ridadest. Eeldades, et igal päeval on nõudeid, oleks suurim viga selle määramine eelvaate päevale, kui see oleks selle päeva esimene nõue, millel puudub kuupäev; näitlikustamiseks loeme selle võimaliku vea vastuvõetavaks.
Esmalt teisendage veerg stringist kuupäevatüübiks.
- Lisage samm Muuda tüüpi.
- Vali Nõude kuupäev kui veerg ja andmed tüübina, seejärel valige kehtima.
- Nüüd lisage samm puuduvate kuupäevade arvutamiseks Täitke või arvutage puuduvad väärtused.
- Valige toiminguks Täida viimase kehtiva väärtusega ja valige Nõude kuupäev allikana.
- Vali Muudatuste eelvaade selle kinnitamiseks, seejärel valige kehtima sammu salvestamiseks.
Seni peaks teie retseptil olema kolm sammu, nagu on näidatud järgmisel ekraanipildil.
- Järgmisena lisage samm Eemalda jutumärgid.
- Vali Menetluskoodeks veerg ja valige Esialgsed ja lõpus olevad jutumärgid.
- Vaadake eelvaadet, et kontrollida, kas sellel on soovitud mõju, ja rakendage uus samm.
- Lisage samm Eemaldage erimärgid.
- Vali Nõude summa veerus ja täpsemaks muutmiseks valige Kohandatud erimärgid ja sisestage
$
eest Sisestage kohandatud erimärgid. - Lisa Muuda tüüpi samm kolonnile Nõude summa Ja vali kahekordistada tüübina.
- Viimase sammuna lisage üleliigse koodi eesliide eemaldamiseks a Asenda väärtus või muster samm
- Valige veerg DiagnoosikoodNing Sisestage kohandatud väärtus, sisenema
code
(tühikuga lõpus).
Nüüd, kui olete lahendanud kõik proovis tuvastatud andmekvaliteedi probleemid, avaldage projekt retseptina.
- Vali Avalda aasta Retsept paan, sisestage valikuline kirjeldus ja viige väljaanne lõpule.
Iga kord, kui avaldate, luuakse retseptist erinev versioon. Hiljem saate valida, millist retsepti versiooni kasutada.
Looge AWS Glue Studios visuaalne ETL-töö
Järgmisena loote töö, mis kasutab retsepti. Tehke järgmised sammud.
- Valige AWS Glue Studio konsoolil Visuaalne ETL navigeerimispaanil.
- Vali Visuaal tühja lõuendiga ja luua visuaalne töö.
- Asendage töö ülaosas "Pealkirjata töö" enda valitud nimega.
- Kohta töö üksikasjad vahekaardil määrake roll, mida töö kasutab.
See peab olema an AWS-i identiteedi- ja juurdepääsuhaldus (AMI) AWS-liimi jaoks sobiv roll Amazon S3 ja AWS-i liimiandmete kataloogi lubadega. Pange tähele, et varem DataBrew jaoks kasutatud roll ei ole käitatavate tööde jaoks kasutatav, seega ei kuvata seda IAM-i roll rippmenüüst siin.
Kui kasutasite varem ainult DataBrew'i töid, pange tähele, et AWS Glue Studios saate valida jõudlus- ja kuluseaded, sealhulgas töötaja suurus, automaatne skaleerimine ja Paindlik täitmine, samuti kasutada uusimat AWS Glue 4.0 käitusaega ja saada kasu selle olulistest jõudluse täiustustest. Selle töö jaoks saate kasutada vaikesätteid, kuid kokkuhoidlikkuse huvides vähendage nõutavat töötajate arvu. Selle näite puhul sobivad kaks töötajat. - Kohta Visuaalne lisage S3 allikas ja nimetage see
Providers
. - eest S3 URL, sisenema
s3://awsglue-datasets/examples/medicare/Medicare_Hospital_Provider.csv
.
- Valige vorming kui CSV Ja vali Järelda skeem.
Nüüd on skeem loendis Väljundskeem vahekaarti kasutades faili päist.
Sel juhul otsustatakse, et pakkujate andmestiku kõiki veerge pole vaja, nii et saame ülejäänud loobuda.
- Koos Providers sõlm valitud, lisage a Drop Fields teisendus (kui te ülemsõlme ei valinud, pole sellel seda; sel juhul määrake sõlme vanem käsitsi).
- Pärast seda valige kõik väljad Pakkuja sihtnumber.
Hiljem liidetakse nende andmetega teenusepakkujat kasutades Alabama osariigi nõuded; teisel andmestikul pole aga olekut määratud. Saame kasutada andmete teadmisi, et optimeerida liitumist, filtreerides andmed, mida me tõesti vajame.
- Lisa filtrid muutuda lapsena Drop Fields.
- Nimetage see
Alabama providers
ja lisada tingimus, et olek peab vastamaAL
. - Lisage teine allikas (uus S3 allikas) ja nimetage see
Alabama claims
. - Sisenemiseks S3 URL, avage DataBrew eraldi brauseri vahekaardil, valige navigeerimispaanil Andmed ja kopeerige tabelisse tabelis näidatud asukoht. Alabama väidab (kopeerige s3://-ga algav tekst, mitte sellega seotud http-link). Seejärel tagasi visuaalse töö juurde, kleepige see kui S3 URL; kui see on õige, näete Väljundskeem vahekaarti loetletud andmeväljadel.
- Valige CSV-vorming ja järeldage skeem nagu teise allika puhul.
- Selle allika lapsena otsige jaotisest Lisage sõlmed menüü jaoks
recipe
Ja vali Andmete ettevalmistamise retsept. - Andke selle uue sõlme atribuutides sellele nimi
Claim cleanup recipe
ja valige retsept ja versioon, mille olete varem avaldanud. - Siin saate retseptietapid üle vaadata ja vajadusel muudatuste tegemiseks kasutada DataBrewi linki.
- Lisa Liitu sõlm ja valige mõlemad Alabama pakkujad ja Nõudke puhastusretsepte vanemana.
- Lisage mõlema allika pakkuja ID-ga võrdne liitumistingimus.
- Viimase sammuna lisage sihtmärgiks S3 sõlm (pange tähele, et otsingul esimene loetletud on allikas; valige kindlasti sihtmärgina loetletud versioon).
- Sõlme konfiguratsioonis jätke vaikevorming JSON ja sisestage S3 URL, millele töörollil on kirjutamisõigus.
Lisaks tehke andmeväljund kataloogis tabelina kättesaadavaks.
- aasta Andmekataloogi värskendamise valikud jaotises valige teine valik Looge andmekataloogis ja järgmistel käitamistel tabel, värskendage skeemi ja lisage uued partitsioonid, seejärel valige andmebaas, milles teil on õigus tabeleid luua.
- Määrake
alabama_claims
nimeks ja vali Nõude kuupäev partitsioonivõtmena (see on illustreeriv; selline pisike tabel ei vaja tegelikult partitsioone, kui hiljem rohkem andmeid ei lisata). - Nüüd saate töö salvestada ja käivitada.
- Kohta Jookseb vahekaarti, saate töö ID lingi abil protsessi jälgida ja üksikasjalikke töömõõdikuid näha.
Töö valmimine peaks võtma paar minutit.
- Kui töö on lõpetatud, navigeerige Athena konsooli.
- Otsige tabelit
alabama_claims
valitud andmebaasis ja valige kontekstimenüüst Eelvaate tabel, mis käivitab tabelis lihtsa SELECT * SQL-lause.
Töö tulemusel on näha, et andmed puhastati DataBrew retseptiga ja rikastati AWS Glue Studio liitumisega.
Apache Spark on mootor, mis käitab AWS Glue Studios loodud töid. Kasutades Sparki kasutajaliidest selle koostatud sündmuste logides, saate vaadata tööplaani ja käitamise kohta teavet, mis aitab teil mõista, kuidas teie töö toimib, ja võimalikke toimivuse kitsaskohti. Näiteks selle suure andmestiku töö puhul saate seda kasutada selleks, et enne ühendamist võrrelda teenusepakkuja oleku selgesõnalise filtreerimise mõju või teha kindlaks, kas saate paralleelsuse parandamiseks automaatse tasakaalu teisenduse lisamisest kasu.
Vaikimisi salvestab töö Apache Sparki sündmuste logid tee alla s3://aws-glue-assets-<your account id>-<your region name>/sparkHistoryLogs/
. Tööde vaatamiseks peate installima ajalooserveri, kasutades üks olemasolevatest meetoditest.
Koristage
Kui te seda lahendust enam ei vaja, saate kustutada Amazon S3-s loodud failid, tööga loodud tabeli, DataBrew retsepti ja AWS Glue töö.
Järeldus
Selles postituses näitasime, kuidas saate AWS DataBrew'i abil retsepti koostada, kasutades kaasasolevat interaktiivset redaktorit, ja seejärel kasutada avaldatud retsepti AWS Glue Studio visuaalse ETL-i töö osana. Lisasime mõned näited tavapärastest ülesannetest, mida on vaja andmete ettevalmistamisel ja andmete sisestamisel AWS-i liimikataloogi tabelitesse.
See näide kasutas visuaalses töös ühte retsepti, kuid ETL-i protsessi eri osades on võimalik kasutada mitut retsepti, aga ka sama retsepti mitmes töös uuesti kasutada.
Need AWS Glue lahendused võimaldavad teil tõhusalt luua täiustatud ETL-i torujuhtmeid, mida on lihtne ehitada ja hooldada, ilma koodi kirjutamata. Mõlemat tööriista kombineerivate lahenduste loomisega saate alustada juba täna.
Autoritest
Mihhail Smirnov on vanem tarkvaraarendaja AWS Glue meeskonnas ja osa AWS Glue DataBrew arendusmeeskonnast. Väljaspool tööd on tema huvideks kitarrimängu õppimine ja perega reisimine.
Gonzalo Herreros on AWS Glue meeskonna vanem suurandmete arhitekt. Iirimaal Dublinis asuv ta aitab klientidel edu saavutada AWS Glue'il põhinevate suurandmete lahendustega. Vabal ajal naudib ta lauamänge ja jalgrattasõitu.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Autod/elektrisõidukid, Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- BlockOffsets. Keskkonnakompensatsiooni omandi ajakohastamine. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/use-aws-glue-databrew-recipes-in-your-aws-glue-studio-visual-etl-jobs/
- :on
- :on
- :mitte
- $ UP
- 10
- 100
- 12
- 15%
- 20
- 200
- 22
- 26
- 28
- 500
- 7
- 8
- a
- Võimalik
- MEIST
- vastuvõetav
- aktsepteeritud
- juurdepääs
- konto
- tegevus
- tegelik
- lisama
- lisatud
- lisades
- lisamine
- aadress
- edasijõudnud
- pärast
- Alabama
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- Ka
- Amazon
- Amazon Web Services
- summad
- an
- Analüütikud
- ja
- mistahes
- Apache
- Apache Spark
- taotlus
- kehtima
- OLEME
- AS
- seotud
- At
- autor
- auto
- Automaatne
- saadaval
- AWS
- AWS liim
- tagasi
- põhineb
- BE
- enne
- on
- kasu
- Kasu
- Suur
- Big andmed
- tühi
- juhatus
- Lauamängud
- järjehoidjad
- mõlemad
- Toob
- brauseri
- ehitama
- kuid
- by
- CAN
- võimeid
- juhul
- kataloog
- Rakke
- tsentraliseeritud
- muutma
- Vaidluste lahendamine
- märki
- laps
- valik
- Vali
- nõudma
- nõuete
- kood
- Veerg
- Veerud
- ühendama
- tulevad
- ühine
- võrdlema
- täitma
- komponendid
- arvuti
- seisund
- konfiguratsioon
- Arvestama
- koosneb
- konsool
- kontekst
- muutma
- ümber
- parandada
- Vastav
- Maksma
- võiks
- looma
- loodud
- loomine
- loomine
- tava
- Kliendid
- andmed
- Andmete ettevalmistamine
- andmetöötlus
- andmete kvaliteedi
- andmebaas
- andmekogumid
- kuupäev
- Kuupäevad
- päev
- tegelema
- otsustama
- otsus
- vaikimisi
- näitama
- kirjeldus
- soovitud
- üksikasjalik
- detailid
- dev
- & Tarkvaraarendus
- arendusmeeskond
- DID
- erinev
- eristatav
- jaotus
- do
- Ei tee
- teeme
- dollar
- kahekordistada
- Drop
- Dublin
- iga
- lihtne
- toimetaja
- mõju
- tõhusalt
- võimaldab
- lõpp
- Mootor
- insener
- rikastatud
- rikastav
- sisene
- viga
- oluline
- Eeter (ETH)
- hindama
- Isegi
- sündmus
- Iga
- iga päev
- näide
- näited
- olemasolevate
- lisatasu
- väljavõte
- pere
- kaugele
- FUNKTSIOONID
- vähe
- Valdkonnad
- fail
- Faile
- täitma
- filtreerida
- filtreerimine
- Lõpuks
- esimene
- Järgneb
- Järel
- eest
- formaat
- Alates
- edasi
- Mängud
- loodud
- Andma
- suurem
- Olema
- he
- aitama
- aitab
- siin
- tema
- ajalugu
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- IAM
- ID
- tuvastatud
- identifitseerima
- Identity
- if
- mõju
- parandama
- parandusi
- in
- sisaldama
- lisatud
- Kaasa arvatud
- osutatud
- sisend
- teadmisi
- paigaldama
- Näiteks
- integreeritud
- integratsioon
- interaktiivne
- huvi
- el
- Interface
- sisse
- sisse
- intuitiivne
- Iirimaa
- küsimustes
- IT
- ITS
- töö
- Tööturg
- liituma
- liitunud
- jpg
- Json
- lihtsalt
- hoidma
- Võti
- teadmised
- suur
- suurem
- suurim
- viimane
- pärast
- hiljemalt
- õppimine
- Lahkuma
- nagu
- Tõenäoliselt
- LINK
- Loetletud
- koormus
- liising
- loogika
- enam
- säilitada
- tegema
- TEEB
- käsitsi
- Vastama
- meditsiini-
- menüü
- meetod
- meetodid
- Meetrika
- protokoll
- puuduvad
- Jälgida
- rohkem
- mitmekordne
- peab
- nimi
- Navigate
- NAVIGATSIOON
- Vajadus
- vaja
- vajadustele
- Uus
- ei
- sõlme
- Märka..
- nüüd
- number
- of
- on
- ONE
- ainult
- avatud
- optimeerima
- valik
- Valikud
- or
- et
- Muu
- meie
- väljund
- väljaspool
- üle
- üldine
- pane
- osa
- osad
- tee
- jõudlus
- esitades
- luba
- Õigused
- kava
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängima
- võimalik
- post
- potentsiaal
- ettevalmistamine
- Eelvaade
- Eelvaated
- protsess
- töötlemine
- toodab
- projekt
- omadused
- tingimusel
- tarnija
- pakkujad
- annab
- avaldamine
- avaldama
- avaldatud
- eesmärk
- eesmärkidel
- kvaliteet
- quotes
- tõesti
- mõistlik
- retsept
- Retseptid
- vähendama
- kajastama
- piirkond
- registreerimine
- asjakohane
- kõrvaldama
- asendama
- palutud
- nõutav
- nõue
- vastavalt
- REST
- kaasa
- Tulemused
- taaskasutada
- läbi
- Roll
- jooks
- jookseb
- sama
- Säästa
- Skaala
- ketendamine
- Otsing
- Teine
- Osa
- vaata
- nägemine
- väljavalitud
- eri
- Teenused
- istung
- komplekt
- seaded
- peaks
- näitas
- näidatud
- kirjutama
- märkimisväärne
- lihtne
- ühekordne
- SUURUS
- väike
- So
- nii kaugel
- tarkvara
- lahendus
- Lahendused
- mõned
- allikas
- Allikad
- Ruum
- Säde
- eriline
- konkreetse
- määratletud
- SQL
- algus
- Käivitus
- riik
- väljavõte
- statistika
- Samm
- Sammud
- ladustamine
- salvestada
- lihtne
- nöör
- stuudio
- järgnev
- edukas
- selline
- sobiv
- KOKKUVÕTE
- kindel
- sünteetiline
- tabel
- Võtma
- sihtmärk
- ülesanded
- meeskond
- katsetatud
- et
- .
- Allikas
- Riik
- Neile
- SIIS
- Seal.
- see
- kolm
- aeg
- et
- täna
- tööriist
- töövahendid
- ülemine
- jälgida
- Muutma
- Transformation
- muundumised
- Reisimine
- kaks
- tüüp
- ui
- all
- mõistma
- Värskendused
- ajakohastatud
- URL
- kasutatav
- kasutama
- kasutage juhtumit
- Kasutatud
- Kasutajad
- kasutusalad
- kasutamine
- KINNITAGE
- väärtus
- Väärtused
- kontrollima
- versioon
- vaade
- nähtav
- tahan
- oli
- kuidas
- we
- web
- veebiteenused
- Hästi
- olid
- millal
- mis
- will
- koos
- ilma
- Töö
- töötaja
- töötajate
- töövoog
- oleks
- kirjutama
- kirjutamine
- sa
- Sinu
- sephyrnet
- Tõmblukk