Andmete ettevalmistamine on igas masinõppe (ML) töövoos ülioluline samm, kuid see hõlmab sageli tüütuid ja aeganõudvaid ülesandeid. Amazon SageMakeri lõuend toetab nüüd kõikehõlmavaid andmete ettevalmistamise võimalusi Amazon SageMaker Data Wrangler. Selle integratsiooniga pakub SageMaker Canvas klientidele täielikku koodivaba tööruumi andmete ettevalmistamiseks, ML-i ja sihtasutuste mudelite loomiseks ja kasutamiseks, et kiirendada andmetelt äriülevaadeteni jõudmist. Nüüd saate hõlpsasti avastada ja koondada andmeid enam kui 50 andmeallikast ning uurida ja ette valmistada andmeid, kasutades SageMaker Canvase visuaalses liideses enam kui 300 sisseehitatud analüüsi ja teisendust. Samuti näete teisenduste ja analüüside kiiremat jõudlust ning loomuliku keele liidest ML-i andmete uurimiseks ja teisendamiseks.
Selles postituses tutvustame teile SageMaker Canvas'is täieliku mudeli koostamise andmete ettevalmistamise protsessi.
Lahenduse ülevaade
Oma kasutusjuhtumi puhul võtame endale finantsteenuste ettevõtte andmeprofessionaali rolli. Kasutame kahte näidisandmestikku, et koostada ML-mudel, mis ennustab, kas laenuvõtja maksab laenu täielikult tagasi, mis on krediidiriski juhtimiseks ülioluline. SageMaker Canvase koodita keskkond võimaldab meil kiiresti andmeid ette valmistada, funktsioone kujundada, ML-mudelit koolitada ja mudelit täielikus töövoos juurutada, ilma et oleks vaja kodeerida.
Eeldused
Selle juhendi järgimiseks veenduge, et olete täitnud eeltingimused, nagu on üksikasjalikult kirjeldatud
- Käivitage Amazon SageMaker Canvas. Kui olete juba SageMaker Canvase kasutaja, veenduge logi välja ja logige uuesti sisse, et seda uut funktsiooni kasutada.
- Andmete importimiseks rakendusest Snowflake järgige juhiseid alates Seadistage Snowflake'i jaoks OAuth.
Valmistage ette interaktiivsed andmed
Kui seadistus on lõpule viidud, saame nüüd luua andmevoo, mis võimaldab interaktiivset andmete ettevalmistamist. Andmevoog pakub andmete vaidlustamiseks sisseehitatud teisendusi ja reaalajas visualiseerimisi. Tehke järgmised sammud.
- Looge uus andmevoog, kasutades ühte järgmistest meetoditest.
- Vali Data Wrangler, andmevoogude, siis vali Looma.
- Valige SageMaker Canvas andmestik ja valige Looge andmevoog.
- Vali Andmete importimine ja valige Tabel rippmenüüst.
- Saate importida andmeid otse enam kui 50 andmekonnektori kaudu, näiteks Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane nihe, Snowflake ja Salesforce. Selles juhendis käsitleme teie andmete importimist otse Snowflake'ist.
Teise võimalusena saate sama andmestiku oma kohalikust masinast üles laadida. Saate andmestiku alla laadida laenud-1. osa.csv ja laenud-2. osa.csv.
- Andmete importimise lehel valige loendist Snowflake ja valige Lisage ühendus.
- Sisestage ühenduse nimi, valige OAuth autentimismeetodite ripploendist. Sisestage oma okta konto ID ja valige Lisa ühendus.
- Teid suunatakse Okta sisselogimiskuvale, et sisestada autentimiseks Okta mandaadid. Eduka autentimise korral suunatakse teid andmevoo lehele.
- Sirvige laenuandmestiku leidmiseks andmebaasist Snowflake
Valige kaks laenuandmestikku, pukseerides need ekraani vasakust servast paremale. Need kaks andmekogumit ühenduvad ja kuvatakse punase hüüumärgiga liitumissümbol. Klõpsake sellel ja seejärel valige mõlema andmestiku jaoks id võti. Jäta liitumistüüp kui Sisemine. See peaks välja nägema selline:
- Vali Salvesta ja sulge.
- Vali Loo andmestik. Andke andmestikule nimi.
- Liikuge andmevoogu, näete järgmist.
- Laenuandmete kiireks uurimiseks valige Hankige andmete statistikat Ja valige see
loan_status
sihtveerg ja Klassifikatsioon probleemi tüüp.
Loodud Andmekvaliteedi ja ülevaate aruanne pakub põhistatistikat, visualiseeringuid ja funktsioonide tähtsuse analüüse.
- Andmestiku mõistmiseks ja täiustamiseks vaadake üle hoiatused andmekvaliteedi probleemide ja tasakaalustamata klasside kohta.
Selle kasutusjuhtumi puhul peaksite ootama kõrge prioriteediga hoiatust „Väga madal kiirmudeli skoor” ja väga madalat mudelitõhusust vähemusklasside puhul (väljas ja praegune), mis viitab vajadusele andmeid puhastada ja tasakaalustada. Viitama Lõuendi dokumentatsioon andmeülevaate aruande kohta lisateabe saamiseks.
Rohkem kui 300 sisseehitatud teisendusega, mida toetab SageMaker Data Wrangler, võimaldab SageMaker Canvas teil laenuandmeid kiiresti vaidlustada. Võite klõpsata Lisa sammja sirvige või otsige õigeid teisendusi. Selle andmestiku jaoks kasutage Tilk puudu ja Käsitsege kõrvalekaldeid andmete puhastamiseks, seejärel rakendage Üks kuum kodeering, ja Vektoriseeri tekst ML-i funktsioonide loomiseks.
Vestlus andmete ettevalmistamiseks on uus loomuliku keele võimalus, mis võimaldab intuitiivset andmeanalüüsi, kirjeldades päringuid lihtsas inglise keeles. Näiteks saate loomulike fraaside abil saada laenuandmete statistikat ja funktsioonide korrelatsioonianalüüsi. SageMaker Canvas mõistab ja juhib toiminguid vestluse kaudu, viies andmete ettevalmistamise järgmisele tasemele.
Meil on võimalik kasutada Vestlus andmete ettevalmistamiseks ja sisseehitatud teisendus laenuandmete tasakaalustamiseks.
- Esmalt sisestage järgmised juhised:
replace “charged off” and “current” in loan_status with “default”
Vestlus andmete ettevalmistamiseks genereerib koodi kahe vähemusklassi liitmiseks üheks default
klass.
- Valige sisseehitatud SMOTE teisendusfunktsioon sünteetiliste andmete genereerimiseks vaikeklassi jaoks.
Nüüd on teil tasakaalustatud sihtveerg.
- Pärast laenuandmete puhastamist ja töötlemist taastage Andmekvaliteedi ja ülevaate aruanne paranduste ülevaatamiseks.
Kõrge prioriteediga hoiatus on kadunud, mis näitab paranenud andmete kvaliteeti. Vajadusel saate mudelikoolituse andmekvaliteedi parandamiseks lisada täiendavaid teisendusi.
Andmetöötluse skaleerimine ja automatiseerimine
Andmete ettevalmistamise automatiseerimiseks saate kogu töövoo käitada või ajastada hajutatud Sparki töötlemistööna, et töödelda kogu andmestikku või värskeid andmekogumeid mastaapselt.
- Lisage andmevoo sees Amazon S3 sihtkoha sõlm.
- Käivitage SageMakeri töötlemistöö, valides Loo töökoht.
- Konfigureerige töötlemistöö ja valige Looma, mis võimaldab voo käitada sadade GB-de andmetel ilma proovivõtuta.
ML elutsükli automatiseerimiseks saab andmevoogusid integreerida MLOps-i otspunktide torujuhtmetesse. Andmevoogusid saab sisestada SageMaker Studio sülearvutitesse SageMakeri konveieri andmetöötlusetapina või SageMakeri järelduskonveieri juurutamiseks. See võimaldab automatiseerida voogu andmete ettevalmistamisest kuni SageMakeri koolituse ja hostimiseni.
Mudeli koostamine ja juurutamine SageMaker Canvasis
Pärast andmete ettevalmistamist saame lõpliku andmestiku sujuvalt eksportida SageMaker Canvasesse, et luua, koolitada ja juurutada laenumaksete prognoosimise mudel.
- Vali Loo mudel andmevoo viimases sõlmes või sõlmede paanil.
See ekspordib andmestiku ja käivitab juhitud mudeli loomise töövoo.
- Nimetage eksporditud andmestik ja valige Eksport.
- Vali Loo mudel teatest.
- Nimetage mudel, valige Ennustav analüüsja vali Looma.
See suunab teid mudeli loomise lehele.
- Jätkake SageMaker Canvas mudeli loomise kogemusega, valides sihtveeru ja mudeli tüübi, seejärel valige Kiire ehitus or Standardne ehitus.
Mudeli loomise kogemuse kohta lisateabe saamiseks vaadake Ehitage mudel.
Kui koolitus on lõppenud, saate mudelit kasutada uute andmete ennustamiseks või juurutamiseks. Viitama Rakendage Amazon SageMaker Canvasisse ehitatud ML-mudeleid Amazon SageMakeri reaalajas lõpp-punktides et saada lisateavet SageMaker Canvase mudeli juurutamise kohta.
Järeldus
Selles postituses demonstreerisime SageMaker Canvase täielikke võimalusi, võttes endale finantsandmete professionaali rolli, kes valmistab ette andmeid laenumaksete ennustamiseks, mida toetab SageMaker Data Wrangler. Interaktiivne andmete ettevalmistamine võimaldas laenuandmeid kiiresti puhastada, teisendada ja analüüsida informatiivsete funktsioonide väljatöötamiseks. Eemaldades kodeerimise keerukuse, võimaldas SageMaker Canvas meil kiiresti itereerida, et luua kvaliteetset koolitusandmestikku. See kiirendatud töövoog viib otse tulemusliku ML-mudeli loomiseni, koolitamiseni ja juurutamiseni, et mõjutada äritegevust. SageMaker Canvas annab teile põhjaliku andmete ettevalmistamise ja ühtse kogemuse andmetest ülevaadeteni, et parandada oma ML-i tulemusi. Lisateavet selle kohta, kuidas kiirendada oma teekonda andmetest äriülevaateni, vt SageMaker Canvas keelekümbluspäev ja AWS kasutusjuhend.
Autoritest
Dr Changsha Ma on AWS-i AI/ML-spetsialist. Ta on tehnoloog, kellel on doktorikraad arvutiteaduses, magistrikraad hariduspsühholoogias ning aastatepikkune kogemus andmeteaduse ja sõltumatu nõustamise alal AI/ML alal. Ta on kirglik masinate ja inimeste intelligentsuse metodoloogiliste lähenemisviiside uurimise vastu. Väljaspool tööd armastab ta matkata, süüa teha, toitu jahtida ning sõprade ja peredega aega veeta.
Ajjay Govindaram on AWSi vanemlahenduste arhitekt. Ta töötab strateegiliste klientidega, kes kasutavad AI/ML-i keerukate äriprobleemide lahendamiseks. Tema kogemused seisnevad nii tehniliste juhiste kui ka disainiabi pakkumises tagasihoidlike kuni suuremahuliste AI/ML-rakenduste juurutamiseks. Tema teadmised ulatuvad rakendusarhitektuurist suurandmete, analüütika ja masinõppeni. Talle meeldib puhates muusikat kuulata, õues kogeda ja oma lähedastega aega veeta.
Huong Nguyen on AWS-i vanem tootejuht. Ta juhib SageMaker Canvase ja SageMaker Data Wrangleri ML-andmete ettevalmistamist, omades 15-aastast kogemust kliendikesksete ja andmepõhiste toodete loomisel.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :on
- :on
- $ UP
- 100
- 12
- 13
- 14
- 15 aastat
- 15%
- 300
- 50
- 8
- a
- Võimalik
- MEIST
- kiirendama
- kiirendatud
- konto
- meetmete
- lisama
- agregaat
- AI / ML
- lubatud
- võimaldab
- mööda
- juba
- Ka
- Amazon
- Amazon SageMaker
- Amazon SageMakeri lõuend
- Amazon Web Services
- an
- analüüsid
- analüüs
- analytics
- analüüsides
- ja
- mistahes
- ilmuma
- taotlus
- lähenemisviisid
- arhitektuur
- OLEME
- AS
- Abi
- At
- autentida
- Autentimine
- automatiseerima
- automatiseerimine
- AWS
- tagasi
- Saldo
- Tasakaalustatud
- BE
- Suur
- Big andmed
- julge
- laenuvõtja
- mõlemad
- ehitama
- Ehitus
- ehitatud
- sisseehitatud
- äri
- ärimõju
- by
- CAN
- Saab
- lõuend
- võimeid
- võime
- juhul
- laetud
- Vali
- valimine
- klass
- klassid
- puhastama
- puhastamine
- klõps
- kood
- Kodeerimine
- Veerg
- ettevõte
- täitma
- keeruline
- keerukust
- terviklik
- arvuti
- Arvutiteadus
- Võta meiega ühendust
- ühendus
- nõustamine
- jutukas
- cooking
- Korrelatsioon
- cover
- looma
- loomine
- volikiri
- krediit
- otsustav
- Praegune
- Kliendid
- andmed
- andmete analüüs
- Andmete ettevalmistamine
- andmetöötlus
- andmete kvaliteedi
- andmeteadus
- andmepõhistele
- andmekogumid
- vaikimisi
- Kraad
- Näidatud
- juurutada
- juurutamine
- kasutuselevõtt
- Kirjeldades
- Disain
- sihtkoht
- üksikasjalik
- suund
- otse
- avastama
- jagatud
- alla
- lae alla
- Drop
- Kukkumine
- kergesti
- Käsitöö
- efektiivsus
- annab volitusi
- võimaldama
- lubatud
- võimaldab
- võimaldades
- Lõpuks-lõpuni
- insener
- Inglise
- suurendama
- tagama
- sisene
- Kogu
- keskkond
- Eeter (ETH)
- näide
- ootama
- kogemus
- kogevad
- uurima
- eksport
- ekspordi
- peredele
- kiiremini
- tunnusjoon
- FUNKTSIOONID
- lõplik
- finants-
- finantsandmed
- finantsteenused
- finantsteenuste ettevõte
- voog
- Voolud
- järgima
- Järel
- toit
- eest
- Sihtasutused
- värske
- sõbrad
- Alates
- täielikult
- funktsioon
- edasi
- tekitama
- loodud
- genereerib
- saama
- Andma
- juhitud
- Olema
- he
- Suur
- kvaliteetne
- matkamine
- tema
- Hosting
- Kuidas
- Kuidas
- HTML
- http
- HTTPS
- inim-
- inimeste intelligentsust
- sajad
- Jaht
- ID
- if
- tasakaalustamata
- immersioon
- mõju
- rakendatud
- import
- tähtsus
- importivate
- parandama
- paranenud
- parandusi
- in
- Inkorporeeritud
- sõltumatud
- Näitab
- info
- informatiivne
- ülevaade
- teadmisi
- juhised
- integratsioon
- Intelligentsus
- interaktsioonid
- interaktiivne
- Interface
- sisse
- intuitiivne
- hõlmab
- küsimustes
- IT
- ITS
- töö
- liituma
- Reisid
- jpg
- Võti
- teadmised
- keel
- suuremahuline
- viimane
- käivitab
- juhtivate
- Leads
- Õppida
- õppimine
- Lahkuma
- lahkus
- Tase
- peitub
- eluring
- nagu
- nimekiri
- Kuulamine
- laen
- Laenud
- kohalik
- logi
- Logi sisse
- Vaata
- näeb välja
- armastatud
- armastab
- Madal
- masin
- masinõpe
- tegema
- juht
- juhtiv
- märk
- meistrid
- Merge
- meetod
- meetodid
- vähemus
- ML
- MLOps
- mudel
- mudelid
- tagasihoidlik
- rohkem
- muusika
- nimi
- Natural
- Loomulik keel
- Vajadus
- vaja
- Uus
- uus funktsioon
- järgmine
- sõlme
- sõlmed
- märkmikud
- teade
- nüüd
- oauth
- of
- maha
- sageli
- OKTA
- on
- ONE
- ones
- valik
- or
- meie
- tulemusi
- väljas
- väljaspool
- üle
- lehekülg
- pane
- kirglik
- makse
- jõudlus
- phd
- fraasid
- torujuhe
- tavaline
- Platon
- Platoni andmete intelligentsus
- PlatoData
- post
- sisse
- ennustada
- ennustus
- Ennustab
- ettevalmistamine
- Valmistama
- ettevalmistamisel
- eeldused
- prioriteet
- Probleem
- probleeme
- protsess
- töötlemine
- Toode
- tootejuht
- Toodet
- professionaalne
- annab
- pakkudes
- Psühholoogia
- kvaliteet
- kiiresti
- kiiresti
- reaalajas
- Red
- suunata
- viitama
- eemaldades
- aru
- Taotlusi
- puhkavad
- läbi
- õige
- Oht
- Roll
- jooks
- jookseb
- salveitegija
- SageMakeri järeldus
- müügijõud
- sama
- Skaala
- ajakava
- teadus
- Ekraan
- sujuvalt
- Otsing
- vaata
- valima
- vanem
- Teenused
- teenindusettevõte
- seade
- ta
- peaks
- külg
- lihtne
- Lahendused
- LAHENDAGE
- Allikad
- Säde
- spetsialist
- Kulutused
- statistika
- Samm
- Sammud
- ladustamine
- Strateegiline
- stuudio
- edukas
- selline
- Toetab
- kindel
- sümbol
- sünteetiline
- sünteetilised andmed
- võtmine
- sihtmärk
- ülesanded
- Tehniline
- tehnoloog
- et
- .
- Neile
- SIIS
- see
- Läbi
- aeg
- aega võttev
- et
- Rong
- koolitus
- Muutma
- muundumised
- transformeerivate
- muudab
- kaks
- tüüp
- mõistma
- mõistab
- ühtne
- us
- kasutama
- kasutage juhtumit
- Kasutaja
- kasutamine
- väga
- visuaalne
- kõndima
- läbikäiguks
- hoiatus
- we
- web
- veebiteenused
- Hästi
- kas
- mis
- kuigi
- WHO
- kogu
- will
- koos
- ilma
- Töö
- töövoog
- töötab
- Töötoad
- oleks
- aastat
- veel
- sa
- Sinu
- sephyrnet