Priprava podatkov je ključni korak v vsakem delovnem procesu strojnega učenja (ML), vendar pogosto vključuje dolgočasna in dolgotrajna opravila. Amazon SageMaker Canvas zdaj podpira celovite zmogljivosti priprave podatkov, ki jih poganja Amazon SageMaker Data Wrangler. S to integracijo SageMaker Canvas strankam zagotavlja celovit delovni prostor brez kode za pripravo podatkov, gradnjo in uporabo modelov ML in temeljev za pospešitev časa od podatkov do poslovnih vpogledov. Zdaj lahko preprosto odkrijete in združite podatke iz več kot 50 virov podatkov ter raziščete in pripravite podatke z uporabo več kot 300 vgrajenih analiz in transformacij v vizualnem vmesniku SageMaker Canvas. Videli boste tudi hitrejšo zmogljivost za transformacije in analize ter vmesnik v naravnem jeziku za raziskovanje in transformacijo podatkov za ML.
V tej objavi vas vodimo skozi postopek priprave podatkov za gradnjo modela od konca do konca v SageMaker Canvas.
Pregled rešitev
Za naš primer uporabe prevzamemo vlogo strokovnjaka za podatke v podjetju za finančne storitve. Za izgradnjo modela ML, ki napove, ali bo posojilojemalec v celoti odplačal posojilo, uporabljamo dva vzorčna niza podatkov, kar je ključnega pomena za obvladovanje kreditnega tveganja. Okolje brez kode SageMaker Canvas nam omogoča hitro pripravo podatkov, načrtovanje funkcij, usposabljanje modela ML in uvajanje modela v delovnem toku od konca do konca, brez potrebe po kodiranju.
Predpogoji
Če želite slediti tem korakom, se prepričajte, da ste izvedli predpogoje, kot je podrobno opisano v
- Zaženite Amazon SageMaker Canvas. Če ste že uporabnik SageMaker Canvas, se prepričajte odjaviti in se znova prijavite, da boste lahko uporabljali to novo funkcijo.
- Za uvoz podatkov iz Snowflake sledite korakom iz Nastavite OAuth za Snowflake.
Pripravite interaktivne podatke
Ko je nastavitev končana, lahko zdaj ustvarimo tok podatkov, da omogočimo interaktivno pripravo podatkov. Pretok podatkov zagotavlja vgrajene transformacije in vizualizacije v realnem času za prerekanje podatkov. Izvedite naslednje korake:
- Ustvarite nov tok podatkov na enega od naslednjih načinov:
- Izberite Data Wrangler, Pretok podatkov, nato izberite ustvarjanje.
- Izberite nabor podatkov SageMaker Canvas in izberite Ustvarite podatkovni tok.
- Izberite Uvozi podatke in izberite Tabela s spustnega seznama.
- Podatke lahko uvozite neposredno prek več kot 50 podatkovnih priključkov, kot je npr Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShift, Snowflake in Salesforce. V tem uvodu bomo obravnavali uvoz vaših podatkov neposredno iz Snowflake.
Druga možnost je, da isti nabor podatkov naložite iz lokalnega računalnika. Nabor podatkov lahko prenesete posojila-del-1.csv in posojila-del-2.csv.
- Na strani za uvoz podatkov na seznamu izberite Snežinka in izberite Dodajte povezavo.
- Vnesite ime za povezavo, izberite OAuth možnost s spustnega seznama načinov preverjanja pristnosti. Vnesite svoj ID računa okta in izberite Dodaj povezavo.
- Preusmerjeni boste na prijavni zaslon Okta, da vnesete poverilnice Okta za preverjanje pristnosti. Po uspešni avtentikaciji boste preusmerjeni na stran za pretok podatkov.
- Prebrskajte in poiščite nabor podatkov o izposoji v bazi podatkov Snowflake
Izberite dva nabora podatkov o posojilih, tako da ju povlečete in spustite z leve strani zaslona na desno. Dva nabora podatkov se bosta povezala in prikazal se bo simbol združitve z rdečim klicajem. Kliknite nanjo in nato za oba niza podatkov izberite id ključ. Pustite vrsto pridružitve kot Notranja. Videti bi moralo takole:
- Izberite Shrani in zapri.
- Izberite Ustvari nabor podatkov. Poimenujte nabor podatkov.
- Pomaknite se do pretoka podatkov in videli bi naslednje.
- Če želite hitro raziskati podatke o posojilih, izberite Pridobite vpogled v podatke In izberite
loan_status
ciljni stolpec in Razvrstitev vrsta problema.
Ustvarjeno Poročilo o kakovosti in vpogledu v podatke zagotavlja ključne statistike, vizualizacije in analize pomembnosti funkcij.
- Preglejte opozorila o težavah s kakovostjo podatkov in neuravnoteženih razredih, da boste razumeli in izboljšali nabor podatkov.
Za nabor podatkov v tem primeru uporabe bi morali pričakovati visoko prednostno opozorilo »Zelo nizka ocena hitrega modela« in zelo nizko učinkovitost modela pri manjšinskih razredih (zaračunani in trenutni), kar kaže na potrebo po čiščenju in uravnoteženju podatkov. Nanašati se na Canvas dokumentacija če želite izvedeti več o poročilu o vpogledih v podatke.
Z več kot 300 vgrajenimi transformacijami, ki jih poganja SageMaker Data Wrangler, vam SageMaker Canvas omogoča hitro premeščanje podatkov o izposoji. Lahko kliknete na Dodaj korakin prebrskajte ali poiščite prave transformacije. Za ta niz podatkov uporabite Manjka kapljica in Obravnavajte izstopajoče za čiščenje podatkov, nato uporabite Enkratno kodiranje, in Vektoriziraj besedilo za ustvarjanje funkcij za ML.
Klepet za pripravo podatkov je nova zmožnost naravnega jezika, ki omogoča intuitivno analizo podatkov z opisovanjem zahtev v navadni angleščini. Dobite lahko na primer statistiko in korelacijsko analizo funkcij o podatkih o posojilu z uporabo naravnih fraz. SageMaker Canvas razume in vodi dejanja skozi pogovorne interakcije, s čimer dvigne pripravo podatkov na višjo raven.
Lahko uporabimo Klepet za pripravo podatkov in vgrajeno pretvorbo za uravnoteženje podatkov o posojilih.
- Najprej vnesite naslednja navodila:
replace “charged off” and “current” in loan_status with “default”
Klepet za pripravo podatkov ustvari kodo za združitev dveh manjšinskih razredov v enega default
razred.
- Izberite vgrajeno SMETE transformacijsko funkcijo za ustvarjanje sintetičnih podatkov za privzeti razred.
Zdaj imate uravnotežen ciljni stolpec.
- Po čiščenju in obdelavi podatkov o izposoji ponovno ustvarite Poročilo o kakovosti in vpogledu v podatke za pregled izboljšav.
Opozorilo o visoki prioriteti je izginilo, kar kaže na izboljšano kakovost podatkov. Po potrebi lahko dodate dodatne transformacije za izboljšanje kakovosti podatkov za usposabljanje modela.
Povečajte in avtomatizirajte obdelavo podatkov
Za avtomatizacijo priprave podatkov lahko zaženete ali načrtujete celoten potek dela kot porazdeljeno opravilo obdelave Spark za obdelavo celotnega nabora podatkov ali katerega koli svežega nabora podatkov v velikem obsegu.
- Znotraj pretoka podatkov dodajte ciljno vozlišče Amazon S3.
- Zaženite opravilo SageMaker Processing tako, da izberete Ustvari službo.
- Konfigurirajte opravilo obdelave in izberite ustvarjanje, ki omogoča pretok na stotine GB podatkov brez vzorčenja.
Podatkovne tokove je mogoče vključiti v cevovode MLOps od konca do konca za avtomatizacijo življenjskega cikla ML. Podatkovni tokovi se lahko vnesejo v prenosne računalnike SageMaker Studio kot korak obdelave podatkov v cevovodu SageMaker ali za uvajanje cevovoda sklepanja SageMaker. To omogoča avtomatizacijo pretoka od priprave podatkov do usposabljanja in gostovanja SageMaker.
Zgradite in razmestite model v SageMaker Canvas
Po pripravi podatkov lahko brezhibno izvozimo končni nabor podatkov v SageMaker Canvas, da zgradimo, usposobimo in uvedemo model predvidevanja plačil posojila.
- Izberite Ustvari model v zadnjem vozlišču toka podatkov ali v podoknu vozlišč.
To izvozi nabor podatkov in zažene potek vodenega ustvarjanja modela.
- Poimenujte izvoženi nabor podatkov in izberite izvoz.
- Izberite Ustvari model iz obvestila.
- Poimenujte model, izberite Napovedna analiza, in izberite ustvarjanje.
To vas bo preusmerilo na stran za izdelavo modela.
- Nadaljujte z izkušnjo gradnje modela SageMaker Canvas tako, da izberete ciljni stolpec in vrsto modela, nato pa izberete Hitra izdelava or Standardna izdelava.
Če želite izvedeti več o izkušnji izdelave modela, glejte Zgradite model.
Ko je usposabljanje končano, lahko uporabite model za predvidevanje novih podatkov ali njihovo uvajanje. Nanašati se na Namestitev modelov ML, zgrajenih v Amazon SageMaker Canvas, na končne točke Amazon SageMaker v realnem času če želite izvedeti več o uvajanju modela iz SageMaker Canvas.
zaključek
V tej objavi smo prikazali zmogljivosti SageMaker Canvas od konca do konca, tako da smo prevzeli vlogo strokovnjaka za finančne podatke, ki pripravlja podatke za napovedovanje plačila posojila, ki ga poganja SageMaker Data Wrangler. Interaktivna priprava podatkov je omogočila hitro čiščenje, preoblikovanje in analizo podatkov o posojilu za inženirske informativne funkcije. Z odstranitvijo zapletenosti kodiranja nam je SageMaker Canvas omogočil hitro ponavljanje za ustvarjanje visokokakovostnega nabora podatkov za usposabljanje. Ta pospešeni potek dela vodi neposredno v gradnjo, usposabljanje in uvajanje zmogljivega modela ML za poslovni učinek. S celovito pripravo podatkov in enotno izkušnjo od podatkov do vpogledov vam SageMaker Canvas omogoča izboljšanje rezultatov ML. Za več informacij o tem, kako pospešiti svoja potovanja od podatkov do poslovnih vpogledov, glejte Dan potopitve v SageMaker Canvas in Uporabniški priročnik AWS.
O avtorjih
Dr Changsha Ma je strokovnjak za AI/ML pri AWS. Je tehnologinja z doktoratom iz računalništva, magisterijem iz psihologije izobraževanja in dolgoletnimi izkušnjami na področju podatkovne znanosti in neodvisnega svetovanja na področju AI/ML. Navdušena je nad raziskovanjem metodoloških pristopov za strojno in človeško inteligenco. Zunaj službe obožuje pohodništvo, kuhanje, lovsko hrano ter preživlja čas s prijatelji in družino.
Ajjay Govindaram je višji arhitekt rešitev pri AWS. Dela s strateškimi strankami, ki uporabljajo AI/ML za reševanje kompleksnih poslovnih problemov. Njegove izkušnje so pri zagotavljanju tehničnega vodenja in pomoči pri oblikovanju za skromne do obsežne uvedbe aplikacij AI/ML. Njegovo znanje sega od arhitekture aplikacij do velikih podatkov, analitike in strojnega učenja. Uživa v poslušanju glasbe med počitkom, doživetjih na prostem in preživljanju časa s svojimi najdražjimi.
Huong Nguyen je višji produktni vodja pri AWS. Vodi pripravo podatkov ML za SageMaker Canvas in SageMaker Data Wrangler s 15-letnimi izkušnjami pri izdelavi izdelkov, osredotočenih na stranke in na podlagi podatkov.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :ima
- : je
- $GOR
- 100
- 12
- 13
- 14
- 15 let
- 15%
- 300
- 50
- 8
- a
- Sposobna
- O meni
- pospeši
- pospešeno
- Račun
- dejavnosti
- dodajte
- agregat
- AI / ML
- dovoljene
- omogoča
- skupaj
- že
- Prav tako
- Amazon
- Amazon SageMaker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analize
- Analiza
- analitika
- analiziranje
- in
- kaj
- zdi
- uporaba
- pristopi
- Arhitektura
- SE
- AS
- pomoč
- At
- preverjanje pristnosti
- Preverjanje pristnosti
- avtomatizirati
- avtomatizacija
- AWS
- nazaj
- Ravnovesje
- Uravnotežen
- BE
- Big
- Big Podatki
- krepko
- Posojilojemalec
- tako
- izgradnjo
- Building
- zgrajena
- vgrajeno
- poslovni
- poslovni učinek
- by
- CAN
- Lahko dobiš
- platno
- Zmogljivosti
- zmožnost
- primeru
- zaračuna
- Izberite
- izbiri
- razred
- razredi
- čiščenje
- čiščenje
- klik
- Koda
- Kodiranje
- Stolpec
- podjetje
- dokončanje
- kompleksna
- zapletenosti
- celovito
- računalnik
- Računalništvo
- Connect
- povezava
- svetovanje
- pogovorni
- kuhanje
- Korelacija
- pokrov
- ustvarjajo
- Oblikovanje
- Mandatno
- kredit
- ključnega pomena
- Trenutna
- Stranke, ki so
- datum
- Analiza podatkov
- Priprava podatkov
- obdelava podatkov
- kakovosti podatkov
- znanost o podatkih
- Podatkov usmerjenih
- nabor podatkov
- privzeto
- Stopnja
- Dokazano
- razporedi
- uvajanja
- razmestitve
- Opisuje
- Oblikovanje
- destinacija
- podrobno
- smer
- neposredno
- odkriti
- porazdeljena
- navzdol
- prenesi
- Drop
- Spuščanje
- enostavno
- Izobraževanje
- učinkovitost
- pooblašča
- omogočajo
- omogočena
- omogoča
- omogočanje
- konec koncev
- inženir
- Angleščina
- okrepi
- zagotovitev
- Vnesite
- Celotna
- okolje
- Eter (ETH)
- Primer
- pričakovati
- izkušnje
- doživlja
- raziskuje
- izvoz
- Izvoz
- družine
- hitreje
- Feature
- Lastnosti
- končna
- finančna
- finančnih podatkov
- finančne storitve
- podjetje za finančne storitve
- Pretok
- Tokovi
- sledi
- po
- hrana
- za
- Temelji
- sveže
- prijatelji
- iz
- v celoti
- funkcija
- nadalje
- ustvarjajo
- ustvarila
- ustvarja
- dobili
- Daj
- voden
- Imajo
- he
- visoka
- visoka kvaliteta
- pohodništvo
- njegov
- gostovanje
- Kako
- Kako
- HTML
- http
- HTTPS
- človeškega
- človeško inteligenco
- Stotine
- Lov
- ID
- if
- neuravnotežen
- potopitev
- vpliv
- izvajali
- uvoz
- Pomembnost
- uvoz
- izboljšanje
- izboljšalo
- Izboljšave
- in
- Vključena
- Neodvisni
- označuje
- Podatki
- informativni
- vpogled
- vpogledi
- Navodila
- integracija
- Intelligence
- interakcije
- interaktivno
- vmesnik
- v
- intuitivno
- vključuje
- Vprašanja
- IT
- ITS
- Job
- pridružite
- Potovanja
- jpg
- Ključne
- znanje
- jezik
- obsežne
- Zadnja
- izstrelki
- vodi
- Interesenti
- UČITE
- učenje
- pustite
- levo
- Stopnja
- Leži
- življenski krog
- kot
- Seznam
- Poslušanje
- posojila
- Posojila
- lokalna
- prijavi
- prijava
- Poglej
- izgleda kot
- ljubil
- ljubi
- nizka
- stroj
- strojno učenje
- Znamka
- upravitelj
- upravljanje
- znamka
- poveljnika
- Spoji
- Metoda
- Metode
- Manjšina
- ML
- MLOps
- Model
- modeli
- skromen
- več
- Glasba
- Ime
- naravna
- Naravni jezik
- Nimate
- potrebna
- Novo
- nova funkcija
- Naslednja
- Vozel
- vozlišča
- zvezki
- Obvestilo
- zdaj
- oauth
- of
- off
- pogosto
- OKTA
- on
- ONE
- tiste
- Možnost
- or
- naši
- rezultatov
- na prostem
- zunaj
- več
- Stran
- podokno
- strastno
- Plačilo
- performance
- Dr.
- stavki
- plinovod
- Plain
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Prispevek
- poganja
- napovedati
- napoved
- Napovedi
- Priprava
- Pripravimo
- priprava
- predpogoji
- prednostna naloga
- problem
- Težave
- Postopek
- obravnavati
- Izdelek
- produktni vodja
- Izdelki
- strokovni
- zagotavlja
- zagotavljanje
- Psihologija
- kakovost
- hitro
- hitro
- v realnem času
- Rdeča
- preusmeriti
- glejte
- odstranjevanje
- poročilo
- zahteva
- počiva
- pregleda
- Pravica
- Tveganje
- vloga
- Run
- deluje
- sagemaker
- Sklep SageMaker
- prodajni center
- Enako
- Lestvica
- urnik
- Znanost
- Zaslon
- brez težav
- Iskalnik
- glej
- izberite
- višji
- Storitve
- storitveno podjetje
- nastavitev
- je
- shouldnt
- strani
- Enostavno
- rešitve
- SOLVE
- Viri
- Spark
- specialist
- Poraba
- Statistika
- Korak
- Koraki
- shranjevanje
- Strateško
- studio
- uspešno
- taka
- Podpira
- Preverite
- Simbol
- sintetična
- sintetični podatki
- ob
- ciljna
- Naloge
- tehnični
- tehnolog
- da
- O
- Njih
- POTEM
- ta
- skozi
- čas
- zamudno
- do
- Vlak
- usposabljanje
- Transform
- transformacije
- preoblikovanje
- transformacije
- dva
- tip
- razumeli
- razume
- poenoteno
- us
- uporaba
- primeru uporabe
- uporabnik
- uporabo
- zelo
- vizualna
- sprehod
- walkthrough
- opozorilo
- we
- web
- spletne storitve
- Dobro
- ali
- ki
- medtem
- WHO
- celoti
- bo
- z
- brez
- delo
- potek dela
- deluje
- Delavnice
- bi
- let
- še
- jo
- Vaša rutina za
- zefirnet