Dataforberedelse er et avgjørende skritt i enhver maskinlæring (ML) arbeidsflyt, men det involverer ofte kjedelige og tidkrevende oppgaver. Amazon SageMaker Canvas støtter nå omfattende dataforberedelsesfunksjoner drevet av Amazon SageMaker Data Wrangler. Med denne integrasjonen gir SageMaker Canvas kundene et ende-til-ende arbeidsområde uten kode for å forberede data, bygge og bruke ML- og fundamentmodeller for å akselerere tiden fra data til forretningsinnsikt. Du kan nå enkelt oppdage og samle data fra over 50 datakilder, og utforske og forberede data ved å bruke over 300 innebygde analyser og transformasjoner i SageMaker Canvas sitt visuelle grensesnitt. Du vil også se raskere ytelse for transformasjoner og analyser, og et naturlig språkgrensesnitt for å utforske og transformere data for ML.
I dette innlegget leder vi deg gjennom prosessen for å forberede data for ende-til-ende modellbygging i SageMaker Canvas.
Løsningsoversikt
For vår brukstilfelle påtar vi oss rollen som dataekspert i et finansselskap. Vi bruker to eksempeldatasett for å bygge en ML-modell som forutsier om et lån vil bli tilbakebetalt fullt ut av låntakeren, noe som er avgjørende for å håndtere kredittrisiko. Det kodefrie miljøet til SageMaker Canvas lar oss raskt forberede dataene, konstruere funksjoner, trene en ML-modell og distribuere modellen i en ende-til-ende arbeidsflyt, uten behov for koding.
Forutsetninger
For å følge med på denne gjennomgangen, sørg for at du har implementert forutsetningene som beskrevet i
- Start Amazon SageMaker Canvas. Hvis du allerede er SageMaker Canvas-bruker, sørg for at du logge ut og logg på igjen for å kunne bruke denne nye funksjonen.
- For å importere data fra Snowflake, følg trinnene fra Konfigurer OAuth for Snowflake.
Forbered interaktive data
Når oppsettet er fullført, kan vi nå opprette en dataflyt for å muliggjøre interaktiv dataforberedelse. Dataflyten gir innebygde transformasjoner og sanntidsvisualiseringer for å krangle dataene. Fullfør følgende trinn:
- Opprett en ny dataflyt ved å bruke en av følgende metoder:
- Velg Data Wrangler, Dataflyter, velg deretter Opprett.
- Velg SageMaker Canvas-datasettet og velg Lag en dataflyt.
- Velg Import datoer og velg tabell fra rullegardinlisten.
- Du kan importere data direkte gjennom over 50 datakoblinger som f.eks Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShift, Snowflake og Salesforce. I denne gjennomgangen vil vi dekke import av data direkte fra Snowflake.
Alternativt kan du laste opp det samme datasettet fra din lokale maskin. Du kan laste ned datasettet lån-del-1.csv og lån-del-2.csv.
- Fra siden Importer data velger du Snowflake fra listen og velger Legg til tilkobling.
- Skriv inn et navn for tilkoblingen, velg OAuth alternativet fra rullegardinlisten for autentiseringsmetode. Skriv inn din okta-konto-ID og velg Legg til tilkobling.
- Du vil bli omdirigert til Okta-påloggingsskjermen for å angi Okta-legitimasjon for å autentisere. Ved vellykket autentisering vil du bli omdirigert til dataflytsiden.
- Bla gjennom for å finne lånedatasettet fra Snowflake-databasen
Velg de to lånedatasettene ved å dra og slippe dem fra venstre side av skjermen til høyre. De to datasettene kobles sammen, og et sammenføyningssymbol med et rødt utropstegn vises. Klikk på den, og velg deretter for begge datasettene id nøkkel. La sammenføyningstypen være som Indre. Det skal se slik ut:
- Velg Lagre og lukk.
- Velg Lag datasett. Gi et navn til datasettet.
- Naviger til dataflyt, du vil se følgende.
- For raskt å utforske lånedataene, velg Få datainnsikt og velg
loan_status
målkolonne og Klassifisering problemtype.
Den genererte Rapport om datakvalitet og innsikt gir nøkkelstatistikk, visualiseringer og viktighetsanalyser av funksjoner.
- Gjennomgå advarslene om datakvalitetsproblemer og ubalanserte klasser for å forstå og forbedre datasettet.
For datasettet i denne brukstilfellet bør du forvente en "Veldig lav hurtigmodellscore" høy prioritet advarsel, og svært lav modelleffektivitet på minoritetsklasser (ladet av og strøm), noe som indikerer behovet for å rydde opp og balansere dataene. Referere til Lerretsdokumentasjon for å finne ut mer om datainnsiktsrapporten.
Med over 300 innebygde transformasjoner drevet av SageMaker Data Wrangler, gir SageMaker Canvas deg mulighet til raskt å krangle om lånedata. Du kan klikke på Legg til trinn, og bla gjennom eller søk etter de riktige transformasjonene. For dette datasettet, bruk Dråpen mangler og Håndter avvikere for å rense data, og bruk deretter One-hot encode, og Vektoriser tekst å lage funksjoner for ML.
Chat for dataforberedelse er en ny naturlig språkfunksjon som muliggjør intuitiv dataanalyse ved å beskrive forespørsler på vanlig engelsk. For eksempel kan du få statistikk og funksjonskorrelasjonsanalyse på lånedataene ved å bruke naturlige fraser. SageMaker Canvas forstår og kjører handlingene gjennom samtaleinteraksjoner, og tar dataforberedelse til neste nivå.
Vi kan bruke Chat for dataforberedelse og innebygd transformasjon for å balansere lånedataene.
- Skriv først inn følgende instruksjoner:
replace “charged off” and “current” in loan_status with “default”
Chat for dataforberedelse genererer kode for å slå sammen to minoritetsklasser til én default
klasse.
- Velg den innebygde SMOTE transformeringsfunksjon for å generere syntetiske data for standardklassen.
Nå har du en balansert målkolonne.
- Etter å ha renset og behandlet lånedataene, regenerer Rapport om datakvalitet og innsikt å vurdere forbedringer.
Advarselen med høy prioritet har forsvunnet, noe som indikerer forbedret datakvalitet. Du kan legge til ytterligere transformasjoner etter behov for å forbedre datakvaliteten for modelltrening.
Skaler og automatiser databehandling
For å automatisere dataforberedelse kan du kjøre eller planlegge hele arbeidsflyten som en distribuert Spark-behandlingsjobb for å behandle hele datasettet eller nye datasett i skala.
- Innenfor dataflyten legger du til en Amazon S3-destinasjonsnode.
- Start en SageMaker Processing-jobb ved å velge Lag jobb.
- Konfigurer behandlingsjobben og velg Opprett, slik at flyten kan kjøre på hundrevis av GB med data uten sampling.
Datastrømmene kan inkorporeres i ende-til-ende MLOps-rørledninger for å automatisere ML-livssyklusen. Dataflyter kan føres inn i SageMaker Studio-notatbøker som databehandlingstrinnet i en SageMaker-pipeline, eller for å distribuere en SageMaker-inferenspipeline. Dette gjør det mulig å automatisere flyten fra dataforberedelse til SageMaker-opplæring og hosting.
Bygg og distribuer modellen i SageMaker Canvas
Etter dataforberedelse kan vi sømløst eksportere det endelige datasettet til SageMaker Canvas for å bygge, trene og distribuere en lånebetalingsprediksjonsmodell.
- Velg Lag modell i dataflytens siste node eller i noderuten.
Dette eksporterer datasettet og starter arbeidsflyten for veiledet modelloppretting.
- Gi det eksporterte datasettet et navn og velg Eksport.
- Velg Lag modell fra varselet.
- Gi modellen et navn, velg Prediktiv analyse, og velg Opprett.
Dette vil omdirigere deg til modellbyggingssiden.
- Fortsett med SageMaker Canvas modellbyggingsopplevelse ved å velge målkolonne og modelltype, og velg deretter Rask bygging or Standard konstruksjon.
For å lære mer om modellbyggingsopplevelsen, se Bygg en modell.
Når opplæringen er fullført, kan du bruke modellen til å forutsi nye data eller distribuere dem. Referere til Distribuer ML-modeller bygget i Amazon SageMaker Canvas til Amazon SageMaker sanntidsendepunkter for å lære mer om distribusjon av en modell fra SageMaker Canvas.
konklusjonen
I dette innlegget demonstrerte vi ende-til-ende-funksjonene til SageMaker Canvas ved å påta oss rollen som en finansiell dataekspert som forbereder data for å forutsi lånebetaling, drevet av SageMaker Data Wrangler. Den interaktive dataforberedelsen gjorde det mulig å raskt rense, transformere og analysere lånedataene for å utvikle informative funksjoner. Ved å fjerne kodingskompleksiteter tillot SageMaker Canvas oss å raskt iterere for å lage et opplæringsdatasett av høy kvalitet. Denne akselererte arbeidsflyten fører direkte til bygging, opplæring og implementering av en effektiv ML-modell for forretningseffekt. Med sin omfattende dataforberedelse og enhetlige erfaring fra data til innsikt, gir SageMaker Canvas deg mulighet til å forbedre ML-resultatene dine. For mer informasjon om hvordan du akselererer reisene dine fra data til forretningsinnsikt, se SageMaker Canvas fordypningsdag og AWS brukerveiledning.
Om forfatterne
Dr. Changsha Ma er AI/ML-spesialist hos AWS. Hun er teknolog med doktorgrad i informatikk, mastergrad i utdanningspsykologi, og mange års erfaring innen datavitenskap og uavhengig rådgivning innen AI/ML. Hun brenner for å forske på metodiske tilnærminger for maskin- og menneskelig intelligens. Utenom jobben elsker hun å gå tur, lage mat, jakte på mat og tilbringe tid med venner og familie.
Ajjay Govindaram er Senior Solutions Architect hos AWS. Han jobber med strategiske kunder som bruker AI/ML for å løse komplekse forretningsproblemer. Hans erfaring ligger i å gi teknisk veiledning samt designassistanse for beskjedne til storskala AI/ML-applikasjoner. Kunnskapen hans spenner fra applikasjonsarkitektur til big data, analyser og maskinlæring. Han liker å lytte til musikk mens han hviler, opplever utendørs og tilbringe tid med sine kjære.
Huong Nguyen er Sr. Product Manager hos AWS. Hun leder ML-dataforberedelsen for SageMaker Canvas og SageMaker Data Wrangler, med 15 års erfaring med å bygge kundesentrerte og datadrevne produkter.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- : har
- :er
- $OPP
- 100
- 12
- 13
- 14
- 15 år
- 15%
- 300
- 50
- 8
- a
- I stand
- Om oss
- akselerere
- akselerert
- Logg inn
- handlinger
- legge til
- aggregat
- AI / ML
- tillatt
- tillater
- langs
- allerede
- også
- Amazon
- Amazon SageMaker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analyser
- analyse
- analytics
- analyserer
- og
- noen
- vises
- Søknad
- tilnærminger
- arkitektur
- ER
- AS
- Assistanse
- At
- godkjenne
- Autentisering
- automatisere
- Automatisere
- AWS
- tilbake
- Balansere
- Balansert
- BE
- Stor
- Store data
- pin
- låner
- både
- bygge
- Bygning
- bygget
- innebygd
- virksomhet
- Forretningsmessig påvirkning
- by
- CAN
- Kan få
- lerret
- evner
- evne
- saken
- ladet
- Velg
- velge
- klasse
- klasser
- ren
- Rengjøring
- klikk
- kode
- Koding
- Kolonne
- Selskapet
- fullføre
- komplekse
- kompleksiteten
- omfattende
- datamaskin
- informatikk
- Koble
- tilkobling
- konsulent
- conversational
- matlaging
- Korrelasjon
- dekke
- skape
- skaperverket
- Credentials
- kreditt
- avgjørende
- Gjeldende
- Kunder
- dato
- dataanalyse
- Dataklargjøring
- databehandling
- datakvalitet
- datavitenskap
- data-drevet
- datasett
- Misligholde
- Grad
- demonstrert
- utplassere
- utplasserings
- distribusjoner
- beskrive
- utforming
- destinasjonen
- detaljert
- retning
- direkte
- oppdage
- distribueres
- ned
- nedlasting
- Drop
- slippe
- lett
- Kunnskap
- effekten
- bemyndiger
- muliggjøre
- aktivert
- muliggjør
- muliggjør
- ende til ende
- ingeniør
- Engelsk
- forbedre
- sikre
- Enter
- Hele
- Miljø
- Eter (ETH)
- eksempel
- forvente
- erfaring
- opplever
- utforske
- eksportere
- eksporten
- familier
- raskere
- Trekk
- Egenskaper
- slutt~~POS=TRUNC
- finansiell
- Økonomiske data
- finansielle tjenester
- finansielle tjenester selskap
- flyten
- Flows
- følge
- etter
- mat
- Til
- Foundations
- fersk
- venner
- fra
- fullt
- funksjon
- videre
- generere
- generert
- genererer
- få
- Gi
- guidet
- Ha
- he
- Høy
- høykvalitets
- vandreturer
- hans
- Hosting
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- menneskelig
- menneskelig intelligens
- Hundrevis
- Jakt
- ID
- if
- ubalansert
- nedsenking
- Påvirkning
- implementert
- importere
- betydning
- importere
- forbedre
- forbedret
- forbedringer
- in
- Incorporated
- uavhengig
- indikerer
- informasjon
- informative
- innsikt
- innsikt
- instruksjoner
- integrering
- Intelligens
- interaksjoner
- interaktiv
- Interface
- inn
- intuitiv
- innebærer
- saker
- IT
- DET ER
- Jobb
- bli medlem
- Journeys
- jpg
- nøkkel
- kunnskap
- Språk
- storskala
- Siste
- lanseringer
- ledende
- Fører
- LÆRE
- læring
- Permisjon
- venstre
- Nivå
- ligger
- Livssyklus
- i likhet med
- Liste
- Lytting
- lån
- Lån
- lokal
- logg
- Logg inn
- Se
- ser ut som
- elsket
- elsker
- Lav
- maskin
- maskinlæring
- gjøre
- leder
- administrerende
- merke
- mestere
- Flett
- metode
- metoder
- minoritet
- ML
- MLOps
- modell
- modeller
- beskjeden
- mer
- musikk
- navn
- Naturlig
- Naturlig språk
- Trenger
- nødvendig
- Ny
- ny funksjon
- neste
- node
- noder
- notatbøker
- varsling
- nå
- oauth
- of
- off
- ofte
- OKTA
- on
- ONE
- seg
- Alternativ
- or
- vår
- utfall
- utendørs
- utenfor
- enn
- side
- brød
- lidenskapelig
- betaling
- ytelse
- phd
- setninger
- rørledning
- Plain
- plato
- Platon Data Intelligence
- PlatonData
- Post
- powered
- forutsi
- prediksjon
- spår
- forberedelse
- Forbered
- forbereder
- forutsetninger
- prioritet
- Problem
- problemer
- prosess
- prosessering
- Produkt
- Produktsjef
- Produkter
- profesjonell
- gir
- gi
- Psykologi
- kvalitet
- raskt
- raskt
- sanntids
- Rød
- omdirigere
- referere
- fjerne
- rapporterer
- forespørsler
- hvile
- anmeldelse
- ikke sant
- Risiko
- Rolle
- Kjør
- går
- sagemaker
- SageMaker Inference
- Salesforce
- samme
- Skala
- planlegge
- Vitenskap
- Skjerm
- sømløst
- Søk
- se
- velg
- senior
- Tjenester
- tjenester selskap
- oppsett
- hun
- bør
- side
- Enkelt
- Solutions
- LØSE
- Kilder
- Spark
- spesialist
- utgifter
- statistikk
- Trinn
- Steps
- lagring
- Strategisk
- studio
- vellykket
- slik
- Støtter
- sikker
- symbol
- syntetisk
- syntetiske data
- ta
- Target
- oppgaver
- Teknisk
- teknolog
- Det
- De
- Dem
- deretter
- denne
- Gjennom
- tid
- tidkrevende
- til
- Tog
- Kurs
- Transform
- transformasjoner
- transformere
- transforme
- to
- typen
- forstå
- forstår
- enhetlig
- us
- bruke
- bruk sak
- Bruker
- ved hjelp av
- veldig
- visuell
- gå
- walkthrough
- advarsel
- we
- web
- webtjenester
- VI VIL
- om
- hvilken
- mens
- HVEM
- hele
- vil
- med
- uten
- Arbeid
- arbeidsflyt
- virker
- Verksteder
- ville
- år
- ennå
- du
- Din
- zephyrnet