Dataförberedelse är ett avgörande steg i alla arbetsflöden för maskininlärning (ML), men det innebär ofta tråkiga och tidskrävande uppgifter. Amazon SageMaker Canvas stöder nu omfattande databeredningsfunktioner som drivs av Amazon SageMaker Data Wrangler. Med denna integrering ger SageMaker Canvas kunderna en end-to-end-arbetsyta utan kod för att förbereda data, bygga och använda ML- och grundmodeller för att påskynda tiden från data till affärsinsikter. Du kan nu enkelt upptäcka och aggregera data från över 50 datakällor och utforska och förbereda data med hjälp av över 300 inbyggda analyser och transformationer i SageMaker Canvas visuella gränssnitt. Du kommer också att se snabbare prestanda för transformationer och analyser, och ett naturligt språkgränssnitt för att utforska och transformera data för ML.
I det här inlägget går vi igenom processen för att förbereda data för end-to-end modellbygge i SageMaker Canvas.
Lösningsöversikt
För vårt användningsfall antar vi rollen som dataprofessionell på ett finansiellt tjänsteföretag. Vi använder två exempeldataset för att bygga en ML-modell som förutsäger om ett lån kommer att återbetalas fullt ut av låntagaren, vilket är avgörande för att hantera kreditrisk. Den kodfria miljön i SageMaker Canvas tillåter oss att snabbt förbereda data, konstruera funktioner, träna en ML-modell och distribuera modellen i ett end-to-end-arbetsflöde, utan att behöva koda.
Förutsättningar
För att följa med den här genomgången, se till att du har implementerat förutsättningarna som beskrivs i
- Starta Amazon SageMaker Canvas. Om du redan är SageMaker Canvas-användare, se till att du logga ut och logga in igen för att kunna använda den här nya funktionen.
- För att importera data från Snowflake, följ stegen från Konfigurera OAuth för Snowflake.
Förbered interaktiv data
När installationen är klar kan vi nu skapa ett dataflöde för att möjliggöra interaktiv dataförberedelse. Dataflödet ger inbyggda transformationer och realtidsvisualiseringar för att bråka om data. Slutför följande steg:
- Skapa ett nytt dataflöde med någon av följande metoder:
- Välja Data Wrangler, DataflödenOch välj sedan Skapa.
- Välj SageMaker Canvas dataset och välj Skapa ett dataflöde.
- Välja Importera datum och välj Tabellformat från rullgardinsmenyn.
- Du kan importera data direkt genom över 50 dataanslutningar som t.ex Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShift, Snowflake och Salesforce. I den här genomgången kommer vi att täcka import av dina data direkt från Snowflake.
Alternativt kan du ladda upp samma datauppsättning från din lokala dator. Du kan ladda ner datasetet lån-del-1.csv och lån-del-2.csv.
- På sidan Importera data väljer du Snowflake från listan och väljer Lägg till anslutning.
- Ange ett namn för anslutningen, välj OAuth alternativet från rullgardinsmenyn för autentiseringsmetod. Ange ditt okta-konto-id och välj Lägg till anslutning.
- Du kommer att omdirigeras till Okta-inloggningsskärmen för att ange Okta-uppgifter för att autentisera. Efter lyckad autentisering omdirigeras du till dataflödessidan.
- Bläddra för att hitta lånedataset från Snowflake-databasen
Välj de två lånedatauppsättningarna genom att dra och släppa dem från vänster sida av skärmen till höger. De två datamängderna kommer att anslutas och en sammanfogningssymbol med ett rött utropstecken visas. Klicka på den och välj sedan för båda datamängderna id nyckel. Lämna anslutningstypen som Inre. Det ska se ut så här:
- Välja Spara & stäng.
- Välja Skapa datasätt. Ge datasetet ett namn.
- Navigera till dataflöde, du skulle se följande.
- För att snabbt utforska lånedata, välj Få datainsikter och välj
loan_status
målkolumn och Klassificering problemtyp.
Den genererade Rapport för datakvalitet och insikt tillhandahåller nyckelstatistik, visualiseringar och analyser av funktioners betydelse.
- Granska varningarna om datakvalitetsproblem och obalanserade klasser för att förstå och förbättra datasetet.
För datauppsättningen i detta användningsfall bör du förvänta dig en "Mycket lågt snabbmodellpoäng" hög prioritetsvarning och mycket låg modelleffektivitet på minoritetsklasser (avladdade och aktuella), vilket indikerar behovet av att rensa upp och balansera data. Hänvisa till Canvas dokumentation om du vill veta mer om rapporten datainsikter.
Med över 300 inbyggda transformationer som drivs av SageMaker Data Wrangler, ger SageMaker Canvas dig möjlighet att snabbt bråka om lånedata. Du kan klicka på Lägg till steg, och bläddra eller sök efter rätt transformationer. För denna datauppsättning, använd Droppe saknas och Hantera avvikelser för att rensa data, använd sedan One-hot encode, och Vektorisera text att skapa funktioner för ML.
Chatta för dataförberedelser är en ny naturlig språkfunktion som möjliggör intuitiv dataanalys genom att beskriva förfrågningar på vanlig engelska. Till exempel kan du få statistik och funktionskorrelationsanalys på lånedata med hjälp av naturliga fraser. SageMaker Canvas förstår och kör åtgärderna genom samtalsinteraktioner, vilket tar dataförberedelser till nästa nivå.
Vi kan använda Chatta för dataförberedelser och inbyggd transformation för att balansera lånedata.
- Ange först följande instruktioner:
replace “charged off” and “current” in loan_status with “default”
Chatta för dataförberedelser genererar kod för att slå samman två minoritetsklasser till en default
klass.
- Välj den inbyggda slog transformeringsfunktion för att generera syntetisk data för standardklassen.
Nu har du en balanserad målkolumn.
- Efter rengöring och bearbetning av lånedata, regenerera Rapport för datakvalitet och insikt att granska förbättringar.
Den högprioriterade varningen har försvunnit, vilket tyder på förbättrad datakvalitet. Du kan lägga till ytterligare transformationer efter behov för att förbättra datakvaliteten för modellträning.
Skala och automatisera databehandling
För att automatisera databeredningen kan du köra eller schemalägga hela arbetsflödet som ett distribuerat Spark-bearbetningsjobb för att bearbeta hela datamängden eller nya datamängder i skala.
- Lägg till en destinationsnod för Amazon S3 inom dataflödet.
- Starta ett SageMaker Processing-jobb genom att välja Skapa jobb.
- Konfigurera bearbetningsjobbet och välj Skapa, vilket gör att flödet kan köras på hundratals GB data utan sampling.
Dataflödena kan införlivas i end-to-end MLOps-pipelines för att automatisera ML-livscykeln. Dataflöden kan matas in i SageMaker Studio-anteckningsböcker som databearbetningssteget i en SageMaker-pipeline eller för att distribuera en SageMaker-inferenspipeline. Detta gör det möjligt att automatisera flödet från dataförberedelse till SageMaker-utbildning och hosting.
Bygg och distribuera modellen i SageMaker Canvas
Efter dataförberedelser kan vi sömlöst exportera den slutliga datamängden till SageMaker Canvas för att bygga, träna och distribuera en modell för förutsägelse av lånebetalningar.
- Välja Skapa modell i dataflödets sista nod eller i nodfönstret.
Detta exporterar datauppsättningen och startar det guidade arbetsflödet för skapande av modeller.
- Namnge den exporterade datamängden och välj Exportera.
- Välja Skapa modell från anmälan.
- Namnge modellen, välj Prediktiv analys, och välj Skapa.
Detta omdirigerar dig till sidan för modellbyggande.
- Fortsätt med SageMaker Canvas modellbyggeupplevelse genom att välja målkolumn och modelltyp och sedan välja Snabbbyggnad or Standardbyggd.
För att lära dig mer om modellbyggandet, se Bygg en modell.
När utbildningen är klar kan du använda modellen för att förutsäga ny data eller distribuera den. Hänvisa till Distribuera ML-modeller byggda i Amazon SageMaker Canvas till Amazon SageMaker-slutpunkter i realtid för att lära dig mer om hur du distribuerar en modell från SageMaker Canvas.
Slutsats
I det här inlägget demonstrerade vi SageMaker Canvas' end-to-end-funktioner genom att anta rollen som en finansiell dataprofessionell som förbereder data för att förutsäga lånebetalning, driven av SageMaker Data Wrangler. Den interaktiva dataförberedelsen möjliggjorde snabb rengöring, transformering och analys av lånedata för att utveckla informativa funktioner. Genom att ta bort kodningskomplexiteten tillät SageMaker Canvas oss att snabbt iterera för att skapa en utbildningsdatauppsättning av hög kvalitet. Detta accelererade arbetsflöde leder direkt till att bygga, utbilda och implementera en effektiv ML-modell för affärseffekt. Med sin omfattande dataförberedelse och enhetliga erfarenhet från data till insikter, ger SageMaker Canvas dig möjlighet att förbättra dina ML-resultat. För mer information om hur du accelererar dina resor från data till affärsinsikter, se SageMaker Canvas fördjupningsdag och AWS användarhandbok.
Om författarna
Dr. Changsha Ma är AI/ML-specialist på AWS. Hon är en teknolog med en doktorsexamen i datavetenskap, en magisterexamen i utbildningspsykologi och många års erfarenhet av datavetenskap och oberoende konsultverksamhet inom AI/ML. Hon brinner för att forska om metodologiska tillvägagångssätt för maskinell och mänsklig intelligens. Utanför jobbet älskar hon att vandra, laga mat, jaga mat och umgås med vänner och familjer.
Ajjay Govindaram är Senior Solutions Architect på AWS. Han arbetar med strategiska kunder som använder AI/ML för att lösa komplexa affärsproblem. Hans erfarenhet ligger i att tillhandahålla teknisk ledning samt designhjälp för blygsamma till storskaliga AI/ML-applikationer. Hans kunskap sträcker sig från applikationsarkitektur till big data, analys och maskininlärning. Han tycker om att lyssna på musik medan han vilar, uppleva utomhus och umgås med sina nära och kära.
Huong Nguyen är Sr. Product Manager på AWS. Hon leder ML-databeredningen för SageMaker Canvas och SageMaker Data Wrangler, med 15 års erfarenhet av att bygga kundcentrerade och datadrivna produkter.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- : har
- :är
- $UPP
- 100
- 12
- 13
- 14
- 15 år
- 15%
- 300
- 50
- 8
- a
- Able
- Om oss
- accelerera
- accelererad
- Konto
- åtgärder
- lägga till
- aggregat
- AI / ML
- tillåts
- tillåter
- längs
- redan
- också
- amason
- Amazon SageMaker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analyser
- analys
- analytics
- analys
- och
- vilken som helst
- visas
- Ansökan
- tillvägagångssätt
- arkitektur
- ÄR
- AS
- Bistånd
- At
- autentisera
- Autentisering
- automatisera
- automatisera
- AWS
- tillbaka
- Balansera
- Balanserad
- BE
- Stor
- Stora data
- nål
- låntagare
- båda
- SLUTRESULTAT
- Byggnad
- byggt
- inbyggd
- företag
- affärseffekter
- by
- KAN
- Kan få
- canvas
- kapacitet
- kapacitet
- Vid
- laddad
- Välja
- välja
- klass
- klasser
- rena
- Rengöring
- klick
- koda
- Kodning
- Kolumn
- företag
- fullborda
- komplex
- komplexiteter
- omfattande
- dator
- Datavetenskap
- Kontakta
- anslutning
- rådgivning
- konversera
- kokning
- Korrelation
- täcka
- skapa
- skapande
- referenser
- kredit
- avgörande
- Aktuella
- Kunder
- datum
- dataanalys
- Förberedelse av data
- databehandling
- Datakvalitet
- datavetenskap
- data driven
- datauppsättningar
- Standard
- Examen
- demonstreras
- distribuera
- utplacera
- distributioner
- beskriver
- Designa
- destination
- detaljerad
- riktning
- direkt
- Upptäck
- distribueras
- ner
- ladda ner
- Drop
- Drop
- lätt
- Utbildning
- effektivitet
- bemyndigar
- möjliggöra
- aktiverad
- möjliggör
- möjliggör
- början till slut
- ingenjör
- Engelska
- förbättra
- säkerställa
- ange
- Hela
- Miljö
- Eter (ETH)
- exempel
- förvänta
- erfarenhet
- upplever
- utforska
- export
- export
- familjer
- snabbare
- Leverans
- Funktioner
- slutlig
- finansiella
- finansiella data
- finansiella tjänster
- företag för finansiella tjänster
- flöda
- flöden
- följer
- efter
- livsmedelsproduktion
- För
- Stiftelser
- färsk
- vänner
- från
- fullständigt
- fungera
- ytterligare
- generera
- genereras
- genererar
- skaffa sig
- Ge
- guidad
- Har
- he
- Hög
- hög kvalitet
- vandring
- hans
- värd
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- humant
- mänsklig intelligens
- Hundratals
- Jakt
- ID
- if
- obalanserad
- nedsänkning
- Inverkan
- genomföras
- importera
- vikt
- importera
- förbättra
- förbättras
- förbättringar
- in
- Inkorporerad
- oberoende
- indikerar
- informationen
- informativ
- insikt
- insikter
- instruktioner
- integrering
- Intelligens
- interaktioner
- interaktiva
- Gränssnitt
- in
- intuitiv
- innebär
- problem
- IT
- DESS
- Jobb
- delta
- Journeys
- jpg
- Nyckel
- kunskap
- språk
- storskalig
- Efternamn
- lanserar
- ledande
- Leads
- LÄRA SIG
- inlärning
- Lämna
- vänster
- Nivå
- ligger
- livscykel
- tycka om
- Lista
- Lyssna
- lån
- Lån
- lokal
- log
- logga in
- se
- ser ut som
- älskade
- älskar
- Låg
- Maskinen
- maskininlärning
- göra
- chef
- hantera
- markera
- master
- Sammanfoga
- metod
- metoder
- minoritet
- ML
- MLOps
- modell
- modeller
- blygsam
- mer
- Musik
- namn
- Natural
- Naturligt språk
- Behöver
- behövs
- Nya
- ny funktion
- Nästa
- nod
- noder
- bärbara datorer
- anmälan
- nu
- oauth
- of
- sänkt
- Ofta
- OKTA
- on
- ONE
- ettor
- Alternativet
- or
- vår
- utfall
- utomhus
- utanför
- över
- sida
- panelen
- brinner
- betalning
- prestanda
- phd
- fraser
- rörledning
- Enkel
- plato
- Platon Data Intelligence
- PlatonData
- Inlägg
- drivs
- förutse
- förutsägelse
- Förutspår
- beredning
- Förbered
- förbereda
- förutsättningar
- prioritet
- Problem
- problem
- process
- bearbetning
- Produkt
- produktchef
- Produkter
- professionell
- ger
- tillhandahålla
- Psykologi
- kvalitet
- snabbt
- snabbt
- realtid
- Red
- dirigera om
- hänvisa
- bort
- rapport
- förfrågningar
- vilar
- översyn
- höger
- Risk
- Roll
- Körning
- kör
- sagemaker
- SageMaker Inference
- Salesforce
- Samma
- Skala
- tidtabellen
- Vetenskap
- screen
- sömlöst
- Sök
- se
- välj
- senior
- Tjänster
- tjänsteföretag
- inställning
- hon
- skall
- sida
- Enkelt
- Lösningar
- LÖSA
- Källor
- Gnista
- specialist
- Spendera
- statistik
- Steg
- Steg
- förvaring
- Strategisk
- studio
- framgångsrik
- sådana
- Stöder
- säker
- Symbolen
- syntetisk
- syntetiska data
- tar
- Målet
- uppgifter
- Teknisk
- teknolog
- den där
- Smakämnen
- Dem
- sedan
- detta
- Genom
- tid
- tidskrävande
- till
- Tåg
- Utbildning
- Förvandla
- transformationer
- omvandla
- transformer
- två
- Typ
- förstå
- förstår
- enhetlig
- us
- användning
- användningsfall
- Användare
- med hjälp av
- mycket
- visuell
- gå
- genomgång
- varning
- we
- webb
- webbservice
- VÄL
- om
- som
- medan
- VEM
- Hela
- kommer
- med
- utan
- Arbete
- arbetsflöde
- fungerar
- Workshops
- skulle
- år
- ännu
- dig
- Din
- zephyrnet