Pregătirea datelor este un pas crucial în orice flux de lucru de învățare automată (ML), dar adesea implică sarcini obositoare și consumatoare de timp. Amazon SageMaker Canvas acum acceptă capabilități complete de pregătire a datelor, alimentate de Amazon SageMaker Data Wrangler. Cu această integrare, SageMaker Canvas oferă clienților un spațiu de lucru fără cod de la capăt la capăt pentru a pregăti datele, a construi și a utiliza modele ML și fundamente pentru a accelera timpul de la date la informații despre afaceri. Acum puteți descoperi și agrega cu ușurință date din peste 50 de surse de date și puteți explora și pregăti date folosind peste 300 de analize și transformări încorporate în interfața vizuală a SageMaker Canvas. Veți vedea, de asemenea, performanțe mai rapide pentru transformări și analize și o interfață în limbaj natural pentru a explora și transforma datele pentru ML.
În această postare, vă prezentăm procesul de pregătire a datelor pentru construirea de modele end-to-end în SageMaker Canvas.
Prezentare generală a soluțiilor
Pentru cazul nostru de utilizare, ne asumăm rolul unui profesionist de date la o companie de servicii financiare. Folosim două seturi de date eșantion pentru a construi un model ML care prezice dacă un împrumut va fi rambursat integral de către împrumutat, ceea ce este crucial pentru gestionarea riscului de credit. Mediul fără cod al SageMaker Canvas ne permite să pregătim rapid datele, să proiectăm funcții, să antrenăm un model ML și să implementăm modelul într-un flux de lucru end-to-end, fără a fi nevoie de codare.
Cerințe preliminare
Pentru a urma această explicație, asigurați-vă că ați implementat cerințele prealabile, așa cum sunt detaliate în
- Lansați Amazon SageMaker Canvas. Dacă sunteți deja utilizator SageMaker Canvas, asigurați-vă că sunteți ieșiți și reconectați-vă pentru a putea folosi această nouă funcție.
- Pentru a importa date din Snowflake, urmați pașii de la Configurați OAuth pentru Snowflake.
Pregătiți date interactive
Odată finalizată configurarea, acum putem crea un flux de date pentru a permite pregătirea interactivă a datelor. Fluxul de date oferă transformări încorporate și vizualizări în timp real pentru a discuta datele. Parcurgeți următorii pași:
- Creați un nou flux de date utilizând una dintre următoarele metode:
- Alege Data Wrangler, Fluxuri de date, Apoi alegeți Crea.
- Selectați setul de date SageMaker Canvas și alegeți Creați un flux de date.
- Alege Date de import și selectați tabular din lista drop-down.
- Puteți importa date direct prin peste 50 de conectori de date, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, Snowflake și Salesforce. În această prezentare, vom aborda importarea datelor dvs. direct din Snowflake.
Alternativ, puteți încărca același set de date de pe mașina dvs. locală. Puteți descărca setul de date împrumuturi-partea-1.csv și împrumuturi-partea-2.csv.
- Din pagina Import date, selectați Snowflake din listă și alegeți Adăugați conexiune.
- Introduceți un nume pentru conexiune, alegeți OAuth opțiunea din lista derulantă a metodelor de autentificare. Introduceți ID-ul contului okta și alegeți Adăugați conexiune.
- Veți fi redirecționat către ecranul de conectare Okta pentru a introduce acreditările Okta pentru a vă autentifica. La autentificarea cu succes, veți fi redirecționat către pagina fluxului de date.
- Răsfoiți pentru a găsi setul de date de împrumut din baza de date Snowflake
Selectați cele două seturi de date de împrumuturi trăgându-le și plasându-le din partea stângă a ecranului la dreapta. Cele două seturi de date se vor conecta și va apărea un simbol de unire cu un semn de exclamare roșu. Faceți clic pe el, apoi selectați pentru ambele seturi de date id cheie. Lăsați tipul de unire ca Interior. Ar trebui să arate așa:
- Alege Salvați și închideți.
- Alege Creați set de date. Dați un nume setului de date.
- Navigați la fluxul de date, veți vedea următoarele.
- Pentru a explora rapid datele de împrumut, alegeți Obțineți informații despre date Și selectați
loan_status
coloana țintă și Clasificare tip de problemă.
Generat Raport privind calitatea datelor și perspectivă oferă statistici cheie, vizualizări și analize de importanță a caracteristicilor.
- Examinați avertismentele privind problemele de calitate a datelor și clasele dezechilibrate pentru a înțelege și îmbunătăți setul de date.
Pentru setul de date din acest caz de utilizare, ar trebui să vă așteptați la un avertisment de prioritate ridicată „Scor foarte scăzut al modelului rapid” și la o eficacitate foarte scăzută a modelului pentru clasele minoritare (încărcate oprite și curente), indicând necesitatea curățării și echilibrării datelor. A se referi la Documentație canvas pentru a afla mai multe despre raportul de date.
Cu peste 300 de transformări încorporate, susținute de SageMaker Data Wrangler, SageMaker Canvas vă dă puterea să discutați rapid datele împrumutului. Puteți da clic pe Adăugați pasul, și răsfoiți sau căutați transformările potrivite. Pentru acest set de date, utilizați Picătură lipsă și Gestionați valorile aberante pentru a curăța datele, apoi aplicați One-hot codificare, și Vectorizați textul pentru a crea caracteristici pentru ML.
Chat pentru pregătirea datelor este o nouă capacitate de limbaj natural care permite analiza intuitivă a datelor prin descrierea cererilor în limba engleză simplă. De exemplu, puteți obține statistici și analize de corelare a caracteristicilor privind datele împrumutului folosind expresii naturale. SageMaker Canvas înțelege și rulează acțiunile prin interacțiuni conversaționale, ducând pregătirea datelor la nivelul următor.
Putem folosi Chat pentru pregătirea datelor și transformare încorporată pentru a echilibra datele împrumutului.
- Mai întâi, introduceți următoarele instrucțiuni:
replace “charged off” and “current” in loan_status with “default”
Chat pentru pregătirea datelor generează cod pentru a îmbina două clase minoritare într-una singură default
clasă.
- Alegeți cel încorporat bătuseră, funcția de transformare pentru a genera date sintetice pentru clasa implicită.
Acum aveți o coloană țintă echilibrată.
- După curățarea și procesarea datelor de împrumut, regenerați Raport privind calitatea datelor și perspectivă pentru a revizui îmbunătățirile.
Avertismentul cu prioritate ridicată a dispărut, indicând o calitate îmbunătățită a datelor. Puteți adăuga alte transformări după cum este necesar pentru a îmbunătăți calitatea datelor pentru antrenamentul modelului.
Scalați și automatizați procesarea datelor
Pentru a automatiza pregătirea datelor, puteți rula sau programa întregul flux de lucru ca o lucrare de procesare Spark distribuită pentru a procesa întregul set de date sau orice seturi de date noi la scară.
- În fluxul de date, adăugați un nod destinație Amazon S3.
- Lansați o lucrare de procesare SageMaker alegând Creați loc de muncă.
- Configurați jobul de procesare și alegeți Crea, permițând fluxului să ruleze pe sute de GB de date fără eșantionare.
Fluxurile de date pot fi încorporate în conducte MLOps end-to-end pentru a automatiza ciclul de viață ML. Fluxurile de date pot alimenta notebook-urile SageMaker Studio ca pas de procesare a datelor într-o conductă SageMaker sau pentru implementarea unei conducte de inferență SageMaker. Acest lucru permite automatizarea fluxului de la pregătirea datelor la instruirea și găzduirea SageMaker.
Construiți și implementați modelul în SageMaker Canvas
După pregătirea datelor, putem exporta fără probleme setul de date final în SageMaker Canvas pentru a construi, antrena și implementa un model de predicție a plății împrumutului.
- Alege Creați model în ultimul nod al fluxului de date sau în panoul de noduri.
Aceasta exportă setul de date și lansează fluxul de lucru pentru crearea modelului ghidat.
- Denumiți setul de date exportat și alegeți Export.
- Alege Creați model din notificare.
- Denumiți modelul, selectați Analiza predictivăși alegeți Crea.
Aceasta vă va redirecționa către pagina de construcție a modelului.
- Continuați cu experiența de construire a modelului SageMaker Canvas alegând coloana țintă și tipul de model, apoi alegeți Construire rapidă or Construcție standard.
Pentru a afla mai multe despre experiența de construire a modelelor, consultați Construiește un model.
Când instruirea este finalizată, puteți utiliza modelul pentru a prezice date noi sau pentru a le implementa. A se referi la Implementați modele ML construite în Amazon SageMaker Canvas în punctele finale în timp real Amazon SageMaker pentru a afla mai multe despre implementarea unui model din SageMaker Canvas.
Concluzie
În această postare, am demonstrat capacitățile complete ale SageMaker Canvas, asumându-și rolul unui profesionist în date financiare care pregătește date pentru a prezice plata împrumutului, susținut de SageMaker Data Wrangler. Pregătirea interactivă a datelor a permis curățarea, transformarea și analizarea rapidă a datelor de împrumut pentru a crea funcții informative. Prin eliminarea complexităților de codare, SageMaker Canvas ne-a permis să repetăm rapid pentru a crea un set de date de antrenament de înaltă calitate. Acest flux de lucru accelerat duce direct la construirea, instruirea și implementarea unui model ML performant pentru impactul asupra afacerii. Cu pregătirea cuprinzătoare a datelor și experiența unificată de la date la informații, SageMaker Canvas vă permite să vă îmbunătățiți rezultatele ML. Pentru mai multe informații despre cum să vă accelerați călătoriile de la date la informații despre afaceri, consultați Zi de imersiune SageMaker Canvas și Ghidul utilizatorului AWS.
Despre autori
Dr. Changsha Ma este un specialist AI/ML la AWS. Este tehnolog cu un doctorat în informatică, un master în psihologia educației și ani de experiență în știința datelor și consultanță independentă în AI/ML. Este pasionată de cercetarea abordărilor metodologice ale inteligenței mașinilor și umane. În afara serviciului, îi place să facă drumeții, să gătească, să vâneze mâncare și să petreacă timpul cu prietenii și familiile.
Ajjay Govindaram este arhitect senior de soluții la AWS. Lucrează cu clienți strategici care folosesc AI/ML pentru a rezolva probleme complexe de afaceri. Experiența sa constă în furnizarea de direcție tehnică, precum și asistență de proiectare pentru implementări de aplicații AI/ML la scară mică sau mare. Cunoștințele sale variază de la arhitectura aplicațiilor la big data, analiză și învățarea automată. Îi place să asculte muzică în timp ce se odihnește, să experimenteze în aer liber și să petreacă timpul cu cei dragi.
Huong Nguyen este manager de produs senior la AWS. Ea conduce pregătirea datelor ML pentru SageMaker Canvas și SageMaker Data Wrangler, cu 15 ani de experiență în construirea de produse centrate pe clienți și bazate pe date.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :are
- :este
- $UP
- 100
- 12
- 13
- 14
- ani 15
- 15%
- 300
- 50
- 8
- a
- Capabil
- Despre Noi
- accelera
- accelerat
- Cont
- acțiuni
- adăuga
- agregat
- AI / ML
- permis
- permite
- de-a lungul
- deja
- de asemenea
- Amazon
- Amazon SageMaker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analize
- analiză
- Google Analytics
- analiza
- și
- Orice
- apărea
- aplicație
- abordari
- arhitectură
- SUNT
- AS
- Asistență
- At
- autentifica
- Autentificare
- automatizarea
- automatizarea
- AWS
- înapoi
- Sold
- Echilibrat
- BE
- Mare
- Datele mari
- debitor
- atât
- construi
- Clădire
- construit
- construit-in
- afaceri
- impactul asupra afacerii
- by
- CAN
- Poate obține
- pânză
- capacități
- capacitate
- caz
- încărcat
- Alege
- alegere
- clasă
- clase
- curat
- Curățenie
- clic
- cod
- Codificare
- Coloană
- companie
- Completă
- complex
- complexități
- cuprinzător
- calculator
- Informatică
- Conectați
- conexiune
- consultant
- de conversaţie
- gătit
- Corelație
- acoperi
- crea
- creaţie
- scrisori de acreditare
- credit
- crucial
- Curent
- clienţii care
- de date
- analiza datelor
- Pregătirea datelor
- de prelucrare a datelor
- calitatea datelor
- știința datelor
- Pe bază de date
- seturi de date
- Mod implicit
- Grad
- demonstrat
- implementa
- Implementarea
- implementări
- descriind
- Amenajări
- destinație
- detaliat
- direcţie
- direct
- descoperi
- distribuite
- jos
- Descarca
- Picătură
- scăparea
- cu ușurință
- Educaţie
- eficacitate
- imputerniceste
- permite
- activat
- permite
- permițând
- un capăt la altul
- inginer
- Engleză
- spori
- asigura
- Intrați
- Întreg
- Mediu inconjurator
- Eter (ETH)
- exemplu
- aștepta
- experienţă
- confruntă
- explora
- exporturile
- exporturile
- familii
- mai repede
- Caracteristică
- DESCRIERE
- final
- financiar
- date financiare
- Servicii financiare
- companie de servicii financiare
- debit
- fluxurilor
- urma
- următor
- alimente
- Pentru
- Fundații
- proaspăt
- Prietenii lui
- din
- complet
- funcţie
- mai mult
- genera
- generată
- generează
- obține
- Da
- ghidate
- Avea
- he
- Înalt
- de înaltă calitate
- drumeții
- lui
- găzduire
- Cum
- Cum Pentru a
- HTML
- http
- HTTPS
- uman
- inteligența umană
- sute
- Vânătoare
- ID
- if
- dezechilibrat
- imersiune
- Impactul
- implementat
- import
- importanță
- importatoare
- îmbunătăţi
- îmbunătățit
- îmbunătățiri
- in
- Incorporated
- independent
- indicând
- informații
- informativ
- înţelegere
- perspective
- instrucțiuni
- integrare
- Inteligență
- interacţiuni
- interactiv
- interfaţă
- în
- intuitiv
- implică
- probleme de
- IT
- ESTE
- Loc de munca
- alătura
- călătoriile
- jpg
- Cheie
- cunoştinţe
- limbă
- pe scară largă
- Nume
- lansează
- conducere
- Conduce
- AFLAȚI
- învăţare
- Părăsi
- stânga
- Nivel
- se află
- ciclu de viață
- ca
- Listă
- Ascultare
- împrumut
- Credite
- local
- log
- Logare
- Uite
- arată ca
- iubit
- iubeste
- Jos
- maşină
- masina de învățare
- face
- manager
- de conducere
- marca
- studii de masterat
- Îmbina
- metodă
- Metode
- minoritate
- ML
- MLOps
- model
- Modele
- modest
- mai mult
- Muzică
- nume
- Natural
- Limbajul natural
- Nevoie
- necesar
- Nou
- optiune noua
- următor
- nod
- noduri
- notebook-uri
- notificare
- acum
- oauth
- of
- de pe
- de multe ori
- OKTA
- on
- ONE
- cele
- Opțiune
- or
- al nostru
- rezultate
- în aer liber
- exterior
- peste
- pagină
- pâine
- pasionat
- plată
- performanță
- PhD
- Expresii
- conducte
- Simplu
- Plato
- Informații despre date Platon
- PlatoData
- Post
- alimentat
- prezice
- prezicere
- prezice
- pregătire
- Pregăti
- pregătirea
- premise
- prioritate
- Problemă
- probleme
- proces
- prelucrare
- Produs
- manager de produs
- Produse
- profesional
- furnizează
- furnizarea
- Psihologie
- calitate
- repede
- repede
- în timp real
- Roșu
- redirecționa
- trimite
- eliminarea
- raportează
- cereri de
- odihnă
- revizuiască
- dreapta
- Risc
- Rol
- Alerga
- ruleaza
- sagemaker
- SageMaker Inference
- Salesforce
- acelaşi
- Scară
- programa
- Ştiinţă
- Ecran
- perfect
- Caută
- vedea
- selecta
- senior
- Servicii
- companie de servicii
- configurarea
- ea
- să
- parte
- simplu
- soluţii
- REZOLVAREA
- Surse
- Scânteie
- specialist
- Cheltuire
- statistică
- Pas
- paşi
- depozitare
- Strategic
- studio
- de succes
- astfel de
- Sprijină
- sigur
- simbol
- sintetic
- date sintetice
- luare
- Ţintă
- sarcini
- Tehnic
- tehnolog
- acea
- Lor
- apoi
- acest
- Prin
- timp
- consumă timp
- la
- Tren
- Pregătire
- Transforma
- transformări
- transformare
- transformatele
- Două
- tip
- înţelege
- înțelege
- unificat
- us
- utilizare
- carcasa de utilizare
- Utilizator
- folosind
- foarte
- vizual
- umbla
- walkthrough
- de avertizare
- we
- web
- servicii web
- BINE
- dacă
- care
- în timp ce
- OMS
- întreg
- voi
- cu
- fără
- Apartamente
- flux de lucru
- fabrică
- Ateliere
- ar
- ani
- încă
- tu
- Ta
- zephyrnet