Lansați lucrări de procesare cu câteva clicuri folosind Amazon SageMaker Data Wrangler

Nodul sursă: 1600104

Amazon SageMaker Data Wrangler face mai rapid ca oamenii de știință și inginerii de date să pregătească date pentru aplicații de învățare automată (ML) prin utilizarea unei interfețe vizuale. Anterior, când creați un flux de date Data Wrangler, puteați alege diferite opțiuni de export pentru a integra cu ușurință acel flux de date în conducta dvs. de procesare a datelor. Data Wrangler oferă opțiuni de export către Serviciul Amazon de stocare simplă (Amazon S3), Conducte SageMaker, și Magazin de caracteristici SageMaker, sau ca cod Python. Opțiunile de export creează un blocnotes Jupyter și vă solicită să rulați codul pentru a începe o lucrare de procesare facilitată de Procesare SageMaker.

Suntem încântați să anunțăm lansarea generală a nodurilor de destinație și a funcției Creare job în Data Wrangler. Această caracteristică vă oferă posibilitatea de a exporta toate transformările pe care le-ați făcut într-un set de date către un nod de destinație cu doar câteva clicuri. Acest lucru vă permite să creați joburi de procesare a datelor și să exportați pe Amazon S3 doar prin interfața vizuală, fără a fi nevoie să generați, să rulați sau să gestionați notebook-uri Jupyter, îmbunătățind astfel experiența low-code. Pentru a demonstra această nouă caracteristică, folosim Setul de date Titanic și arată cum să exportați transformările într-un nod destinație.

Cerințe preliminare

Înainte de a învăța cum să folosim nodurile de destinație cu Data Wrangler, ar trebui să înțelegeți deja cum accesați și începeți cu Data Wrangler. De asemenea, trebuie să știți ce a flux de date înseamnă cu context pentru Data Wrangler și cum să creați unul prin importul datelor dvs. din diferitele surse de date pe care Data Wrangler le acceptă.

Prezentare generală a soluțiilor

Luați în considerare următorul flux de date numit example-titanic.flow:

  • Importă setul de date Titanic de trei ori. Puteți vedea aceste importuri diferite ca ramuri separate în fluxul de date.
  • Pentru fiecare ramură, se aplică un set de transformări și vizualizări.
  • Acesta unește ramurile într-un singur nod cu toate transformările și vizualizările.

Cu acest flux, este posibil să doriți să procesați și să salvați părți din datele dvs. într-o anumită sucursală sau locație.

În următorii pași, demonstrăm cum să creați noduri de destinație, să le exportăm în Amazon S3 și să creați și să lansați o lucrare de procesare.

Creați un nod destinație

Puteți utiliza următoarea procedură pentru a crea noduri de destinație și a le exporta într-o găleată S3:

  1. Determinați ce părți ale fișierului flux (transformări) doriți să salvați.
  2. Alegeți semnul plus de lângă nodurile care reprezintă transformările pe care doriți să le exportați. (Dacă este un nod restrâns, trebuie să selectați pictograma opțiuni (trei puncte) pentru nod).
  3. Pune deasupra Adăugați destinația.
  4. Alege Amazon S3.
  5. Specificați câmpurile așa cum se arată în următoarea captură de ecran.
  6. Pentru al doilea nod de alăturare, urmați aceiași pași pentru a adăuga Amazon S3 ca destinație și specificați câmpurile.

Puteți repeta acești pași de câte ori aveți nevoie pentru câte noduri doriți în fluxul dvs. de date. Mai târziu, alegeți ce noduri de destinație să includeți în jobul dvs. de procesare.

Lansați o lucrare de procesare

Utilizați următoarea procedură pentru a crea un job de procesare și alegeți nodul de destinație în care doriți să exportați:

  1. Pe Flux de date fila, alegeți Creați loc de muncă.
  2. Pentru Numele locului de munca¸ introduceți numele lucrării de export.
  3. Selectați nodurile de destinație pe care doriți să le exportați.
  4. Opțional, specificați AWS Service Management Service ARN cheie (AWS KMS).

Cheia KMS este o cheie criptografică pe care o puteți folosi pentru a vă proteja datele. Pentru mai multe informații despre cheile KMS, consultați Ghid pentru dezvoltatori cheie AWS.

  1. Alege Apoi, 2. Configurați job.
  2. Opțional, puteți configura jobul în funcție de nevoile dvs. modificând tipul sau numărul instanței sau adăugând orice etichete pentru a le asocia jobului.
  3. Alege Alerga pentru a rula treaba.

Un mesaj de succes apare atunci când jobul este creat cu succes.

Vedeți datele finale

În cele din urmă, puteți utiliza următorii pași pentru a vizualiza datele exportate:

  1. După ce creați jobul, alegeți linkul furnizat.

Se deschide o filă nouă care arată lucrarea de procesare pe consola SageMaker.

  1. Când lucrarea este finalizată, examinați datele exportate pe consola Amazon S3.

Ar trebui să vedeți un folder nou cu numele jobului pe care l-ați ales.

  1. Alegeți numele jobului pentru a vizualiza un fișier CSV (sau mai multe fișiere) cu datele finale.

FAQ

În această secțiune, abordăm câteva întrebări frecvente despre această nouă funcție:

  • Ce s-a întâmplat cu fila Export? Cu această nouă caracteristică, am eliminat Export fila din Data Wrangler. Puteți în continuare să facilitați funcționalitatea de export prin intermediul caietelor Jupyter generate de Data Wrangler din orice nod pe care l-ați creat în fluxul de date, cu următorii pași:
    1. Alegeți semnul plus de lângă nodul pe care doriți să îl exportați.
    2. Alege Export către.
    3. Alege Amazon S3 (prin Jupyter Notebook).
    4. Rulați blocnotesul Jupyter.
  • Câte noduri de destinații pot include într-un job? Există maximum 10 destinații pentru fiecare lucrare de procesare.
  • Câte noduri de destinație pot avea într-un fișier de flux? Puteți avea câte noduri de destinație doriți.
  • Pot adăuga transformări după nodurile mele de destinație? Nu, ideea este că nodurile destinație sunt noduri terminale care nu mai au pași ulterior.
  • Care sunt sursele acceptate pe care le pot folosi cu nodurile de destinație? În momentul scrierii acestui articol, acceptăm doar Amazon S3 ca sursă de destinație. Suport pentru mai multe tipuri de surse de destinație va fi adăugat în viitor. Vă rugăm să contactați dacă există unul anume pe care doriți să îl vedeți.

Rezumat

În această postare, am demonstrat cum să folosiți nodurile de destinație recent lansate pentru a crea joburi de procesare și a salva seturile de date transformate direct pe Amazon S3 prin interfața vizuală Data Wrangler. Cu această funcție suplimentară, am îmbunătățit experiența de cod redus bazată pe instrumente a Data Wrangler.

Ca pași următori, vă recomandăm să încercați exemplul demonstrat în această postare. Dacă aveți întrebări sau doriți să aflați mai multe, consultați Export sau lăsați o întrebare în secțiunea de comentarii.


Despre Autori

Alfonso Austin-Rivera este inginer front-end la Amazon SageMaker Data Wrangler. El este pasionat de construirea de experiențe intuitive pentru utilizatori care stârnesc bucurie. În timpul său liber, îl puteți găsi luptând cu gravitația la o sală de alpinism sau afară, zburând cu drona.

Parsa Shahbodaghi este un scriitor tehnic în AWS specializat în învățare automată și inteligență artificială. El scrie documentația tehnică pentru Amazon SageMaker Data Wrangler și Amazon SageMaker Feature Store. În timpul liber, îi place să mediteze, să asculte cărți audio, să ridice greutăți și să se uite la stand-up comedy. Nu va fi niciodată un stand-up comedian, dar cel puțin mama lui crede că este amuzant.

Balaji Tummala este inginer de dezvoltare software la Amazon SageMaker. El ajută la sprijinirea Amazon SageMaker Data Wrangler și este pasionat de crearea de software performant și scalabil. În afara serviciului, îi place să citească ficțiune și să joace volei.

Arunprasath Shankar este un arhitect specializat în soluții de inteligență artificială și învățare automată (AI / ML) cu AWS, ajutând clienții globali să își scaleze soluțiile de AI în mod eficient și eficient în cloud. În timpul liber, lui Arun îi place să urmărească filme SF și să asculte muzică clasică.

Sursa: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Timestamp-ul:

Mai mult de la Blog de AWS Machine Learning