Avvia processi di elaborazione con pochi clic utilizzando Amazon SageMaker Data Wrangler

Ripubblicato da Platone

Seguaci: 0

Gestore di dati di Amazon SageMaker rende più veloce per i data scientist e gli ingegneri la preparazione dei dati per le applicazioni di machine learning (ML) utilizzando un'interfaccia visiva. In precedenza, quando creavi un flusso di dati Data Wrangler, potevi scegliere diverse opzioni di esportazione per integrare facilmente quel flusso di dati nella tua pipeline di elaborazione dati. Data Wrangler offre opzioni di esportazione a Servizio di archiviazione semplice Amazon (Amazon S3), Pipeline SageMakere Feature Store di SageMakero come codice Python. Le opzioni di esportazione creano un notebook Jupyter e richiedono l'esecuzione del codice per avviare un processo di elaborazione facilitato da Elaborazione di SageMaker.

Siamo lieti di annunciare il rilascio generale dei nodi di destinazione e la funzione Crea lavoro in Data Wrangler. Questa funzione ti dà la possibilità di esportare tutte le trasformazioni apportate a un set di dati in un nodo di destinazione con pochi clic. Ciò consente di creare processi di elaborazione dei dati ed esportarli in Amazon S3 esclusivamente tramite l'interfaccia visiva senza dover generare, eseguire o gestire notebook Jupyter, migliorando così l'esperienza low-code. Per dimostrare questa nuova funzionalità, utilizziamo il Set di dati Titanic e mostra come esportare le tue trasformazioni in un nodo di destinazione.

Prerequisiti

Prima di imparare come utilizzare i nodi di destinazione con Data Wrangler, dovresti già capire come farlo accedere e iniziare con Data Wrangler. Devi anche sapere cosa a flusso di dati significa con il contesto di Data Wrangler e come crearne uno importando i tuoi dati dalle diverse fonti di dati supportate da Data Wrangler.

Panoramica della soluzione

Si consideri il seguente flusso di dati denominato example-titanic.flow:

Importa il set di dati del Titanic tre volte. Puoi vedere queste diverse importazioni come rami separati nel flusso di dati.
Per ogni ramo, applica una serie di trasformazioni e visualizzazioni.
Unisce i rami in un unico nodo con tutte le trasformazioni e le visualizzazioni.

Con questo flusso, potresti voler elaborare e salvare parti dei tuoi dati in una filiale o posizione specifica.

Nei passaggi seguenti, dimostriamo come creare nodi di destinazione, esportarli in Amazon S3 e creare e avviare un processo di elaborazione.

Crea un nodo di destinazione

Puoi utilizzare la seguente procedura per creare nodi di destinazione ed esportarli in un bucket S3:

Determina quali parti del file di flusso (trasformazioni) desideri salvare.
Scegli il segno più accanto ai nodi che rappresentano le trasformazioni che desideri esportare. (Se si tratta di un nodo compresso, è necessario selezionare l'icona delle opzioni (tre punti) per il nodo).
Passa il mouse sopra Aggiungi destinazione.
Scegli Amazon S3.
Specificare i campi come mostrato nello screenshot seguente.
Per il secondo nodo di join, segui gli stessi passaggi per aggiungere Amazon S3 come destinazione e specifica i campi.

Puoi ripetere questi passaggi tutte le volte che vuoi per tutti i nodi che desideri nel tuo flusso di dati. Successivamente, scegli quali nodi di destinazione includere nel processo di elaborazione.

Avvia un processo di elaborazione

Utilizzare la seguente procedura per creare un processo di elaborazione e scegliere il nodo di destinazione in cui si desidera esportare:

Sulla Flusso di dati scheda, scegliere Crea lavoro.
Nel Nome del lavoro¸ inserire il nome del lavoro di esportazione.
Seleziona i nodi di destinazione che desideri esportare.
Facoltativamente, specificare il file Servizio di gestione delle chiavi AWS (AWS KMS) chiave ARN.

La chiave KMS è una chiave crittografica che puoi utilizzare per proteggere i tuoi dati. Per ulteriori informazioni sulle chiavi KMS, vedere il Guida per sviluppatori chiave AWS.

Scegli Successivamente, 2. Configura lavoro.
Facoltativamente, puoi configurare il lavoro in base alle tue esigenze modificando il tipo o il conteggio dell'istanza o aggiungendo eventuali tag da associare al lavoro.
Scegli Correre per eseguire il lavoro.

Quando il processo è stato creato correttamente, viene visualizzato un messaggio di successo.

Visualizza i dati finali

Infine, puoi utilizzare i seguenti passaggi per visualizzare i dati esportati:

Dopo aver creato il lavoro, scegli il collegamento fornito.

Si apre una nuova scheda che mostra il processo di elaborazione sulla console SageMaker.

Al termine del lavoro, esamina i dati esportati sulla console Amazon S3.

Dovresti vedere una nuova cartella con il nome del lavoro che hai scelto.

Scegli il nome del lavoro per visualizzare un file CSV (o più file) con i dati finali.

FAQ

In questa sezione, rispondiamo ad alcune domande frequenti su questa nuova funzione:

Che cosa è successo alla scheda Esporta? Con questa nuova funzionalità, abbiamo rimosso il file Esportare scheda da Data Wrangler. Puoi comunque facilitare la funzionalità di esportazione tramite i notebook Jupyter generati da Data Wrangler da qualsiasi nodo creato nel flusso di dati con i seguenti passaggi:

1. Scegli il segno più accanto al nodo che desideri esportare.
2. Scegli Esporta a.
3. Scegli Amazon S3 (tramite Jupyter Notebook).
4. Eseguire il notebook Jupyter.

Quanti nodi di destinazione posso includere in un lavoro? Sono disponibili un massimo di 10 destinazioni per processo di elaborazione.
Quanti nodi di destinazione posso avere in un file di flusso? Puoi avere tutti i nodi di destinazione che desideri.
Posso aggiungere trasformazioni dopo i miei nodi di destinazione? No, l'idea è che i nodi di destinazione sono nodi terminali che non hanno ulteriori passaggi successivi.
Quali sono le origini supportate che posso utilizzare con i nodi di destinazione? Al momento della stesura di questo documento, supportiamo solo Amazon S3 come origine di destinazione. Il supporto per più tipi di origine di destinazione verrà aggiunto in futuro. Per favore contattaci se ce n'è uno specifico che vorresti vedere.

Sommario

In questo post, abbiamo dimostrato come utilizzare i nodi di destinazione appena lanciati per creare processi di elaborazione e salvare i set di dati trasformati direttamente in Amazon S3 tramite l'interfaccia visiva di Data Wrangler. Con questa funzionalità aggiuntiva, abbiamo migliorato l'esperienza low-code basata su strumenti di Data Wrangler.

Come passaggi successivi, ti consigliamo di provare l'esempio mostrato in questo post. Se hai domande o vuoi saperne di più, vedi Esportare o lasciare una domanda nella sezione commenti.

Informazioni sugli autori

Alfonso Austin-Rivera è un ingegnere front-end presso Amazon SageMaker Data Wrangler. È appassionato di creare esperienze utente intuitive che suscitano gioia. Nel suo tempo libero, puoi trovarlo combattere la gravità in una palestra di arrampicata su roccia o fuori a far volare il suo drone.

Parsa Shabodaghi è un Technical Writer in AWS specializzato in machine learning e intelligenza artificiale. Scrive la documentazione tecnica per Amazon SageMaker Data Wrangler e Amazon SageMaker Feature Store. Nel tempo libero ama meditare, ascoltare audiolibri, fare sollevamento pesi e guardare cabaret. Non sarà mai un cabarettista, ma almeno sua madre pensa che sia divertente.

Balaji Tummala è un ingegnere di sviluppo software presso Amazon SageMaker. Aiuta a supportare Amazon SageMaker Data Wrangler ed è appassionato di creare software performante e scalabile. Al di fuori del lavoro, ama leggere narrativa e giocare a pallavolo.

Arunprasath Shankar è uno specialista in Solutions Architect di intelligenza artificiale e apprendimento automatico (AI / ML) con AWS, che aiuta i clienti globali a scalare le loro soluzioni di intelligenza artificiale in modo efficace ed efficiente nel cloud. Nel suo tempo libero, Arun ama guardare film di fantascienza e ascoltare musica classica.