Starta bearbetningsjobb med några få klick med Amazon SageMaker Data Wrangler

Källnod: 1600104

Amazon SageMaker Data Wrangler gör det snabbare för datavetare och ingenjörer att förbereda data för applikationer för maskininlärning (ML) genom att använda ett visuellt gränssnitt. Tidigare, när du skapade ett Data Wrangler-dataflöde, kunde du välja olika exportalternativ för att enkelt integrera det dataflödet i din databehandlingspipeline. Data Wrangler erbjuder exportalternativ till Amazon enkel lagringstjänst (Amazon S3), SageMaker-rörledningaroch SageMaker Feature Store, eller som Python-kod. Exportalternativen skapar en Jupyter-anteckningsbok och kräver att du kör koden för att starta ett bearbetningsjobb som underlättas av SageMaker-bearbetning.

Vi är glada över att kunna presentera den allmänna lanseringen av destinationsnoder och funktionen Skapa jobb i Data Wrangler. Den här funktionen ger dig möjlighet att exportera alla transformationer som du gjort till en datauppsättning till en destinationsnod med bara några klick. Detta gör att du kan skapa databearbetningsjobb och exportera till Amazon S3 rent via det visuella gränssnittet utan att behöva generera, köra eller hantera Jupyter-anteckningsböcker, vilket förbättrar upplevelsen med låg kod. För att demonstrera denna nya funktion använder vi Titanic-dataset och visa hur du exporterar dina transformationer till en destinationsnod.

Förutsättningar

Innan vi lär oss hur man använder destinationsnoder med Data Wrangler bör du redan förstå hur man gör komma åt och komma igång med Data Wrangler. Du måste också veta vad a data flöde betyder med sammanhang till Data Wrangler och hur man skapar en genom att importera din data från de olika datakällorna som Data Wrangler stöder.

Lösningsöversikt

Betrakta följande dataflöde med namnet example-titanic.flow:

  • Den importerar Titanic-datauppsättningen tre gånger. Du kan se dessa olika importer som separata grenar i dataflödet.
  • För varje gren tillämpas en uppsättning transformationer och visualiseringar.
  • Den förenar grenarna till en enda nod med alla transformationer och visualiseringar.

Med detta flöde kanske du vill bearbeta och spara delar av din data till en specifik filial eller plats.

I följande steg visar vi hur man skapar destinationsnoder, exporterar dem till Amazon S3 och skapar och startar ett bearbetningsjobb.

Skapa en destinationsnod

Du kan använda följande procedur för att skapa destinationsnoder och exportera dem till en S3-bucket:

  1. Bestäm vilka delar av flödesfilen (transformationer) du vill spara.
  2. Välj plustecknet bredvid noderna som representerar de transformationer som du vill exportera. (Om det är en komprimerad nod måste du välja alternativikonen (tre punkter) för noden).
  3. Håll muspekaren över Lägg till destination.
  4. Välja Amazon S3.
  5. Ange fälten som visas i följande skärmdump.
  6. För den andra anslutningsnoden, följ samma steg för att lägga till Amazon S3 som en destination och ange fälten.

Du kan upprepa dessa steg så många gånger du behöver för så många noder du vill ha i ditt dataflöde. Senare väljer du vilka destinationsnoder som ska inkluderas i ditt bearbetningsjobb.

Starta ett bearbetningsjobb

Använd följande procedur för att skapa ett bearbetningsjobb och välj destinationsnoden dit du vill exportera:

  1. Data flöde fliken, välj Skapa jobb.
  2. För Jobb namn¸ ange namnet på exportjobbet.
  3. Välj de destinationsnoder du vill exportera.
  4. Ange valfritt AWS nyckelhanteringstjänst (AWS KMS) nyckel ARN.

KMS-nyckeln är en kryptografisk nyckel som du kan använda för att skydda dina data. För mer information om KMS-nycklar, se AWS Key Developer Guide.

  1. Välja Nästa, 2. Konfigurera jobb.
  2. Alternativt kan du konfigurera jobbet enligt dina behov genom att ändra instanstyp eller antal, eller lägga till taggar som ska associeras med jobbet.
  3. Välja Körning att köra jobbet.

Ett framgångsmeddelande visas när jobbet har skapats.

Se de slutliga uppgifterna

Slutligen kan du använda följande steg för att visa exporterade data:

  1. När du har skapat jobbet väljer du den angivna länken.

En ny flik öppnas som visar bearbetningsjobbet på SageMaker-konsolen.

  1. När jobbet är klart, granska exporterade data på Amazon S3-konsolen.

Du bör se en ny mapp med det jobbnamn du valde.

  1. Välj jobbnamnet för att visa en CSV-fil (eller flera filer) med slutdata.

FAQ

I det här avsnittet tar vi upp några vanliga frågor om den här nya funktionen:

  • Vad hände med fliken Export? Med den här nya funktionen tog vi bort Exportera fliken från Data Wrangler. Du kan fortfarande underlätta exportfunktionen via de Data Wrangler-genererade Jupyter-anteckningsböckerna från alla noder som du skapat i dataflödet med följande steg:
    1. Välj plustecknet bredvid noden som du vill exportera.
    2. Välja Exportera till.
    3. Välja Amazon S3 (via Jupyter Notebook).
    4. Kör Jupyter-anteckningsboken.
  • Hur många destinationsnoder kan jag inkludera i ett jobb? Det finns maximalt 10 destinationer per bearbetningsjobb.
  • Hur många destinationsnoder kan jag ha i en flödesfil? Du kan ha hur många destinationsnoder du vill.
  • Kan jag lägga till transformationer efter mina destinationsnoder? Nej, tanken är att destinationsnoder är terminalnoder som inte har några ytterligare steg efteråt.
  • Vilka är de källor som stöds jag kan använda med destinationsnoder? När detta skrivs stöder vi endast Amazon S3 som destinationskälla. Stöd för fler destinationskällor kommer att läggas till i framtiden. Hör gärna av dig om det är någon specifik du vill se.

Sammanfattning

I det här inlägget demonstrerade vi hur man använder de nyligen lanserade destinationsnoderna för att skapa bearbetningsjobb och spara dina transformerade datamängder direkt till Amazon S3 via Data Wranglers visuella gränssnitt. Med denna extra funktion har vi förbättrat den verktygsdrivna lågkodsupplevelsen av Data Wrangler.

Som nästa steg rekommenderar vi att du provar exemplet som visas i det här inlägget. Om du har några frågor eller vill veta mer, se Exportera eller lämna en fråga i kommentarsfältet.


Om författarna

Alfonso Austin-Rivera är en Front End Engineer på Amazon SageMaker Data Wrangler. Han brinner för att bygga intuitiva användarupplevelser som väcker glädje. På fritiden kan du hitta honom som kämpar mot gravitationen på ett klättergym eller utomhus när han flyger sin drönare.

Parsa Shahbodaghi är en teknisk skribent i AWS specialiserad på maskininlärning och artificiell intelligens. Han skriver den tekniska dokumentationen för Amazon SageMaker Data Wrangler och Amazon SageMaker Feature Store. På fritiden tycker han om att meditera, lyssna på ljudböcker, tyngdlyftning och titta på ståuppkomedi. Han kommer aldrig att bli en ståuppkomiker, men hans mamma tycker åtminstone att han är rolig.

Balaji Tummala är en mjukvaruutvecklingsingenjör på Amazon SageMaker. Han hjälper till att stödja Amazon SageMaker Data Wrangler och brinner för att bygga prestanda och skalbar programvara. Utanför jobbet tycker han om att läsa skönlitteratur och spela volleyboll.

Arunprasath Shankar är en artificiell intelligens och maskininlärning (AI / ML) specialistlösningsarkitekt med AWS, som hjälper globala kunder att skala sina AI-lösningar effektivt och effektivt i molnet. På fritiden tycker Arun om att titta på sci-fi-filmer och lyssna på klassisk musik.

Källa: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Tidsstämpel:

Mer från AWS-maskininlärningsblogg