Start behandlingsjob med nogle få klik ved hjælp af Amazon SageMaker Data Wrangler

Kildeknude: 1600104

Amazon SageMaker Data Wrangler gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til maskinlæringsapplikationer (ML) ved at bruge en visuel grænseflade. Tidligere, når du oprettede et Data Wrangler-dataflow, kunne du vælge forskellige eksportmuligheder for nemt at integrere det dataflow i din databehandlingspipeline. Data Wrangler tilbyder eksportmuligheder til Amazon Simple Storage Service (Amazon S3), SageMaker Pipelinesog SageMaker Feature Store, eller som Python-kode. Eksportmulighederne opretter en Jupyter-notesbog og kræver, at du kører koden for at starte et behandlingsjob lettet af SageMaker-behandling.

Vi er glade for at kunne annoncere den generelle udgivelse af destinationsknuder og funktionen Opret job i Data Wrangler. Denne funktion giver dig mulighed for at eksportere alle de transformationer, du har lavet til et datasæt, til en destinationsknude med blot et par klik. Dette giver dig mulighed for at oprette databehandlingsjob og eksportere til Amazon S3 rent via den visuelle grænseflade uden at skulle generere, køre eller administrere Jupyter-notebooks, og derved forbedre oplevelsen med lav kode. For at demonstrere denne nye funktion bruger vi Titanic datasæt og vis, hvordan du eksporterer dine transformationer til en destinationsknude.

Forudsætninger

Før vi lærer at bruge destinationsknudepunkter med Data Wrangler, bør du allerede forstå hvordan få adgang til og komme i gang med Data Wrangler. Du skal også vide, hvad en dataflow betyder med kontekst til Data Wrangler og hvordan man opretter en ved at importere dine data fra de forskellige datakilder Data Wrangler understøtter.

Løsningsoversigt

Overvej følgende dataflow navngivet example-titanic.flow:

  • Den importerer Titanic-datasættet tre gange. Du kan se disse forskellige importer som separate grene i dataflowet.
  • For hver gren anvender den et sæt transformationer og visualiseringer.
  • Det forbinder grenene til en enkelt node med alle transformationerne og visualiseringerne.

Med dette flow vil du måske behandle og gemme dele af dine data til en bestemt filial eller lokation.

I de følgende trin demonstrerer vi, hvordan man opretter destinationsknuder, eksporterer dem til Amazon S3 og opretter og starter et behandlingsjob.

Opret en destinationsknude

Du kan bruge følgende procedure til at oprette destinationsknuder og eksportere dem til en S3-bøtte:

  1. Bestem, hvilke dele af flowfilen (transformationer), du vil gemme.
  2. Vælg plustegnet ud for de noder, der repræsenterer de transformationer, du vil eksportere. (Hvis det er en sammenklappet node, skal du vælge indstillingsikonet (tre prikker) for noden).
  3. Svæve over Tilføj destination.
  4. Vælg Amazon S3.
  5. Angiv felterne som vist på det følgende skærmbillede.
  6. For den anden join-knude skal du følge de samme trin for at tilføje Amazon S3 som en destination og angive felterne.

Du kan gentage disse trin så mange gange, du har brug for, for så mange noder, du ønsker i dit dataflow. Senere vælger du, hvilke destinationsknuder der skal inkluderes i dit behandlingsjob.

Start et behandlingsjob

Brug følgende procedure til at oprette et behandlingsjob og vælg den destinationsknude, hvor du vil eksportere til:

  1. Dataflow fanebladet, vælg Skab job.
  2. Til Job navn¸ indtast navnet på eksportjobbet.
  3. Vælg de destinationsknuder, du vil eksportere.
  4. Angiv eventuelt AWS Key Management Service (AWS KMS) nøgle ARN.

KMS-nøglen er en kryptografisk nøgle, som du kan bruge til at beskytte dine data. For mere information om KMS-nøgler, se AWS Key Developer Guide.

  1. Vælg Næste, 2. Konfigurer job.
  2. Du kan valgfrit konfigurere jobbet efter dine behov ved at ændre forekomsttypen eller antallet eller tilføje eventuelle tags, der skal knyttes til jobbet.
  3. Vælg Kør at køre jobbet.

En succesmeddelelse vises, når jobbet er oprettet.

Se de endelige data

Endelig kan du bruge følgende trin til at se de eksporterede data:

  1. Når du har oprettet jobbet, skal du vælge det angivne link.

En ny fane åbnes, der viser behandlingsopgaven på SageMaker-konsollen.

  1. Når jobbet er fuldført, skal du gennemgå de eksporterede data på Amazon S3-konsollen.

Du skulle se en ny mappe med det jobnavn, du valgte.

  1. Vælg jobnavnet for at se en CSV-fil (eller flere filer) med de endelige data.

FAQ

I dette afsnit behandler vi et par ofte stillede spørgsmål om denne nye funktion:

  • Hvad skete der med fanen Eksporter? Med denne nye funktion fjernede vi eksport fanen fra Data Wrangler. Du kan stadig lette eksportfunktionaliteten via de Data Wrangler-genererede Jupyter-notesbøger fra alle noder, du har oprettet i dataflowet, med følgende trin:
    1. Vælg plustegnet ud for den node, du vil eksportere.
    2. Vælg Eksporter til.
    3. Vælg Amazon S3 (via Jupyter Notebook).
    4. Kør Jupyter-notesbogen.
  • Hvor mange destinationsknudepunkter kan jeg inkludere i et job? Der er maksimalt 10 destinationer pr. behandlingsjob.
  • Hvor mange destinationsknuder kan jeg have i en flowfil? Du kan have så mange destinationsknuder, som du vil.
  • Kan jeg tilføje transformationer efter mine destinationsknuder? Nej, ideen er, at destinationsknudepunkter er terminalknuder, der ikke har yderligere trin bagefter.
  • Hvad er de understøttede kilder, jeg kan bruge med destinationsknuder? Når dette skrives, understøtter vi kun Amazon S3 som destinationskilde. Understøttelse af flere destinationskildetyper vil blive tilføjet i fremtiden. Kontakt venligst, hvis der er en bestemt, du gerne vil se.

Resumé

I dette indlæg demonstrerede vi, hvordan du bruger de nyligt lancerede destinationsknuder til at oprette behandlingsjob og gemme dine transformerede datasæt direkte til Amazon S3 via Data Wranglers visuelle grænseflade. Med denne ekstra funktion har vi forbedret den værktøjsdrevne lavkodeoplevelse af Data Wrangler.

Som næste trin anbefaler vi, at du prøver eksemplet vist i dette indlæg. Hvis du har spørgsmål eller vil vide mere, så se eksport eller efterlad et spørgsmål i kommentarfeltet.


Om forfatterne

Alfonso Austin-Rivera er Front End Engineer hos Amazon SageMaker Data Wrangler. Han brænder for at skabe intuitive brugeroplevelser, der vækker glæde. I sin fritid kan du finde ham, der kæmper mod tyngdekraften i et klatremotionscenter eller udenfor, mens han flyver med sin drone.

Parsa Shahbodaghi er en teknisk skribent i AWS med speciale i maskinlæring og kunstig intelligens. Han skriver den tekniske dokumentation for Amazon SageMaker Data Wrangler og Amazon SageMaker Feature Store. I sin fritid nyder han at meditere, lytte til lydbøger, vægtløftning og se stand-up comedy. Han bliver aldrig en stand-up komiker, men i det mindste synes hans mor, at han er sjov.

Balaji Tummala er softwareudviklingsingeniør hos Amazon SageMaker. Han hjælper med at understøtte Amazon SageMaker Data Wrangler og brænder for at bygge effektiv og skalerbar software. Uden for arbejdet holder han af at læse skønlitteratur og spille volleyball.

Arunprasath Shankar er en specialist i kunstig intelligens og maskinlæring (AI/ML) med AWS, der hjælper globale kunder med at skalere deres AI-løsninger effektivt og effektivt i skyen. I sin fritid nyder Arun at se sci-fi-film og lytte til klassisk musik.

Kilde: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Tidsstempel:

Mere fra AWS Machine Learning Blog