Start behandlingsjobber med noen få klikk ved hjelp av Amazon SageMaker Data Wrangler

Kilde node: 1600104

Amazon SageMaker Data Wrangler gjør det raskere for dataforskere og ingeniører å forberede data for maskinlæringsapplikasjoner (ML) ved å bruke et visuelt grensesnitt. Tidligere, når du opprettet en Data Wrangler-dataflyt, kunne du velge forskjellige eksportalternativer for enkelt å integrere den dataflyten i databehandlingspipeline. Data Wrangler tilbyr eksportalternativer til Amazon enkel lagringstjeneste (Amazon S3), SageMaker-rørledningerog SageMaker Feature Store, eller som Python-kode. Eksportalternativene oppretter en Jupyter-notisbok og krever at du kjører koden for å starte en behandlingsjobb tilrettelagt av SageMaker-behandling.

Vi er glade for å kunngjøre den generelle utgivelsen av destinasjonsnoder og Create Job-funksjonen i Data Wrangler. Denne funksjonen gir deg muligheten til å eksportere alle transformasjonene du har gjort til et datasett til en destinasjonsnode med bare noen få klikk. Dette lar deg opprette databehandlingsjobber og eksportere til Amazon S3 rent via det visuelle grensesnittet uten å måtte generere, kjøre eller administrere Jupyter-notatbøker, og dermed forbedre lavkodeopplevelsen. For å demonstrere denne nye funksjonen bruker vi Titanic datasett og vis hvordan du eksporterer transformasjonene dine til en destinasjonsnode.

Forutsetninger

Før vi lærer hvordan du bruker destinasjonsnoder med Data Wrangler, bør du allerede forstå hvordan få tilgang til og komme i gang med Data Wrangler. Du må også vite hva en dataflyt betyr med kontekst til Data Wrangler og hvordan du oppretter en ved å importere dataene dine fra de forskjellige datakildene Data Wrangler støtter.

Løsningsoversikt

Tenk på følgende dataflyt kalt example-titanic.flow:

  • Den importerer Titanic-datasettet tre ganger. Du kan se disse ulike importene som separate grener i dataflyten.
  • For hver gren bruker den et sett med transformasjoner og visualiseringer.
  • Den slår sammen grenene til en enkelt node med alle transformasjonene og visualiseringene.

Med denne flyten vil du kanskje behandle og lagre deler av dataene dine til en bestemt filial eller plassering.

I de følgende trinnene viser vi hvordan du oppretter destinasjonsnoder, eksporterer dem til Amazon S3 og oppretter og starter en behandlingsjobb.

Opprett en destinasjonsnode

Du kan bruke følgende prosedyre for å opprette destinasjonsnoder og eksportere dem til en S3-bøtte:

  1. Bestem hvilke deler av flytfilen (transformasjoner) du vil lagre.
  2. Velg plusstegnet ved siden av nodene som representerer transformasjonene du vil eksportere. (Hvis det er en sammenslått node, må du velge alternativikonet (tre prikker) for noden).
  3. Hold markøren over Legg til destinasjon.
  4. Velg Amazon S3.
  5. Spesifiser feltene som vist i følgende skjermbilde.
  6. For den andre sammenføyningsnoden, følg de samme trinnene for å legge til Amazon S3 som en destinasjon og spesifisere feltene.

Du kan gjenta disse trinnene så mange ganger du trenger for så mange noder du ønsker i dataflyten. Senere velger du hvilke destinasjonsnoder som skal inkluderes i behandlingsjobben.

Start en behandlingsjobb

Bruk følgende prosedyre for å opprette en behandlingsjobb og velg destinasjonsnoden du vil eksportere til:

  1. Dataflyt kategorien, velg Lag jobb.
  2. Til Jobb navn¸ skriv inn navnet på eksportjobben.
  3. Velg destinasjonsnodene du vil eksportere.
  4. Spesifiser eventuelt AWS nøkkelstyringstjeneste (AWS KMS) nøkkel ARN.

KMS-nøkkelen er en kryptografisk nøkkel som du kan bruke for å beskytte dataene dine. For mer informasjon om KMS-nøkler, se AWS Key Developer Guide.

  1. Velg Neste, 2. Konfigurer jobb.
  2. Eventuelt kan du konfigurere jobben i henhold til dine behov ved å endre forekomsttype eller -antall, eller legge til koder som skal knyttes til jobben.
  3. Velg Kjør å kjøre jobben.

En suksessmelding vises når jobben er opprettet.

Se de endelige dataene

Til slutt kan du bruke følgende trinn for å se de eksporterte dataene:

  1. Etter at du har opprettet jobben, velg den angitte koblingen.

En ny fane åpnes som viser behandlingsjobben på SageMaker-konsollen.

  1. Når jobben er fullført, se gjennom de eksporterte dataene på Amazon S3-konsollen.

Du skal se en ny mappe med jobbnavnet du valgte.

  1. Velg jobbnavnet for å vise en CSV-fil (eller flere filer) med de endelige dataene.

FAQ

I denne delen tar vi opp noen vanlige spørsmål om denne nye funksjonen:

  • Hva skjedde med Eksporter-fanen? Med denne nye funksjonen fjernet vi Eksport fanen fra Data Wrangler. Du kan fortsatt lette eksportfunksjonaliteten via de Data Wrangler-genererte Jupyter-notatbøkene fra alle noder du opprettet i dataflyten med følgende trinn:
    1. Velg plusstegnet ved siden av noden du vil eksportere.
    2. Velg Eksport til.
    3. Velg Amazon S3 (via Jupyter Notebook).
    4. Kjør Jupyter-notisboken.
  • Hvor mange destinasjonsnoder kan jeg inkludere i en jobb? Det er maksimalt 10 destinasjoner per behandlingsjobb.
  • Hvor mange destinasjonsnoder kan jeg ha i en flytfil? Du kan ha så mange destinasjonsnoder du vil.
  • Kan jeg legge til transformasjoner etter destinasjonsnodene mine? Nei, ideen er at destinasjonsnoder er terminalnoder som ikke har flere trinn etterpå.
  • Hva er de støttede kildene jeg kan bruke med destinasjonsnoder? Når dette skrives, støtter vi kun Amazon S3 som en destinasjonskilde. Støtte for flere destinasjonskildetyper vil bli lagt til i fremtiden. Ta kontakt hvis det er en spesifikk du ønsker å se.

Oppsummering

I dette innlegget demonstrerte vi hvordan du bruker de nylig lanserte destinasjonsnodene til å lage behandlingsjobber og lagre de transformerte datasettene dine direkte til Amazon S3 via Data Wranglers visuelle grensesnitt. Med denne tilleggsfunksjonen har vi forbedret den verktøydrevne lavkodeopplevelsen til Data Wrangler.

Som neste trinn anbefaler vi at du prøver eksemplet vist i dette innlegget. Hvis du har spørsmål eller ønsker å lære mer, se Eksport eller legg igjen et spørsmål i kommentarfeltet.


Om forfatterne

Alfonso Austin-Rivera er en Front End Engineer hos Amazon SageMaker Data Wrangler. Han brenner for å bygge intuitive brukeropplevelser som vekker glede. På fritiden kan du finne ham som kjemper mot tyngdekraften på et fjellklatre-treningsstudio eller ute når han flyr dronen.

Parsa Shahbodaghi er en teknisk skribent i AWS som spesialiserer seg på maskinlæring og kunstig intelligens. Han skriver den tekniske dokumentasjonen for Amazon SageMaker Data Wrangler og Amazon SageMaker Feature Store. På fritiden liker han å meditere, høre på lydbøker, vektløfting og se standup-komedie. Han vil aldri bli en standup-komiker, men moren hans synes i det minste at han er morsom.

Balaji Tummala er programvareutviklingsingeniør hos Amazon SageMaker. Han hjelper til med å støtte Amazon SageMaker Data Wrangler og brenner for å bygge effektiv og skalerbar programvare. Utenom jobben liker han å lese skjønnlitteratur og spille volleyball.

Arunprasath Shankar er en kunstig intelligens og maskinlæring (AI / ML) spesialistløsningsarkitekt med AWS, som hjelper globale kunder å skalere sine AI-løsninger effektivt og effektivt i skyen. På fritiden liker Arun å se sci-fi-filmer og lytte til klassisk musikk.

Kilde: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Tidstempel:

Mer fra AWS maskinlæringsblogg