Start verwerkingstaken met een paar klikken met Amazon SageMaker Data Wrangler

Bronknooppunt: 1600104

Amazon SageMaker-gegevens Wrangler maakt het sneller voor datawetenschappers en ingenieurs om gegevens voor machine learning (ML)-toepassingen voor te bereiden door een visuele interface te gebruiken. Voorheen kon u bij het maken van een Data Wrangler-gegevensstroom verschillende exportopties kiezen om die gegevensstroom eenvoudig te integreren in uw gegevensverwerkingspijplijn. Data Wrangler biedt exportopties naar Amazon eenvoudige opslagservice (Amazone S3), SageMaker-pijpleidingen en SageMaker-functiewinkel, of als Python-code. De exportopties maken een Jupyter-notebook en vereisen dat u de code uitvoert om een ​​verwerkingstaak te starten, mogelijk gemaakt door SageMaker-verwerking.

We zijn verheugd om de algemene release van bestemmingsknooppunten en de Create Job-functie in Data Wrangler aan te kondigen. Deze functie geeft u de mogelijkheid om alle transformaties die u naar een dataset hebt gemaakt, met slechts een paar klikken naar een bestemmingsknooppunt te exporteren. Hierdoor kunt u gegevensverwerkingstaken maken en exporteren naar Amazon S3, puur via de visuele interface zonder dat u Jupyter-notebooks hoeft te genereren, uitvoeren of beheren, waardoor de low-code-ervaring wordt verbeterd. Om deze nieuwe functie te demonstreren, gebruiken we de Titanic-gegevensset en laat zien hoe u uw transformaties exporteert naar een bestemmingsknooppunt.

Voorwaarden

Voordat we leren hoe u bestemmingsknooppunten kunt gebruiken met Data Wrangler, moet u al weten hoe u dat moet doen toegang en ga aan de slag met Data Wrangler. Je moet ook weten wat een informatiestroom betekent met context voor Data Wrangler en hoe u er een kunt maken door uw gegevens te importeren uit de verschillende gegevensbronnen die Data Wrangler ondersteunt.

Overzicht oplossingen

Beschouw de volgende gegevensstroom met de naam example-titanic.flow:

  • Het importeert de Titanic-dataset drie keer. Deze verschillende imports kun je zien als aparte vertakkingen in de datastroom.
  • Voor elke tak past het een reeks transformaties en visualisaties toe.
  • Het voegt de takken samen tot één enkel knooppunt met alle transformaties en visualisaties.

Met deze stroom wilt u mogelijk delen van uw gegevens verwerken en opslaan in een specifieke vestiging of locatie.

In de volgende stappen laten we zien hoe u bestemmingsknooppunten kunt maken, deze naar Amazon S3 kunt exporteren en een verwerkingstaak kunt maken en starten.

Maak een bestemmingsknooppunt

U kunt de volgende procedure gebruiken om bestemmingsknooppunten te maken en deze naar een S3-bucket te exporteren:

  1. Bepaal welke delen van het stroombestand (transformaties) u wilt opslaan.
  2. Kies het plusteken naast de knooppunten die de transformaties vertegenwoordigen die u wilt exporteren. (Als het een samengevouwen knooppunt is, moet u het optiepictogram (drie puntjes) voor het knooppunt selecteren).
  3. Zweven over Bestemming toevoegen.
  4. Kies Amazon S3.
  5. Geef de velden op zoals weergegeven in de volgende schermafbeelding.
  6. Volg voor het tweede join-knooppunt dezelfde stappen om Amazon S3 als bestemming toe te voegen en de velden op te geven.

U kunt deze stappen zo vaak als nodig herhalen voor zoveel knooppunten als u wilt in uw gegevensstroom. Later kiest u welke bestemmingsknooppunten u in uw verwerkingstaak wilt opnemen.

Start een verwerkingstaak

Gebruik de volgende procedure om een ​​verwerkingstaak te maken en kies het bestemmingsknooppunt waarnaar u wilt exporteren:

  1. Op de Informatiestroom tabblad, kies Baan creëren.
  2. Voor Taaknaam¸ voer de naam van de exporttaak in.
  3. Selecteer de bestemmingsknooppunten die u wilt exporteren.
  4. Geef optioneel de AWS Sleutelbeheerservice (AWS KMS)-toets ARN.

De KMS-sleutel is een cryptografische sleutel die u kunt gebruiken om uw gegevens te beschermen. Voor meer informatie over KMS-sleutels, zie de Handleiding voor AWS Key-ontwikkelaars.

  1. Kies Vervolgens 2. Configureer de taak.
  2. Optioneel kunt u de taak configureren volgens uw behoeften door het instantietype of aantal te wijzigen, of door tags toe te voegen die aan de taak kunnen worden gekoppeld.
  3. Kies lopen om de baan uit te voeren.

Er verschijnt een succesbericht wanneer de taak met succes is gemaakt.

Bekijk de definitieve gegevens

Ten slotte kunt u de volgende stappen gebruiken om de geëxporteerde gegevens te bekijken:

  1. Nadat u de vacature hebt gemaakt, kiest u de verstrekte link.

Er wordt een nieuw tabblad geopend met de verwerkingstaak op de SageMaker-console.

  1. Wanneer de taak is voltooid, bekijkt u de geëxporteerde gegevens op de Amazon S3-console.

U zou een nieuwe map moeten zien met de taaknaam die u hebt gekozen.

  1. Kies de taaknaam om een ​​CSV-bestand (of meerdere bestanden) met de definitieve gegevens te bekijken.

FAQ

In deze sectie behandelen we enkele veelgestelde vragen over deze nieuwe functie:

  • Wat is er gebeurd met het tabblad Exporteren? Met deze nieuwe functie hebben we de Exporteren tabblad van Data Wrangler. U kunt de exportfunctionaliteit nog steeds faciliteren via de door Data Wrangler gegenereerde Jupyter-notebooks vanaf alle knooppunten die u in de gegevensstroom hebt gemaakt met de volgende stappen:
    1. Kies het plusteken naast het knooppunt dat u wilt exporteren.
    2. Kies Exporteren naar.
    3. Kies Amazon S3 (via Jupyter-notebook).
    4. Voer het Jupyter-notebook uit.
  • Hoeveel bestemmingsknooppunten kan ik in een taak opnemen? Er is een maximum van 10 bestemmingen per verwerkingstaak.
  • Hoeveel bestemmingsknooppunten kan ik in een stroombestand hebben? U kunt zoveel bestemmingsknooppunten hebben als u wilt.
  • Kan ik transformaties toevoegen na mijn bestemmingsknooppunten? Nee, het idee is dat bestemmingsknooppunten eindknooppunten zijn die daarna geen verdere stappen hebben.
  • Wat zijn de ondersteunde bronnen die ik kan gebruiken met bestemmingsknooppunten? Op het moment van schrijven ondersteunen we alleen Amazon S3 als bestemmingsbron. Ondersteuning voor meer soorten bestemmingsbronnen zal in de toekomst worden toegevoegd. Neem contact op als er een specifieke is die u graag zou willen zien.

Samengevat

In dit bericht hebben we gedemonstreerd hoe u de nieuw gelanceerde bestemmingsknooppunten kunt gebruiken om verwerkingstaken te maken en uw getransformeerde datasets rechtstreeks in Amazon S3 op te slaan via de visuele interface van Data Wrangler. Met deze extra functie hebben we de toolgestuurde low-code-ervaring van Data Wrangler verbeterd.

Als volgende stappen raden we u aan het voorbeeld in dit bericht te proberen. Als u vragen heeft of meer wilt weten, zie Exporteren of laat een vraag achter in het commentaargedeelte.


Over de auteurs

Alfonso Austin Rivera is een Front End Engineer bij Amazon SageMaker Data Wrangler. Hij is gepassioneerd door het bouwen van intuïtieve gebruikerservaringen die vreugde opwekken. In zijn vrije tijd kun je hem tegen de zwaartekracht zien vechten in een klimhal of buiten met zijn drone vliegen.

Parsa Shahbodaghi is een technisch schrijver in AWS, gespecialiseerd in machine learning en kunstmatige intelligentie. Hij schrijft de technische documentatie voor Amazon SageMaker Data Wrangler en Amazon SageMaker Feature Store. In zijn vrije tijd houdt hij van mediteren, luisteren naar audioboeken, gewichtheffen en stand-upcomedy kijken. Hij zal nooit een stand-up comedian worden, maar zijn moeder denkt tenminste dat hij grappig is.

Balaji Tummala is een Software Development Engineer bij Amazon SageMaker. Hij helpt Amazon SageMaker Data Wrangler te ondersteunen en heeft een passie voor het bouwen van performante en schaalbare software. Naast zijn werk leest hij graag fictie en speelt hij volleybal.

Arunprasath Shankar is een Artificial Intelligence en Machine Learning (AI / ML) Specialist Solutions Architect met AWS, die wereldwijde klanten helpt hun AI-oplossingen effectief en efficiënt in de cloud te schalen. In zijn vrije tijd kijkt Arun graag naar scifi-films en luistert hij naar klassieke muziek.

Bron: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Tijdstempel:

Meer van AWS Blog over machine learning