Käynnistä käsittelytyöt muutamalla napsautuksella Amazon SageMaker Data Wrangler -sovelluksella

Lähdesolmu: 1600104

Amazon SageMaker Data Wrangler nopeuttaa datatieteilijöiden ja insinöörien valmistamista koneoppimissovelluksiin (ML) visuaalisen käyttöliittymän avulla. Aiemmin, kun loit Data Wrangler -tietovirran, voit valita erilaisia ​​vientivaihtoehtoja, jotta tietovirta voidaan helposti integroida tietojenkäsittelyputkeen. Data Wrangler tarjoaa vientivaihtoehtoja Amazonin yksinkertainen tallennuspalvelu (Amazon S3), SageMaker-putkistotja SageMaker-ominaisuuskauppa, tai Python-koodina. Vientivaihtoehdot luovat Jupyter-muistikirjan ja edellyttävät koodin suorittamista, jotta voit aloittaa käsittelytyön, jota helpottaa SageMaker-käsittely.

Meillä on ilo ilmoittaa Data Wranglerin kohdesolmujen ja Luo työ -ominaisuuden yleisestä julkaisusta. Tämä ominaisuus antaa sinulle mahdollisuuden viedä kaikki tietojoukkoon tekemäsi muunnokset kohdesolmuun vain muutamalla napsautuksella. Tämän avulla voit luoda tietojenkäsittelytöitä ja viedä Amazon S3:een puhtaasti visuaalisen käyttöliittymän kautta ilman, että sinun tarvitsee luoda, ajaa tai hallita Jupyter-kannettavia, mikä parantaa alhaisen koodin käyttökokemusta. Tämän uuden ominaisuuden esittelemiseksi käytämme Titanic-tietojoukko ja näytä kuinka viedä muunnosi kohdesolmuun.

Edellytykset

Ennen kuin opimme käyttämään kohdesolmuja Data Wranglerin kanssa, sinun pitäisi jo ymmärtää kuinka päästä ja aloittaa Data Wranglerin käytön. Sinun on myös tiedettävä, mitä a tietovirta tarkoittaa kontekstia Data Wrangleriin ja kuinka luoda sellainen tuomalla tietosi eri tietolähteistä, joita Data Wrangler tukee.

Ratkaisun yleiskatsaus

Harkitse seuraavaa tietovirtaa nimeltä example-titanic.flow:

  • Se tuo Titanic-tietojoukon kolme kertaa. Näet nämä erilaiset tuonnit erillisinä haaroina tietovirrassa.
  • Jokaiselle haaralle se käyttää joukkoa muunnoksia ja visualisointeja.
  • Se yhdistää haarat yhdeksi solmuksi kaikilla muunnoksilla ja visualisoinneilla.

Tämän työnkulun avulla saatat haluta käsitellä ja tallentaa osia tiedoistasi tiettyyn haaraan tai sijaintiin.

Seuraavissa vaiheissa näytämme, kuinka luodaan kohdesolmuja, viedään ne Amazon S3:een sekä luodaan ja aloitetaan käsittelytyö.

Luo kohdesolmu

Voit luoda kohdesolmuja ja viedä ne S3-säihöön seuraavasti:

  1. Määritä, mitkä vuotiedoston osat (muunnokset) haluat tallentaa.
  2. Valitse plusmerkki niiden solmujen vierestä, jotka edustavat muunnoksia, jotka haluat viedä. (Jos se on tiivistetty solmu, sinun on valittava solmulle asetuskuvake (kolme pistettä).
  3. Vie hiiri Lisää määränpää.
  4. Valita Amazon S3.
  5. Määritä kentät seuraavan kuvakaappauksen mukaisesti.
  6. Lisää Amazon S3 kohteeksi ja määritä kentät toiselle liitossolmulle noudattamalla samoja vaiheita.

Voit toistaa nämä vaiheet niin monta kertaa kuin tarvitset niin monelle datavirtasi solmulle, jonka haluat. Myöhemmin voit valita, mitkä kohdesolmut sisällytetään käsittelytyöhön.

Aloita käsittelytyö

Luo käsittelytyö seuraavasti ja valitse kohdesolmu, johon haluat viedä:

  1. On Tietovirta välilehti, valitse Luo työpaikka.
  2. varten Työn nimi¸ syötä vientityön nimi.
  3. Valitse kohdesolmut, jotka haluat viedä.
  4. Määritä valinnaisesti AWS-avainhallintapalvelu (AWS KMS) -avain ARN.

KMS-avain on salausavain, jota voit käyttää tietojesi suojaamiseen. Lisätietoja KMS-avaimista on kohdassa AWS Key -kehittäjän opas.

  1. Valita Seuraavaksi 2. Määritä työ.
  2. Vaihtoehtoisesti voit määrittää työn tarpeidesi mukaan muuttamalla esiintymän tyyppiä tai lukumäärää tai lisäämällä työhön liitettävät tunnisteet.
  3. Valita ajaa hoitamaan työtä.

Näyttöön tulee onnistumisviesti, kun työ on luotu onnistuneesti.

Katso lopulliset tiedot

Lopuksi voit tarkastella vietyjä tietoja seuraavien vaiheiden avulla:

  1. Kun olet luonut työtehtävän, valitse annettu linkki.

Uusi välilehti avautuu, jossa näkyy käsittelytyö SageMaker-konsolissa.

  1. Kun työ on valmis, tarkista viety data Amazon S3 -konsolissa.

Sinun pitäisi nähdä uusi kansio, jossa on valitsemasi työn nimi.

  1. Valitse työn nimi, jos haluat tarkastella CSV-tiedostoa (tai useita tiedostoja) lopullisten tietojen kanssa.

FAQ

Tässä osiossa käsittelemme muutamia usein kysyttyjä kysymyksiä tästä uudesta ominaisuudesta:

  • Mitä tapahtui Vienti-välilehdelle? Tällä uudella ominaisuudella poistimme Vie Data Wranglerin välilehti. Voit silti helpottaa vientitoimintoa Data Wranglerin luomien Jupyter-muistikirjojen avulla kaikista tietovirtaan luomistasi solmuista seuraavasti:
    1. Valitse plusmerkki sen solmun vierestä, jonka haluat viedä.
    2. Valita Vie osoitteeseen.
    3. Valita Amazon S3 (Jupyter Notebookin kautta).
    4. Suorita Jupyter-muistikirja.
  • Kuinka monta kohdesolmua voin sisällyttää työhön? Yhtä käsittelytyötä kohden on enintään 10 kohdetta.
  • Kuinka monta kohdesolmua minulla voi olla vuotiedostossa? Sinulla voi olla niin monta kohdesolmua kuin haluat.
  • Voinko lisätä muunnoksia kohdesolmujeni jälkeen? Ei, ideana on, että kohdesolmut ovat päätesolmuja, joilla ei ole sen jälkeen muita vaiheita.
  • Mitä tuettuja lähteitä voin käyttää kohdesolmujen kanssa? Tätä kirjoittaessa tuemme vain Amazon S3:a kohdelähteenä. Tuki useille kohdelähdetyypeille lisätään tulevaisuudessa. Ota yhteyttä, jos sinulla on jokin tietty, jonka haluaisit nähdä.

Yhteenveto

Tässä viestissä osoitimme, kuinka äskettäin käynnistettyjen kohdesolmujen avulla voidaan luoda prosessointitöitä ja tallentaa muunnetut tietojoukot suoraan Amazon S3:een Data Wranglerin visuaalisen käyttöliittymän kautta. Tämän lisäominaisuuden avulla olemme parantaneet Data Wranglerin työkalupohjaista matalakoodikokemusta.

Seuraavina vaiheina suosittelemme, että kokeilet tässä viestissä esitettyä esimerkkiä. Jos sinulla on kysyttävää tai haluat tietää lisää, katso Vie tai jätä kysymys kommenttikenttään.


Tietoja Tekijät

Alfonso Austin-Rivera on Amazon SageMaker Data Wranglerin käyttöliittymäinsinööri. Hän on intohimoinen luomaan intuitiivisia käyttökokemuksia, jotka herättävät iloa. Vapaa-ajallaan voit löytää hänet taistelemassa painovoimaa vastaan ​​kalliokiipeilysalilla tai ulkona lentämään droneaan.

Parsa Shahbodaghi on AWS:n tekninen kirjoittaja, joka on erikoistunut koneoppimiseen ja tekoälyyn. Hän kirjoittaa tekniset asiakirjat Amazon SageMaker Data Wranglerille ja Amazon SageMaker Feature Storelle. Vapaa-ajallaan hän nauttii meditoinnista, äänikirjojen kuuntelemisesta, painonnostosta ja stand-up-komedian katsomisesta. Hänestä ei koskaan tule stand-up-koomikkoa, mutta ainakin hänen äitinsä pitää häntä hauskana.

Balaji Tummala on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hän auttaa tukemaan Amazon SageMaker Data Wrangleria ja on intohimoinen tehokkaiden ja skaalautuvien ohjelmistojen rakentamiseen. Työn ulkopuolella hän lukee kaunokirjallisuutta ja pelaa lentopalloa.

Arunprasath Shankar on tekoälyn ja koneoppimisen (AI / ML) asiantuntijaratkaisuarkkitehti AWS: n kanssa, joka auttaa globaaleja asiakkaita skaalautumaan tekoälyratkaisuihinsa tehokkaasti ja tehokkaasti pilvessä. Vapaa-ajallaan Arun nauttii scifi-elokuvien katsomisesta ja klassisen musiikin kuuntelusta.

Lähde: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Aikaleima:

Lisää aiheesta AWS-koneoppimisblogi