Zaženite opravila obdelave z nekaj kliki z uporabo Amazon SageMaker Data Wrangler

Izvorno vozlišče: 1600104

Amazon SageMaker Data Wrangler podatkovnim znanstvenikom in inženirjem omogoča hitrejšo pripravo podatkov za aplikacije strojnega učenja (ML) z uporabo vizualnega vmesnika. Prej, ko ste ustvarili podatkovni tok Data Wrangler, ste lahko izbrali različne možnosti izvoza za preprosto integracijo tega podatkovnega toka v vaš cevovod za obdelavo podatkov. Data Wrangler ponuja možnosti izvoza v Preprosta storitev shranjevanja Amazon (Amazon S3), SageMaker cevovodiin Trgovina s funkcijami SageMaker, ali kot kodo Python. Možnosti izvoza ustvarijo zvezek Jupyter in zahtevajo, da zaženete kodo, da začnete obdelavo, ki jo omogoča Obdelava žajblja.

Z veseljem objavljamo splošno izdajo ciljnih vozlišč in funkcije Create Job v Data Wranglerju. Ta funkcija vam omogoča izvoz vseh transformacij, ki ste jih naredili v naboru podatkov, v ciljno vozlišče z le nekaj kliki. To vam omogoča ustvarjanje opravil za obdelavo podatkov in izvoz v Amazon S3 zgolj prek vizualnega vmesnika, ne da bi vam bilo treba ustvarjati, izvajati ali upravljati prenosne računalnike Jupyter, s čimer izboljšate izkušnjo nizke kode. Za predstavitev te nove funkcije uporabljamo Nabor podatkov o Titaniku in pokažite, kako izvozite svoje transformacije v ciljno vozlišče.

Predpogoji

Preden se naučimo uporabljati ciljna vozlišča z Data Wranglerjem, bi morali že razumeti, kako dostopajte in začnite uporabljati Data Wrangler. Prav tako morate vedeti, kaj a pretok podatkov pomeni s kontekstom za Data Wrangler in kako ga ustvariti z uvozom podatkov iz različnih podatkovnih virov, ki jih podpira Data Wrangler.

Pregled rešitev

Razmislite o naslednjem imenovanem podatkovnem toku example-titanic.flow:

  • Nabor podatkov o Titaniku uvozi trikrat. Te različne uvoze lahko vidite kot ločene veje v toku podatkov.
  • Za vsako vejo uporabi nabor transformacij in vizualizacij.
  • Veje združuje v eno samo vozlišče z vsemi transformacijami in vizualizacijami.

S tem tokom boste morda želeli obdelati in shraniti dele svojih podatkov na določeno vejo ali lokacijo.

V naslednjih korakih prikazujemo, kako ustvariti ciljna vozlišča, jih izvoziti v Amazon S3 ter ustvariti in zagnati opravilo obdelave.

Ustvari ciljno vozlišče

Z naslednjim postopkom lahko ustvarite ciljna vozlišča in jih izvozite v vedro S3:

  1. Določite, katere dele datoteke toka (transformacije) želite shraniti.
  2. Izberite znak plus poleg vozlišč, ki predstavljajo transformacije, ki jih želite izvoziti. (Če gre za strnjeno vozlišče, morate za vozlišče izbrati ikono možnosti (tri pike).)
  3. Lebdite nad Dodaj cilj.
  4. Izberite Amazon S3.
  5. Določite polja, kot je prikazano na naslednjem posnetku zaslona.
  6. Za drugo pridružitveno vozlišče sledite istim korakom, da dodate Amazon S3 kot cilj in določite polja.

Te korake lahko ponovite tolikokrat, kot jih potrebujete za toliko vozlišč, ki jih želite v toku podatkov. Kasneje izberete, katera ciljna vozlišča boste vključili v svoje opravilo obdelave.

Zaženite opravilo obdelave

Z naslednjim postopkom ustvarite opravilo obdelave in izberite ciljno vozlišče, kamor želite izvoziti:

  1. o Pretok podatkov izberite jeziček Ustvari službo.
  2. za Ime delovnega mesta¸ vnesite ime izvoznega opravila.
  3. Izberite ciljna vozlišča, ki jih želite izvoziti.
  4. Po želji navedite AWS Service Key Management (AWS KMS) ključ ARN.

Ključ KMS je kriptografski ključ, ki ga lahko uporabite za zaščito svojih podatkov. Za več informacij o ključih KMS glejte AWS Key Developer Guide.

  1. Izberite Nato 2. Konfigurirajte opravilo.
  2. Po želji lahko konfigurirate opravilo glede na svoje potrebe, tako da spremenite vrsto ali število primerkov ali dodate oznake, ki jih želite povezati z opravilom.
  3. Izberite Run voditi delo.

Ko je opravilo uspešno ustvarjeno, se prikaže sporočilo o uspehu.

Oglejte si končne podatke

Za ogled izvoženih podatkov lahko uporabite naslednje korake:

  1. Ko ustvarite opravilo, izberite navedeno povezavo.

Odpre se nov zavihek, ki prikazuje opravilo obdelave na konzoli SageMaker.

  1. Ko je opravilo končano, preglejte izvožene podatke na konzoli Amazon S3.

Morali bi videti novo mapo z imenom opravila, ki ste ga izbrali.

  1. Izberite ime opravila za ogled datoteke CSV (ali več datotek) s končnimi podatki.

FAQ

V tem razdelku obravnavamo nekaj pogostih vprašanj o tej novi funkciji:

  • Kaj se je zgodilo z zavihkom Izvozi? S to novo funkcijo smo odstranili izvoz zavihek Data Wrangler. Funkcijo izvoza lahko še vedno olajšate prek zvezkov Jupyter, ki jih je ustvaril Data Wrangler, iz katerega koli vozlišča, ki ste ga ustvarili v toku podatkov, z naslednjimi koraki:
    1. Izberite znak plus poleg vozlišča, ki ga želite izvoziti.
    2. Izberite Izvozi v.
    3. Izberite Amazon S3 (prek Jupyter Notebook).
    4. Zaženite zvezek Jupyter.
  • Koliko ciljnih vozlišč lahko vključim v opravilo? Na posamezno opravilo obdelave je največ 10 ciljev.
  • Koliko ciljnih vozlišč lahko imam v datoteki toka? Imate lahko poljubno število ciljnih vozlišč.
  • Ali lahko dodam transformacije za ciljnimi vozlišči? Ne, ideja je, da so ciljna vozlišča končna vozlišča, ki zatem nimajo nadaljnjih korakov.
  • Katere podprte vire lahko uporabljam s ciljnimi vozlišči? Od tega pisanja podpiramo samo Amazon S3 kot ciljni vir. Podpora za več vrst ciljnih virov bo dodana v prihodnosti. Prosimo, obrnite se nanj, če želite videti katerega posebnega.

Povzetek

V tej objavi smo pokazali, kako uporabiti na novo zagnana ciljna vozlišča za ustvarjanje opravil za obdelavo in shranjevanje vaših transformiranih naborov podatkov neposredno v Amazon S3 prek vizualnega vmesnika Data Wrangler. S to dodatno funkcijo smo izboljšali izkušnjo Data Wranglerja z nizko kodo, ki temelji na orodjih.

Kot naslednje korake priporočamo, da preizkusite primer, predstavljen v tej objavi. Če imate kakršna koli vprašanja ali želite izvedeti več, glejte izvoz ali pustite vprašanje v razdelku za komentarje.


O avtorjih

Alfonso Austin-Rivera je front end inženir pri Amazon SageMaker Data Wrangler. Navdušen je nad gradnjo intuitivnih uporabniških izkušenj, ki vzbujajo veselje. V prostem času ga lahko najdete, kako se bori z gravitacijo v telovadnici za plezanje ali zunaj, ko leti z dronom.

Parsa Shahbodaghi je tehnični pisec v AWS, specializiran za strojno učenje in umetno inteligenco. Piše tehnično dokumentacijo za Amazon SageMaker Data Wrangler in Amazon SageMaker Feature Store. V prostem času rad meditira, posluša zvočne knjige, dviguje uteži in gleda stand-up komedijo. Nikoli ne bo stand-up komik, a vsaj njegova mama misli, da je smešen.

Balaji Tummala je inženir za razvoj programske opreme pri Amazon SageMaker. Pomaga pri podpori Amazon SageMaker Data Wrangler in je navdušen nad gradnjo zmogljive in razširljive programske opreme. Zunaj dela rad bere leposlovje in igra odbojko.

Arunprasath Shankar je arhitekt za umetno inteligenco in strojno učenje (AI / ML) Specialist Solutions Architect z AWS, ki svetovnim strankam pomaga, da svoje rešitve AI učinkovito in uspešno lestvijo v oblaku. V prostem času Arun rad gleda znanstvenofantastične filme in posluša klasično glasbo.

Vir: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Časovni žig:

Več od Blog za strojno učenje AWS