Indítsa el a feldolgozási feladatokat néhány kattintással az Amazon SageMaker Data Wrangler segítségével

Forrás csomópont: 1600104

Amazon SageMaker Data Wrangler vizuális interfész segítségével gyorsabbá teszi az adattudósok és mérnökök számára az adatok gépi tanulási (ML) alkalmazásokhoz való előkészítését. Korábban, amikor Data Wrangler adatfolyamot hozott létre, különböző exportálási beállításokat választhatott, hogy könnyen integrálhassa az adatfolyamot az adatfeldolgozási folyamatba. A Data Wrangler exportálási lehetőségeket kínál Amazon egyszerű tárolási szolgáltatás (Amazon S3), SageMaker csővezetékekés SageMaker Feature Store, vagy Python kódként. Az exportálási beállítások egy Jupyter-jegyzetfüzetet hoznak létre, és megkövetelik a kód futtatását a feldolgozási feladat elindításához SageMaker feldolgozás.

Örömmel jelentjük be a célcsomópontok általános kiadását és a Data Wrangler Munka létrehozása funkcióját. Ezzel a funkcióval néhány kattintással exportálhatja az adatkészletben végzett összes átalakítást egy célcsomópontra. Ez lehetővé teszi adatfeldolgozási feladatok létrehozását és az Amazon S3-ba való exportálást pusztán a vizuális felületen keresztül anélkül, hogy Jupyter notebookokat kellene generálnia, futtatnia vagy kezelnie, ezáltal javítva az alacsony kódolású élményt. Ennek az új funkciónak a bemutatására a Titanic adatkészlet és megmutatja, hogyan exportálhatja transzformációit egy célcsomópontba.

Előfeltételek

Mielőtt megtanulnánk, hogyan kell használni a célcsomópontokat a Data Wranglerrel, már meg kell értenie, hogyan kell elérheti, és elkezdheti a Data Wrangler használatát. Azt is tudni kell, hogy mi a adatáramlás a Data Wrangler kontextusát jelenti, és hogyan hozhat létre egyet az adatok importálásával a Data Wrangler által támogatott különböző adatforrásokból.

Megoldás áttekintése

Tekintsük a következő nevű adatfolyamot example-titanic.flow:

  • Háromszor importálja a Titanic adatkészletet. Ezeket a különböző importokat külön ágakként láthatja az adatfolyamban.
  • Minden ágra egy sor transzformációt és vizualizációt alkalmaz.
  • Az ágakat egyetlen csomóponttá egyesíti az összes transzformációval és megjelenítéssel.

Ezzel a folyamattal érdemes lehet feldolgozni és elmenteni az adatok egy részét egy adott fiókba vagy helyre.

A következő lépésekben bemutatjuk a célcsomópontok létrehozását, az Amazon S3-ba exportálást, valamint a feldolgozási feladat létrehozását és elindítását.

Hozzon létre egy célcsomópontot

A következő eljárással hozhat létre célcsomópontokat, és exportálhatja őket egy S3 tárolóba:

  1. Határozza meg, hogy a folyamatfájl mely részeit (transzformációkat) szeretné menteni.
  2. Válassza ki az exportálni kívánt átalakításokat képviselő csomópontok melletti pluszjelet. (Ha összecsukott csomópontról van szó, ki kell választania a csomópont opcióikonját (három pont).
  3. Felett lebeg Úticél hozzáadása.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3.
  5. Adja meg a mezőket az alábbi képernyőképen látható módon.
  6. A második csatlakozási csomópont esetében ugyanazokat a lépéseket követve adja hozzá az Amazon S3-at célként, és adja meg a mezőket.

Ezeket a lépéseket annyiszor megismételheti, ahányszor szükséges az adatfolyamban kívánt csomópontokhoz. Később kiválaszthatja, hogy mely célcsomópontokat vegye fel a feldolgozási feladatba.

Indítson el egy feldolgozási feladatot

A következő eljárással hozzon létre egy feldolgozási feladatot, és válassza ki azt a célcsomópontot, ahová exportálni szeretné:

  1. A Adatáramlás lapot választani Állás létrehozása.
  2. A Munka megnevezés¸ írja be az exportálási feladat nevét.
  3. Válassza ki az exportálni kívánt célcsomópontokat.
  4. Opcionálisan adja meg a AWS kulcskezelési szolgáltatás (AWS KMS) kulcs ARN.

A KMS-kulcs egy titkosítási kulcs, amellyel megvédheti adatait. A KMS-kulcsokkal kapcsolatos további információkért lásd a AWS Key fejlesztői útmutató.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Ezután 2. Állítsa be a feladatot.
  2. Opcionálisan konfigurálhatja a feladatot igényei szerint a példány típusának vagy számának módosításával, vagy a feladathoz társítható címkék hozzáadásával.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a futás hogy levezesse a munkát.

Sikeres üzenet jelenik meg, amikor a feladat sikeresen létrejött.

Tekintse meg a végleges adatokat

Végül a következő lépésekkel tekintheti meg az exportált adatokat:

  1. A munka létrehozása után válassza ki a megadott hivatkozást.

Megnyílik egy új lap, amely a feldolgozási feladatot mutatja a SageMaker konzolon.

  1. Amikor a feladat befejeződött, tekintse át az exportált adatokat az Amazon S3 konzolon.

Meg kell jelennie egy új mappának a kiválasztott munkanévvel.

  1. Válassza ki a feladat nevét egy CSV-fájl (vagy több fájl) megtekintéséhez a végső adatokkal.

FAQ

Ebben a részben megválaszolunk néhány gyakran ismételt kérdést ezzel az új funkcióval kapcsolatban:

  • Mi történt az Exportálás lappal? Ezzel az új funkcióval eltávolítottuk a Export lapon a Data Wranglertől. Továbbra is megkönnyítheti az exportálást a Data Wrangler által generált Jupyter jegyzetfüzeteken keresztül az adatfolyamban létrehozott csomópontokból a következő lépésekkel:
    1. Válassza az exportálni kívánt csomópont melletti pluszjelet.
    2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Exportálás.
    3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3 (a Jupyter Notebookon keresztül).
    4. Futtassa a Jupyter notebookot.
  • Hány rendeltetési csomópontot tartalmazhatok egy munkában? Feldolgozási munkánként legfeljebb 10 célállomás lehetséges.
  • Hány célcsomópont lehet egy folyamatfájlban? Annyi célcsomópontja lehet, amennyit csak akar.
  • Hozzáadhatok átalakításokat a célcsomópontjaim után? Nem, az ötlet az, hogy a célcsomópontok olyan terminális csomópontok, amelyeknek nincs további lépésük utána.
  • Melyek a támogatott források, amelyeket a célcsomópontokhoz használhatok? Jelen pillanatban csak az Amazon S3-at támogatjuk célforrásként. A jövőben több célforrás-típus támogatása is megjelenik. Kérjük, keressen fel, ha van egy konkrét, amelyet látni szeretne.

Összegzésként

Ebben a bejegyzésben bemutattuk, hogyan lehet az újonnan elindított célcsomópontokkal feldolgozási feladatokat létrehozni, és az átalakított adatkészleteket közvetlenül az Amazon S3-ba menteni a Data Wrangler vizuális felületén keresztül. Ezzel a kiegészítő funkcióval továbbfejlesztettük a Data Wrangler eszközvezérelt alacsony kódú élményét.

Következő lépésként javasoljuk, hogy próbálja ki az ebben a bejegyzésben bemutatott példát. Ha kérdése van, vagy többet szeretne megtudni, nézze meg Export vagy hagyjon fel kérdést a megjegyzés rovatban.


A szerzőkről

Alfonso Austin-Rivera az Amazon SageMaker Data Wrangler front-end mérnöke. Szenvedélyesen törekszik az intuitív felhasználói élmény kialakítására, amely örömet kelt. Szabadidejében egy sziklamászó edzőteremben harcol a gravitációval, vagy kint repül a drónjával.

Parsa Shahbodaghi az AWS műszaki írója, aki gépi tanulásra és mesterséges intelligenciára szakosodott. Ő írja az Amazon SageMaker Data Wrangler és az Amazon SageMaker Feature Store műszaki dokumentációját. Szabadidejében szívesen meditál, hangoskönyveket hallgat, súlyzózik és stand-up comedy-t néz. Soha nem lesz belőle stand-up komikus, de legalább az anyja szerint vicces.

Balaji Tummala az Amazon SageMaker szoftverfejlesztő mérnöke. Segít az Amazon SageMaker Data Wrangler támogatásában, és szenvedélyesen fejleszti a nagy teljesítményű és méretezhető szoftvereket. Munkán kívül szeret szépirodalmat olvasni és röplabdázni.

Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.

Forrás: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Időbélyeg:

Még több AWS gépi tanulási blog