Az adatok előkészítése minden gépi tanulási (ML) munkafolyamat kulcsfontosságú lépése, mégis gyakran jár fárasztó és időigényes feladatokkal. Amazon SageMaker Canvas most támogatja az átfogó adat-előkészítési képességeket, amelyeket a Amazon SageMaker Data Wrangler. Ezzel az integrációval a SageMaker Canvas egy végponttól végpontig kód nélküli munkaterületet biztosít az ügyfeleknek az adatok előkészítéséhez, az ML és alapozási modellek felépítéséhez és használatához, hogy felgyorsítsák az adatoktól az üzleti betekintésig eltelt időt. Mostantól könnyedén felfedezheti és összesítheti az adatokat több mint 50 adatforrásból, valamint felfedezheti és előkészítheti az adatokat a SageMaker Canvas vizuális felületén található több mint 300 beépített elemzés és átalakítás segítségével. Az átalakítások és elemzések gyorsabb teljesítményét, valamint a természetes nyelvű felületet az ML adatok feltárásához és átalakításához is láthatja.
Ebben a bejegyzésben végigvezetjük az adatok előkészítésének folyamatán a SageMaker Canvas teljes körű modellépítéséhez.
Megoldás áttekintése
Felhasználási esetünkben egy pénzügyi szolgáltató cégnél vállaljuk az adatszakértői szerepet. Két mintaadatkészletet használunk egy ML modell felépítéséhez, amely előrejelzi, hogy a hitelfelvevő teljes mértékben visszafizeti-e a kölcsönt, ami kulcsfontosságú a hitelkockázat kezeléséhez. A SageMaker Canvas kód nélküli környezete lehetővé teszi számunkra, hogy kódolás nélkül gyorsan előkészítsük az adatokat, megtervezzük a funkciókat, betanítsuk az ML-modellt és telepítsük a modellt egy végpontok közötti munkafolyamatban.
Előfeltételek
Ennek az áttekintésnek a követéséhez győződjön meg arról, hogy végrehajtotta a fejezetben részletezett előfeltételeket
- Indítsa el az Amazon SageMaker Canvast. Ha Ön már SageMaker Canvas felhasználó, győződjön meg róla jelentkezzen ki és jelentkezzen be újra, hogy használni tudja ezt az új funkciót.
- Ha adatokat szeretne importálni a Snowflake szolgáltatásból, kövesse a következő lépéseit OAuth beállítása a Snowflake számára.
Készítsen interaktív adatokat
A beállítás befejeztével immár létrehozhatunk egy adatfolyamot, amely lehetővé teszi az interaktív adat-előkészítést. Az adatfolyam beépített átalakításokat és valós idejű vizualizációkat biztosít az adatok vitatásához. Hajtsa végre a következő lépéseket:
- Hozzon létre egy új adatfolyamot az alábbi módszerek egyikével:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Data Wrangler, Adatfolyamok, majd válassza ki Teremt.
- Válassza ki a SageMaker Canvas adatkészletet, és válassza ki Hozzon létre egy adatfolyamot.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok importálása és válassza ki a Táblázatos a legördülő listából.
- Az adatokat közvetlenül importálhatja több mint 50 adatösszekötőn keresztül, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, Snowflake és Salesforce. Ebben az áttekintésben az adatok közvetlenül a Snowflake szolgáltatásból történő importálásával foglalkozunk.
Alternatív megoldásként feltöltheti ugyanazt az adatkészletet a helyi gépéről. Letöltheti az adatkészletet hitelek-1.csv és a hitelek-2.csv.
- Az adatok importálása oldalon válassza ki a Snowflake elemet a listából, és válassza a lehetőséget Csatlakozás hozzáadása.
- Adja meg a kapcsolat nevét, válassza a lehetőséget OAuth opciót a hitelesítési mód legördülő listából. Adja meg okta fiókazonosítóját, és válassza a Kapcsolat hozzáadása lehetőséget.
- A rendszer átirányítja az Okta bejelentkezési képernyőjére, ahol megadhatja az Okta hitelesítő adatait a hitelesítéshez. Sikeres hitelesítés esetén a rendszer átirányítja az adatfolyam oldalára.
- Tallózással keresse meg a kölcsön adatkészletét a Snowflake adatbázisból
Válassza ki a két hiteladatkészletet úgy, hogy húzza őket a képernyő bal oldaláról jobbra. A két adatkészlet összekapcsolódik, és megjelenik egy összekapcsolási szimbólum piros felkiáltójellel. Kattintson rá, majd válassza ki mindkét adatkészlethez a id kulcs. A csatlakozási típust hagyja így Belső. Így kell kinéznie:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Mentés és bezárás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatkészlet létrehozása. Adjon nevet az adatkészletnek.
- Navigáljon az adatfolyamhoz, és a következőt fogja látni.
- A hiteladatok gyors felfedezéséhez válassza a lehetőséget Szerezzen betekintést az adatokból És válassza ki a
loan_status
céloszlop és Osztályozás probléma típus.
A generált Data Quality and Insight jelentés kulcsfontosságú statisztikákat, vizualizációkat és funkciók fontossági elemzését nyújtja.
- Tekintse át az adatminőségi problémákra és a kiegyensúlyozatlan osztályokra vonatkozó figyelmeztetéseket, hogy megértse és javítsa az adatkészletet.
Az adatkészlet esetében ebben a használati esetben a „Nagyon alacsony gyorsmodell-pontszám” magas prioritású figyelmeztetésre kell számítani, valamint a kisebbségi osztályokon (ki van töltve és aktuális) a modell nagyon alacsony hatékonysága, jelezve az adatok tisztításának és kiegyensúlyozásának szükségességét. Hivatkozni Vászondokumentáció ha többet szeretne megtudni az adatelemzési jelentésről.
A SageMaker Data Wrangler által működtetett több mint 300 beépített átalakításnak köszönhetően a SageMaker Canvas felhatalmazza Önt a kölcsönadatok gyors vitatására. Rá lehet kattintani Lépés hozzáadása, és böngésszen vagy keressen a megfelelő átalakítások között. Ehhez az adatkészlethez használja a Csepp hiányzik és a Kezelje a kiugró értékeket adatok törléséhez, majd alkalmazza Egyszeri kódolás, és a Szöveg vektorizálása szolgáltatások létrehozásához az ML számára.
Chat az adatok előkészítéséhez egy új természetes nyelvi képesség, amely lehetővé teszi az intuitív adatelemzést a kérések egyszerű angol nyelvű leírásával. Például természetes kifejezések használatával statisztikákat és jellemző korrelációs elemzéseket kaphat a hiteladatokról. A SageMaker Canvas párbeszédes interakciókon keresztül megérti és futtatja a műveleteket, így az adatok előkészítését a következő szintre emeli.
Tudjuk használni Chat az adatok előkészítéséhez és beépített transzformáció a hiteladatok kiegyenlítésére.
- Először írja be a következő utasításokat:
replace “charged off” and “current” in loan_status with “default”
Chat az adatok előkészítéséhez kódot generál két kisebbségi osztály egyesítéséhez default
osztály.
- Válassza ki a beépítettet SMOTE transzformációs függvény szintetikus adatok generálásához az alapértelmezett osztályhoz.
Most van egy kiegyensúlyozott céloszlop.
- A hiteladatok tisztítása és feldolgozása után regenerálja a Data Quality and Insight jelentés a fejlesztések áttekintésére.
A magas prioritású figyelmeztetés eltűnt, ami az adatminőség javulását jelzi. Szükség esetén további átalakításokat is hozzáadhat a modelltanítás adatminőségének javításához.
Az adatfeldolgozás skálázása és automatizálása
Az adat-előkészítés automatizálása érdekében a teljes munkafolyamatot elosztott Spark-feldolgozási feladatként futtathatja vagy ütemezheti a teljes adatkészlet vagy bármely friss adatkészlet méretű feldolgozásához.
- Az adatfolyamon belül adjon hozzá egy Amazon S3 célcsomópontot.
- Indítson el egy SageMaker feldolgozási feladatot a választással Állás létrehozása.
- Konfigurálja a feldolgozási feladatot, és válassza ki Teremt, amely lehetővé teszi, hogy az adatfolyam mintavétel nélkül futhasson több száz GB-os adaton.
Az adatfolyamok beépíthetők a végpontok közötti MLOps folyamatokba az ML életciklus automatizálása érdekében. Az adatfolyamok betáplálhatók a SageMaker Studio notebookokba a SageMaker-folyamat adatfeldolgozási lépéseként vagy egy SageMaker-következtetési folyamat telepítéséhez. Ez lehetővé teszi a folyamat automatizálását az adatok előkészítésétől a SageMaker képzéséig és hostingig.
Építse meg és helyezze üzembe a modellt a SageMaker Canvasban
Az adatok előkészítése után a végső adatkészletet zökkenőmentesen exportálhatjuk a SageMaker Canvasba, hogy felállíthassuk, betaníthassuk és telepítsük a hitelfizetés előrejelzési modelljét.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Modell létrehozása az adatfolyam utolsó csomópontjában vagy a csomópontok ablaktáblájában.
Ez exportálja az adatkészletet, és elindítja az irányított modellkészítési munkafolyamatot.
- Nevezze el az exportált adatkészletet, és válassza ki Export.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Modell létrehozása az értesítésből.
- Nevezze meg a modellt, válassza ki Prediktív elemzés, és válasszon Teremt.
Ez átirányítja a modellépítés oldalára.
- Folytassa a SageMaker Canvas modellkészítési tapasztalattal a céloszlop és a modelltípus kiválasztásával, majd válassza ki Gyors felépítés or Szabványos felépítés.
Ha többet szeretne megtudni a modellépítési tapasztalatokról, lásd: Építs egy modellt.
Amikor a betanítás befejeződött, a modell segítségével előre jelezheti az új adatokat vagy telepítheti azokat. Hivatkozni Telepítse az Amazon SageMaker Canvasba épített ML modelleket az Amazon SageMaker valós idejű végpontjaira hogy többet megtudjon a SageMaker Canvas modelljének bevezetéséről.
Következtetés
Ebben a bejegyzésben bemutattuk a SageMaker Canvas teljes körű képességeit azzal, hogy elvállaltuk a pénzügyi adatokkal foglalkozó szakember szerepét, aki a SageMaker Data Wrangler által működtetett hitelfizetés előrejelzéséhez adatokat készít elő. Az interaktív adat-előkészítés lehetővé tette a hiteladatok gyors tisztítását, átalakítását és elemzését informatív funkciók kialakításához. A kódolási bonyolultságok eltávolításával a SageMaker Canvas lehetővé tette számunkra, hogy gyorsan iteráljunk, hogy kiváló minőségű képzési adatkészletet hozzunk létre. Ez a felgyorsított munkafolyamat közvetlenül vezet egy hatékony ML-modell felépítéséhez, képzéséhez és üzembe helyezéséhez az üzleti hatás érdekében. Átfogó adat-előkészítésével és egységes tapasztalataival az adatoktól a betekintésig a SageMaker Canvas felhatalmazza Önt az ML-eredmények javítására. Ha további információra van szüksége arról, hogyan gyorsíthatja fel az adatoktól az üzleti betekintésekig vezető utat, lásd: SageMaker Canvas merítési nap és a AWS használati útmutató.
A szerzőkről
Dr. Changsha Ma az AWS AI/ML specialistája. Technológus, PhD fokozattal számítástechnikából, mesterfokozatú oktatáspszichológiából, valamint több éves tapasztalattal rendelkezik az adattudomány és az AI/ML független tanácsadás területén. Szenvedélyesen kutatja a gépi és emberi intelligencia módszertani megközelítéseit. Munkán kívül szeret kirándulni, főzni, ételt vadászni, valamint barátokkal és családdal tölteni az időt.
Ajjay Govindaram az AWS vezető megoldási építésze. Stratégiai ügyfelekkel dolgozik, akik AI/ML-t használnak összetett üzleti problémák megoldására. Tapasztalata abban rejlik, hogy műszaki irányítást, valamint tervezési segítséget nyújt a szerény és nagyszabású AI/ML alkalmazások telepítéséhez. Ismerete az alkalmazás-architektúrától a big data-ig, az analitikáig és a gépi tanulásig terjed. Szívesen hallgat zenét pihenés közben, tapasztal a szabadban, és szeretivel tölti az időt.
Huong Nguyen az AWS idősebb termékmenedzsere. Ő vezeti a SageMaker Canvas és a SageMaker Data Wrangler ML adatok előkészítését, 15 éves tapasztalatával ügyfélközpontú és adatvezérelt termékek építésében.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :van
- :is
- $ UP
- 100
- 12
- 13
- 14
- 15 év
- 15%
- 300
- 50
- 8
- a
- Képes
- Rólunk
- gyorsul
- felgyorsult
- Fiók
- cselekvések
- hozzá
- adalékanyag
- AI / ML
- megengedett
- lehetővé teszi, hogy
- mentén
- már
- Is
- amazon
- Amazon SageMaker
- Amazon SageMaker Canvas
- Az Amazon Web Services
- an
- elemzések
- elemzés
- analitika
- elemzése
- és a
- bármilyen
- megjelenik
- Alkalmazás
- megközelít
- építészet
- VANNAK
- AS
- Támogatás
- At
- hitelesíteni
- Hitelesítés
- automatizált
- automatizálás
- AWS
- vissza
- Egyenleg
- Kiegyensúlyozott
- BE
- Nagy
- Big adatok
- kölcsönvevő
- mindkét
- épít
- Épület
- épült
- beépített
- üzleti
- üzleti hatás
- by
- TUD
- Kaphat
- vászon
- képességek
- képesség
- eset
- töltött
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választja
- osztály
- osztályok
- ragadozó ölyv
- Takarításra
- kettyenés
- kód
- Kódolás
- Oszlop
- vállalat
- teljes
- bonyolult
- bonyodalmak
- átfogó
- számítógép
- Computer Science
- Csatlakozás
- kapcsolat
- tanácsadó
- társalgó
- főzés
- Összefüggés
- terjed
- teremt
- teremtés
- Hitelesítő adatok
- hitel
- kritikus
- Jelenlegi
- Ügyfelek
- dátum
- adatelemzés
- Adatok előkészítése
- adatfeldolgozás
- adatminőség
- adat-tudomány
- adatalapú
- adatkészletek
- alapértelmezett
- Fok
- igazolták
- telepíteni
- bevezetéséhez
- bevetések
- leíró
- Design
- rendeltetési hely
- részletes
- irány
- közvetlenül
- felfedez
- megosztott
- le-
- letöltés
- Csepp
- Csepegés
- könnyen
- Oktatás
- hatékonyság
- felhatalmazza
- lehetővé
- engedélyezve
- lehetővé teszi
- lehetővé téve
- végtől végig
- mérnök
- Angol
- növelése
- biztosítására
- belép
- Egész
- Környezet
- Eter (ETH)
- példa
- vár
- tapasztalat
- tapasztal
- feltárása
- export
- export
- családok
- gyorsabb
- Funkció
- Jellemzők
- utolsó
- pénzügyi
- pénzügyi adat
- pénzügyi szolgáltatások
- pénzügyi szolgáltató társaság
- áramlási
- flow
- következik
- következő
- élelmiszer
- A
- Alapok
- friss
- barátok
- ból ből
- teljesen
- funkció
- további
- generál
- generált
- generál
- kap
- Ad
- vezetett
- Legyen
- he
- Magas
- jó minőségű
- turisztika
- övé
- tárhely
- Hogyan
- How To
- HTML
- http
- HTTPS
- emberi
- humán felderítés
- Több száz
- Vadászat
- ID
- if
- kiegyensúlyozatlan
- elmerülés
- Hatás
- végre
- importál
- fontosság
- importáló
- javul
- javított
- fejlesztések
- in
- Bejegyzett
- független
- jelezve
- információ
- tájékoztató
- Insight
- meglátások
- utasítás
- integráció
- Intelligencia
- kölcsönhatások
- interaktív
- Felület
- bele
- intuitív
- jár
- kérdések
- IT
- ITS
- Munka
- csatlakozik
- Journeys
- jpg
- Kulcs
- tudás
- nyelv
- nagyarányú
- keresztnév
- elindítja
- vezető
- vezetékek
- TANUL
- tanulás
- Szabadság
- balra
- szint
- fekszik
- életciklus
- mint
- Lista
- Kihallgatás
- hitel
- Hitelek
- helyi
- log
- Belépés
- néz
- hasonló
- szeretett
- szeret
- Elő/Utó
- gép
- gépi tanulás
- csinál
- menedzser
- kezelése
- jel
- mester
- megy
- módszer
- mód
- kisebbség
- ML
- MLOps
- modell
- modellek
- szerény
- több
- zene
- név
- Természetes
- Természetes nyelv
- Szükség
- szükséges
- Új
- új funkció
- következő
- csomópont
- csomópontok
- laptopok
- bejelentés
- Most
- auth
- of
- kedvezmény
- gyakran
- OKTA
- on
- ONE
- azok
- opció
- or
- mi
- eredmények
- szabadban
- kívül
- felett
- oldal
- üvegtábla
- szenvedélyes
- fizetés
- teljesítmény
- phd
- kifejezés
- csővezeték
- Egyszerű
- Plató
- Platón adatintelligencia
- PlatoData
- állás
- powered
- előre
- előrejelzés
- jósolja
- előkészítés
- Készít
- előkészítése
- előfeltételek
- prioritás
- Probléma
- problémák
- folyamat
- feldolgozás
- Termékek
- termék menedzser
- Termékek
- szakmai
- biztosít
- amely
- Pszichológia
- világítás
- gyorsan
- gyorsan
- real-time
- Piros
- átirányítás
- utal
- eltávolítása
- jelentést
- kéri
- pihenő
- Kritika
- jobb
- Kockázat
- Szerep
- futás
- fut
- sagemaker
- SageMaker következtetés
- értékesítési erő
- azonos
- Skála
- menetrend
- Tudomány
- Képernyő
- zökkenőmentesen
- Keresés
- lát
- válasszuk
- idősebb
- Szolgáltatások
- szolgáltató cég
- felépítés
- ő
- kellene
- oldal
- Egyszerű
- Megoldások
- SOLVE
- Források
- Szikra
- szakember
- Költési
- statisztika
- Lépés
- Lépései
- tárolás
- Stratégiai
- stúdió
- sikeres
- ilyen
- Támogatja
- biztos
- szimbólum
- szintetikus
- szintetikus adatok
- bevétel
- cél
- feladatok
- Műszaki
- technológus
- hogy
- A
- Őket
- akkor
- ezt
- Keresztül
- idő
- időigényes
- nak nek
- Vonat
- Képzések
- Átalakítás
- transzformációk
- transzformáló
- transzformáció
- kettő
- típus
- megért
- megérti
- egységes
- us
- használ
- használati eset
- használó
- segítségével
- nagyon
- vizuális
- séta
- végigjátszás
- figyelmeztetés
- we
- háló
- webes szolgáltatások
- JÓL
- vajon
- ami
- míg
- WHO
- egész
- lesz
- val vel
- nélkül
- Munka
- munkafolyamat
- művek
- Műhelyek
- lenne
- év
- még
- te
- A te
- zephyrnet