Tietojen valmistelu on ratkaiseva vaihe missä tahansa koneoppimisen (ML) työnkulussa, mutta siihen liittyy usein työläitä ja aikaa vieviä tehtäviä. Amazon SageMaker Canvas tukee nyt kattavia tietojen valmisteluominaisuuksia Amazon SageMaker Data Wrangler. Tämän integroinnin avulla SageMaker Canvas tarjoaa asiakkaille päästä päähän koodittoman työtilan tietojen valmistelemiseksi, ML- ja perusmallien rakentamiseksi ja käyttämiseksi nopeuttaakseen aikaa datasta liiketoimintatietoihin. Voit nyt helposti löytää ja koota tietoja yli 50 tietolähteestä sekä tutkia ja valmistella tietoja käyttämällä yli 300 sisäänrakennettua analyysiä ja muunnosa SageMaker Canvasin visuaalisessa käyttöliittymässä. Näet myös nopeamman suorituskyvyn muunnoksissa ja analyyseissä sekä luonnollisen kielen käyttöliittymän ML-tietojen tutkimiseen ja muuntamiseen.
Tässä viestissä opastamme sinut läpi prosessin, jolla valmistetaan tietoja päästä päähän -mallin rakentamista varten SageMaker Canvasissa.
Ratkaisun yleiskatsaus
Käyttötapauksessamme otamme tietoammattilaisen roolin finanssipalveluyrityksessä. Käytämme kahta näyteaineistoa rakentaaksemme ML-mallin, joka ennustaa, maksaako lainanottaja lainan kokonaan takaisin, mikä on olennaista luottoriskin hallinnassa. SageMaker Canvasin koodittoman ympäristön avulla voimme nopeasti valmistella tiedot, suunnitella ominaisuuksia, kouluttaa ML-mallin ja ottaa mallin käyttöön päästä päähän -työnkulussa ilman koodausta.
Edellytykset
Noudata tätä ohjetta varmistamalla, että olet toteuttanut kohdassa kuvatut edellytykset
- Käynnistä Amazon SageMaker Canvas. Jos olet jo SageMaker Canvas -käyttäjä, varmista kirjaudu ulos ja kirjaudu takaisin sisään voidaksesi käyttää tätä uutta ominaisuutta.
- Tuo tietoja Snowflakesta noudattamalla ohjeita Ota OAuth käyttöön Snowflakelle.
Valmistele interaktiivisia tietoja
Kun asennus on valmis, voimme nyt luoda tietovirran interaktiivisen tietojen valmistelun mahdollistamiseksi. Tietovirta tarjoaa sisäänrakennettuja muunnoksia ja reaaliaikaisia visualisointeja tietojen riitelemiseksi. Suorita seuraavat vaiheet:
- Luo uusi tietovirta jollakin seuraavista tavoista:
- Valita Data Wrangler, Tietovirrat, valitse sitten luoda.
- Valitse SageMaker Canvas -tietojoukko ja valitse Luo tietovirta.
- Valita Tuo päivämäärät ja valitse Taulukko pudotusvalikosta.
- Voit tuoda tietoja suoraan yli 50 dataliittimen, kuten esim Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirto, Snowflake ja Salesforce. Tässä esittelyssä käsitellään tietojesi tuomista suoraan Snowflakesta.
Vaihtoehtoisesti voit ladata saman tietojoukon paikalliselta koneeltasi. Voit ladata tietojoukon lainat-osa-1.csv ja lainat-osa-2.csv.
- Valitse Tuo tiedot -sivun luettelosta Lumihiutale ja valitse Lisää yhteys.
- Anna yhteydelle nimi, valitse OAuth vaihtoehto todennusmenetelmän avattavasta luettelosta. Anna Okta-tilisi tunnus ja valitse Lisää yhteys.
- Sinut ohjataan Okta-kirjautumisnäyttöön syöttämään Okta-kirjautumistiedot todentamista varten. Kun todennus on onnistunut, sinut ohjataan tietovirtasivulle.
- Selaa löytääksesi lainatietojoukon Snowflake-tietokannasta
Valitse kaksi lainatietojoukkoa vetämällä ja pudottamalla ne näytön vasemmalta puolelta oikealle. Nämä kaksi tietojoukkoa muodostavat yhteyden, ja näyttöön tulee liitossymboli, jossa on punainen huutomerkki. Napsauta sitä ja valitse sitten molemmille tietojoukoille id avain. Jätä liitostyypiksi Sisempi. Sen pitäisi näyttää tältä:
- Valita Tallenna ja sulje.
- Valita Luo tietojoukko. Anna tietojoukolle nimi.
- Kun siirryt tietovirtaan, näet seuraavan.
- Tutustu lainatietoihin nopeasti valitsemalla Hanki datatietoja Ja valitse
loan_status
kohdesarake ja Luokittelu ongelman tyyppi.
Luotu Data Quality and Insight -raportti tarjoaa tärkeimmät tilastot, visualisoinnit ja ominaisuuksien tärkeysanalyysit.
- Tarkista tietojen laatuongelmia ja epätasapainoisia luokkia koskevat varoitukset ymmärtääksesi ja parantaaksesi tietojoukkoa.
Tässä käyttötapauksessa tietojoukolle pitäisi odottaa korkean prioriteetin varoitus "Erittäin alhainen pikamallipistemäärä" ja erittäin alhainen mallin tehokkuus vähemmistöluokissa (velattu ja nykyinen), mikä osoittaa, että tiedot on siivottava ja tasapainotettava. Viitata Canvas-dokumentaatio saadaksesi lisätietoja tietotilastojen raportista.
Yli 300 sisäänrakennetulla SageMaker Data Wrangler -muunnolla, SageMaker Canvas antaa sinulle mahdollisuuden kiistaa lainatiedot nopeasti. Voit klikata Lisää vaiheja selaa tai etsi oikeita muunnoksia. Käytä tälle tietojoukolle Pudotus puuttuu ja Käsittele poikkeavuuksia puhdista tiedot ja käytä sitten Yksi kuuma koodaus, ja Vektorisoi tekstiä luodaksesi ominaisuuksia ML:lle.
Chat tietojen valmistelua varten on uusi luonnollisen kielen ominaisuus, joka mahdollistaa intuitiivisen data-analyysin kuvaamalla pyynnöt selkeällä englannin kielellä. Voit saada esimerkiksi tilastoja ja ominaisuuskorrelaatioanalyysiä lainatiedoista luonnollisilla lauseilla. SageMaker Canvas ymmärtää ja suorittaa toiminnot keskusteluvuorovaikutusten kautta ja vie tietojen valmistelun seuraavalle tasolle.
Voimme käyttää Chat tietojen valmistelua varten ja sisäänrakennettu muunnos lainatietojen tasapainottamiseksi.
- Kirjoita ensin seuraavat ohjeet:
replace “charged off” and “current” in loan_status with “default”
Chat tietojen valmistelua varten luo koodin kahden vähemmistöluokan yhdistämiseksi yhdeksi default
luokka.
- Valitse sisäänrakennettu löivät muunnosfunktio synteettisten tietojen luomiseksi oletusluokalle.
Nyt sinulla on tasapainoinen kohdesarake.
- Lainatietojen puhdistamisen ja käsittelyn jälkeen regeneroi Data Quality and Insight -raportti tarkistamaan parannuksia.
Korkean prioriteetin varoitus on kadonnut, mikä osoittaa parantuneen tiedonlaadun. Voit lisätä tarvittaessa muita muunnoksia parantaaksesi mallin koulutuksen tietojen laatua.
Skaalaa ja automatisoi tietojenkäsittely
Tietojen valmistelun automatisoimiseksi voit ajaa tai ajoittaa koko työnkulun hajautettuna Spark-käsittelytyönä koko tietojoukon tai uusien tietojoukkojen käsittelemiseksi mittakaavassa.
- Lisää tietovirtaan Amazon S3 -kohdesolmu.
- Käynnistä SageMaker Processing -työ valitsemalla Luo työpaikka.
- Määritä käsittelytyö ja valitse luoda, joka mahdollistaa tiedonkulun satojen gigatavujen datan ilman näytteenottoa.
Tietovirrat voidaan sisällyttää päästä päähän MLOps-putkilinjoihin ML-elinkaarin automatisoimiseksi. Tietovirrat voidaan syöttää SageMaker Studio -muistikirjoihin SageMaker-liukuhihnan tietojenkäsittelyvaiheena tai SageMaker-päätelmäputkilinjan käyttöönottoa varten. Tämä mahdollistaa tiedonkulun automatisoinnin tietojen valmistelusta SageMaker-koulutukseen ja isännöintiin.
Rakenna ja ota malli käyttöön SageMaker Canvasissa
Tietojen valmistelun jälkeen voimme viedä lopullisen tietojoukon saumattomasti SageMaker Canvasiin lainamaksun ennustemallin rakentamiseksi, kouluttamiseksi ja käyttöönottamiseksi.
- Valita Luo malli tietovirran viimeisessä solmussa tai solmuruudussa.
Tämä vie tietojoukon ja käynnistää ohjatun mallinluontityönkulun.
- Nimeä viety tietojoukko ja valitse Vie.
- Valita Luo malli ilmoituksesta.
- Nimeä malli, valitse Ennakoiva analyysi, ja valitse luoda.
Tämä ohjaa sinut mallinrakennussivulle.
- Jatka SageMaker Canvas -mallin rakentamiskokemusta valitsemalla kohdesarake ja mallin tyyppi ja valitse sitten Nopea rakentaa or Vakiorakenne.
Lisätietoja mallinrakennuskokemuksesta on osoitteessa Rakenna malli.
Kun koulutus on valmis, voit käyttää mallia uusien tietojen ennustamiseen tai käyttöönottoon. Viitata Ota käyttöön Amazon SageMaker Canvasissa rakennettuja ML-malleja Amazon SageMakerin reaaliaikaisiin päätepisteisiin saadaksesi lisätietoja SageMaker Canvasin mallin käyttöönotosta.
Yhteenveto
Tässä viestissä osoitimme SageMaker Canvasin kyvyt päästä päähän ottamalla taloustietojen ammattilaisen roolin, joka valmistelee tietoja lainanmaksun ennustamiseksi SageMaker Data Wranglerin avulla. Interaktiivinen tietojen valmistelu mahdollisti lainatietojen nopean puhdistamisen, muuntamisen ja analysoinnin informatiivisten ominaisuuksien suunnittelua varten. Poistamalla koodauksen monimutkaisuuden, SageMaker Canvas antoi meille mahdollisuuden iteroida nopeasti korkealaatuisen harjoitustietojoukon luomiseksi. Tämä nopeutettu työnkulku johtaa suoraan tehokkaan ML-mallin rakentamiseen, koulutukseen ja käyttöönottoon liiketoimintavaikutusten saavuttamiseksi. SageMaker Canvas tarjoaa kattavan tietojen valmistelun ja yhtenäisen kokemuksen tiedoista oivalluksiin, ja se antaa sinulle mahdollisuuden parantaa ML-tuloksiasi. Lisätietoja siitä, kuinka voit nopeuttaa matkaasi datasta liiketoimintatietoihin, katso SageMaker Canvas -kylpypäivä ja AWS käyttöopas.
Tietoja kirjoittajista
DR. Changsha Ma on AI/ML-asiantuntija AWS:ssä. Hän on tekniikan tohtori, jolla on tietojenkäsittelytieteen tohtori, koulutuspsykologian maisterin tutkinto ja vuosien kokemus datatieteestä ja riippumattomasta konsultoinnista AI/ML:ssä. Hän on intohimoinen kone- ja ihmisälyn metodologisten lähestymistapojen tutkimiseen. Työn ulkopuolella hän rakastaa patikointia, ruoanlaittoa, metsästää ruokaa ja viettää aikaa ystävien ja perheen kanssa.
Ajjay Govindaram on AWS:n vanhempi ratkaisuarkkitehti. Hän työskentelee strategisten asiakkaiden kanssa, jotka käyttävät tekoälyä/ML:ää monimutkaisten liiketoimintaongelmien ratkaisemiseen. Hänen kokemuksensa on teknisen ohjauksen ja suunnitteluavun tarjoaminen vaatimattomissa ja suurissa AI/ML-sovellusten käyttöönotoissa. Hänen tietämyksensä ulottuu sovellusarkkitehtuurista big dataan, analytiikkaan ja koneoppimiseen. Hän nauttii musiikin kuuntelusta lepääessään, ulkoiluun ja rakkaittensa kanssa viettämiseen.
Huong Nguyen on vanhempi tuotepäällikkö AWS:ssä. Hän johtaa ML-tietojen valmistelua SageMaker Canvasille ja SageMaker Data Wranglerille 15 vuoden kokemuksella asiakaslähtöisten ja tietoihin perustuvien tuotteiden rakentamisesta.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :on
- :On
- $ YLÖS
- 100
- 12
- 13
- 14
- 15 vuotta
- 15%
- 300
- 50
- 8
- a
- pystyy
- Meistä
- kiihdyttää
- kiihtyi
- Tili
- toimet
- lisätä
- aggregaatti
- AI / ML
- sallittu
- mahdollistaa
- pitkin
- jo
- Myös
- Amazon
- Amazon Sage Maker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analyysit
- analyysi
- Analytics
- analysointi
- ja
- Kaikki
- näyttää
- Hakemus
- lähestymistavat
- arkkitehtuuri
- OVAT
- AS
- Apu
- At
- todentaa
- Authentication
- automatisoida
- automatisointi
- AWS
- takaisin
- Balance
- Tasapainoinen
- BE
- Iso
- Big Data
- tappi
- lainaaja
- sekä
- rakentaa
- Rakentaminen
- rakennettu
- sisäänrakennettu
- liiketoiminta
- liiketoiminnan vaikutukset
- by
- CAN
- Voi saada
- kangas
- kyvyt
- valmiudet
- tapaus
- peritään
- Valita
- valita
- luokka
- luokat
- puhdas
- Siivous
- napsauttaa
- koodi
- Koodaus
- Sarake
- yritys
- täydellinen
- monimutkainen
- monimutkaisuus
- kattava
- tietokone
- Tietojenkäsittelyoppi
- kytkeä
- liitäntä
- konsultointi
- puhekielen
- ruoanlaitto
- Korrelaatio
- kattaa
- luoda
- luominen
- Valtakirja
- pisteitä
- ratkaiseva
- Nykyinen
- Asiakkaat
- tiedot
- tietojen analysointi
- Tietojen valmistelu
- tietojenkäsittely
- tiedon laatu
- tietojenkäsittely
- data-driven
- aineistot
- oletusarvo
- Aste
- osoittivat
- sijoittaa
- levityspinnalta
- käyttöönotot
- kuvataan
- Malli
- määränpää
- yksityiskohtainen
- suunta
- suoraan
- löytää
- jaettu
- alas
- download
- Pudota
- pudottamalla
- helposti
- koulutus
- tehokkuus
- valtuutetaan
- mahdollistaa
- käytössä
- mahdollistaa
- mahdollistaa
- päittäin
- insinööri
- Englanti
- parantaa
- varmistaa
- enter
- Koko
- ympäristö
- Eetteri (ETH)
- esimerkki
- odottaa
- experience
- kokevat
- tutkia
- vienti
- vientiä
- perheet
- nopeampi
- Ominaisuus
- Ominaisuudet
- lopullinen
- taloudellinen
- taloudelliset tiedot
- rahoituspalvelut
- rahoituspalveluyritys
- virtaus
- virrat
- seurata
- jälkeen
- ruoka
- varten
- Perustukset
- tuore
- ystäviä
- alkaen
- täysin
- toiminto
- edelleen
- tuottaa
- syntyy
- synnyttää
- saada
- Antaa
- opastettu
- Olla
- he
- Korkea
- korkealaatuisia
- retkeily
- hänen
- hotellit
- Miten
- Miten
- HTML
- http
- HTTPS
- ihmisen
- ihmisen älykkyyttä
- Sadat
- Metsästys
- ID
- if
- epätasapainoinen
- upotus
- Vaikutus
- täytäntöön
- tuoda
- merkitys
- tuovan
- parantaa
- parani
- parannuksia
- in
- yhdistetty
- itsenäinen
- ilmaisee
- tiedot
- informatiivinen
- tietoa
- oivalluksia
- ohjeet
- integraatio
- Älykkyys
- vuorovaikutukset
- vuorovaikutteinen
- liitäntä
- tulee
- intuitiivinen
- liittyy
- kysymykset
- IT
- SEN
- Job
- yhdistää
- matkat
- jpg
- avain
- tuntemus
- Kieli
- laaja
- Sukunimi
- käynnistää
- johtava
- Liidit
- OPPIA
- oppiminen
- jättää
- vasemmalle
- Taso
- piilee
- elinkaari
- pitää
- Lista
- Kuunteleminen
- lainata
- Lainat
- paikallinen
- log
- Kirjaudu sisään
- katso
- näyttää joltakin
- rakastettu
- rakastaa
- Matala
- kone
- koneoppiminen
- tehdä
- johtaja
- toimitusjohtaja
- Merkitse
- maisterin
- mennä
- menetelmä
- menetelmät
- vähemmistö
- ML
- MLOps
- malli
- mallit
- vaatimaton
- lisää
- Musiikki
- nimi
- Luonnollinen
- Luonnollinen kieli
- Tarve
- tarvitaan
- Uusi
- uusi ominaisuus
- seuraava
- solmu
- solmut
- kannettavat tietokoneet
- ilmoituksen
- nyt
- OAuth
- of
- pois
- usein
- OKTA
- on
- ONE
- yhdet
- Vaihtoehto
- or
- meidän
- tuloksiin
- ulkona
- ulkopuolella
- yli
- sivulla
- lasi
- intohimoinen
- maksu
- suorituskyky
- phd
- lausekkeet
- putki
- tavallinen
- Platon
- Platonin tietotieto
- PlatonData
- Kirje
- powered
- ennustaa
- ennustus
- ennustaa
- valmistelu
- Valmistella
- valmistelee
- edellytyksiä
- prioriteetti
- Ongelma
- ongelmia
- prosessi
- käsittely
- Tuotteet
- tuotepäällikkö
- Tuotteemme
- ammatillinen
- tarjoaa
- tarjoamalla
- Psykologia
- laatu
- nopeasti
- nopeasti
- reaaliaikainen
- punainen
- kääntää
- katso
- poistamalla
- raportti
- pyynnöt
- lepää
- arviot
- oikein
- Riski
- Rooli
- ajaa
- toimii
- sagemaker
- SageMaker-johtopäätös
- Salesforce
- sama
- Asteikko
- aikataulu
- tiede
- Näytön
- saumattomasti
- Haku
- nähdä
- valita
- vanhempi
- Palvelut
- palveluyritys
- setup
- hän
- shouldnt
- puoli
- Yksinkertainen
- Ratkaisumme
- SOLVE
- Lähteet
- Kipinä
- asiantuntija
- menot
- tilasto
- Vaihe
- Askeleet
- Levytila
- Strateginen
- studio
- onnistunut
- niin
- Tukee
- varma
- symboli
- synteettinen
- synteettinen data
- ottaen
- Kohde
- tehtävät
- Tekninen
- teknologi
- että
- -
- Niitä
- sitten
- tätä
- Kautta
- aika
- aikaavievä
- että
- Juna
- koulutus
- Muuttaa
- muunnokset
- muuttamassa
- muunnoksia
- kaksi
- tyyppi
- ymmärtää
- ymmärtää
- yhdistynyt
- us
- käyttää
- käyttölaukku
- käyttäjä
- käyttämällä
- hyvin
- visuaalinen
- kävellä
- läpikäynti
- varoitus
- we
- verkko
- verkkopalvelut
- HYVIN
- onko
- joka
- vaikka
- KUKA
- koko
- tulee
- with
- ilman
- Referenssit
- työnkulku
- toimii
- Työpajat
- olisi
- vuotta
- vielä
- te
- Sinun
- zephyrnet