Suorita AutoML-kokeita suurilla parkettitietosarjoilla Amazon SageMaker Autopilotilla

Lähdesolmu: 1596421

Tästä päivästä alkaen voit käyttää Amazon SageMaker -autopilotti Regressio- ja luokittelutehtävien hoitamiseen suurissa, jopa 100 Gt:n tietojoukoissa. Lisäksi voit nyt toimittaa tietojoukot joko CSV- tai CSV-muodossa Apache-parketti sisältötyypit.

Yritykset tuottavat enemmän dataa kuin koskaan. Vastaava tarve tuottaa oivalluksia näistä suurista tietojoukoista liiketoimintapäätösten muokkaamiseksi. Huippuluokan koneoppimisalgoritmien (ML) onnistunut kouluttaminen näillä suurilla tietojoukoilla voi kuitenkin olla haastavaa. Autopilotti automatisoi tämän prosessin ja tarjoaa saumattoman kokemuksen automaattisen koneoppimisen (AutoML) suorittamiseen suurilla, jopa 100 Gt:n tietojoukoilla.

Autopilotti ottaa suuret tietojoukot alinäytteet automaattisesti sopimaan tuettuun enimmäisrajaan säilyttäen samalla harvinaisen luokan luokan epätasapaino. Luokkaepätasapaino on tärkeä ongelma, joka on huomioitava ML:ssä, varsinkin kun käsitellään suuria tietojoukkoja. Harkitse petosten havaitsemisen tietojoukkoa, jossa vain pienen osan tapahtumista odotetaan olevan vilpillisiä. Tässä tapauksessa Autopilot ottaa alinäytteen vain enemmistöluokan ei-vilpillisistä tapahtumista säilyttäen samalla harvinaisen luokan vilpilliset tapahtumat.

Kun suoritat AutoML-työn Autopilotilla, kaikki osanäytteenottoa varten tarvittavat tiedot tallennetaan amazonin pilvikello. Siirry lokiryhmään /aws/sagemaker/ProcessingJobs, etsi AutoML-työsi nimi ja valitse CloudWatch-lokivirta, joka sisältää -db- sen nimessä.

Monet asiakkaamme pitävät Parketti-sisältötyyppiä suurten tietojoukkojensa tallentamiseen. Tämä johtuu yleensä sen pakatusta luonteesta, edistyneiden tietorakenteiden tuesta, tehokkuudesta ja edullisista toiminnoista. Nämä tiedot voivat usein saavuttaa jopa kymmeniä tai jopa satoja GB. Nyt voit tuoda nämä parkettitietojoukot suoraan Autopilotiin. Voit joko käyttää sovellusliittymäämme tai navigoida osoitteeseen Amazon SageMaker Studio luodaksesi Autopilot-työn muutamalla napsautuksella. Voit määrittää Parquet-tietojoukon syöttösijainnin yhtenä tiedostona tai useita tiedostoja, jotka on määritetty luettelotiedostoksi. Autopilotti tunnistaa automaattisesti tietojoukosi sisältötyypin, jäsentää sen, poimii merkityksellisiä ominaisuuksia ja kouluttaa useita ML-algoritmeja.

Voit aloittaa käyttömme muistikirjan näyte AutoML:n suorittamiseen käyttämällä Autopilot on Parquet -tietosarjoja.


Tietoja Tekijät

H. Furkan Bozkurt, koneoppimisinsinööri, Amazon SageMaker Autopilot.

Valerio Perrone, Applied Science Manager, Amazon SageMaker Autopilot.

Lähde: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Aikaleima:

Lisää aiheesta AWS-koneoppimisblogi