Izvajajte poskuse AutoML z velikimi nabori podatkov o parketu z uporabo Amazon SageMaker Autopilot

Izvorno vozlišče: 1596421

Od danes naprej lahko uporabljate Amazonski SageMaker avtopilot za reševanje nalog regresije in klasifikacije na velikih naborih podatkov do 100 GB. Poleg tega lahko zdaj svoje nabore podatkov posredujete v obliki CSV ali Parket Apache vrste vsebine.

Podjetja ustvarjajo več podatkov kot kdaj koli prej. Ustrezno narašča povpraševanje po ustvarjanju vpogledov iz teh velikih naborov podatkov za oblikovanje poslovnih odločitev. Vendar pa je uspešno usposabljanje najsodobnejših algoritmov strojnega učenja (ML) na teh velikih naborih podatkov lahko izziv. Avtopilot avtomatizira ta proces in zagotavlja brezhibno izkušnjo za izvajanje avtomatiziranega strojnega učenja (AutoML) na velikih naborih podatkov do 100 GB.

Avtopilot samodejno podvzorči vaše velike nabore podatkov, da ustreza največji podprti omejitvi, hkrati pa ohrani redki razred v primeru neravnovesje razreda. Neuravnoteženost razredov je pomembna težava, ki se je je treba zavedati v strojnem jeziku, zlasti ko imamo opravka z velikimi nabori podatkov. Razmislite o naboru podatkov za odkrivanje goljufij, kjer se pričakuje, da bo goljufiv le majhen del transakcij. V tem primeru Autopilot podvzorči le transakcije večinskega razreda, ki niso goljufive, medtem ko ohrani redke, goljufive transakcije.

Ko zaženete opravilo AutoML z uporabo avtopilota, so shranjene vse pomembne informacije za podvzorčenje amazoncloudwatch. Pomaknite se do skupine dnevnikov za /aws/sagemaker/ProcessingJobs, poiščite ime svojega opravila AutoML in izberite tok dnevnika CloudWatch, ki vključuje -db- v njenem imenu.

Številne naše stranke imajo raje vrsto vsebine Parquet za shranjevanje velikih naborov podatkov. To je na splošno posledica njegove stisnjene narave, podpore za napredne podatkovne strukture, učinkovitosti in nizkocenovnih operacij. Ti podatki lahko pogosto dosežejo do desetine ali celo stotine GB. Zdaj lahko te nabore podatkov Parquet neposredno prenesete v Autopilot. Lahko uporabite naš API ali se pomaknete na Amazon SageMaker Studio za ustvarjanje opravila avtopilota z nekaj kliki. Vhodno lokacijo nabora podatkov Parquet lahko določite kot eno samo datoteko ali več datotek, določenih kot datoteka manifesta. Avtopilot samodejno zazna vrsto vsebine vašega nabora podatkov, ga razčleni, izlušči pomembne funkcije in uri več algoritmov ML.

Lahko začnete uporabljati naše vzorec zvezka za izvajanje AutoML z uporabo Autopilota na naborih podatkov Parquet.


O avtorjih

H. Furkan Bozkurt, inženir strojnega učenja, avtopilot Amazon SageMaker.

Valerio Perrone, vodja uporabnih znanosti, avtopilot Amazon SageMaker.

Vir: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Časovni žig:

Več od Blog za strojno učenje AWS