Zaženite poskuse AutoML z velikimi nabori podatkov Parquet z uporabo avtopilota Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

Od danes naprej lahko uporabljate Amazonski SageMaker avtopilot za reševanje nalog regresije in klasifikacije na velikih naborih podatkov do 100 GB. Poleg tega lahko zdaj svoje nabore podatkov posredujete v obliki CSV ali Parket Apache vrste vsebine.

Podjetja ustvarjajo več podatkov kot kdaj koli prej. Ustrezno narašča povpraševanje po ustvarjanju vpogledov iz teh velikih naborov podatkov za oblikovanje poslovnih odločitev. Vendar pa je uspešno usposabljanje najsodobnejših algoritmov strojnega učenja (ML) na teh velikih naborih podatkov lahko izziv. Avtopilot avtomatizira ta proces in zagotavlja brezhibno izkušnjo za izvajanje avtomatiziranega strojnega učenja (AutoML) na velikih naborih podatkov do 100 GB.

Avtopilot samodejno podvzorči vaše velike nabore podatkov, da ustreza največji podprti omejitvi, hkrati pa ohrani redki razred v primeru neravnovesje razreda. Neuravnoteženost razredov je pomembna težava, ki se je je treba zavedati v strojnem jeziku, zlasti ko imamo opravka z velikimi nabori podatkov. Razmislite o naboru podatkov za odkrivanje goljufij, kjer se pričakuje, da bo goljufiv le majhen del transakcij. V tem primeru Autopilot podvzorči le transakcije večinskega razreda, ki niso goljufive, medtem ko ohrani redke, goljufive transakcije.

Ko zaženete opravilo AutoML z uporabo avtopilota, so shranjene vse pomembne informacije za podvzorčenje amazoncloudwatch. Pomaknite se do skupine dnevnikov za /aws/sagemaker/ProcessingJobs, poiščite ime svojega opravila AutoML in izberite tok dnevnika CloudWatch, ki vključuje -db- v njenem imenu.

Številne naše stranke imajo raje vrsto vsebine Parquet za shranjevanje velikih naborov podatkov. To je na splošno posledica njegove stisnjene narave, podpore za napredne podatkovne strukture, učinkovitosti in nizkocenovnih operacij. Ti podatki lahko pogosto dosežejo do desetine ali celo stotine GB. Zdaj lahko te nabore podatkov Parquet neposredno prenesete v Autopilot. Lahko uporabite naš API ali se pomaknete na Amazon SageMaker Studio za ustvarjanje opravila avtopilota z nekaj kliki. Vhodno lokacijo nabora podatkov Parquet lahko določite kot eno samo datoteko ali več datotek, določenih kot datoteka manifesta. Avtopilot samodejno zazna vrsto vsebine vašega nabora podatkov, ga razčleni, izlušči pomembne funkcije in uri več algoritmov ML.

Lahko začnete uporabljati naše vzorec zvezka za izvajanje AutoML z uporabo Autopilota na naborih podatkov Parquet.

O avtorjih

H. Furkan Bozkurt, inženir strojnega učenja, avtopilot Amazon SageMaker.

Valerio Perrone, vodja uporabnih znanosti, avtopilot Amazon SageMaker.

Vir: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Časovni žig: Januar 28, 2022

Časovni žig: April 23, 2021

Izvajajte poskuse AutoML z velikimi nabori podatkov o parketu z uporabo Amazon SageMaker Autopilot

Ponovno objavil Platon

O avtorjih

Več od Blog za strojno učenje AWS

Zaznavanje akustične anomalije z uporabo Amazon Lookout for Equipment

Izboljšajte operativno učinkovitost z integriranim nadzorom opreme s sistemom TensorIoT, ki ga poganja AWS

Dosezite 12-krat večjo prepustnost in najnižjo zakasnitev za aplikacije za obdelavo naravnega jezika PyTorch, ki so na voljo na AWS Inferentia

Preprečite lažne prijave računov v realnem času z AI z Amazon Fraud Detector

Amazon Personalize lahko zdaj odklene intrinzične signale v vašem katalogu in priporoči podobne izdelke

HawkEye 360 napoveduje tveganje za plovila z uporabo Deep Graph Library in Amazon Neptune

Hitreje usposobite modele z avtomatiziranim orodjem za profiliranje podatkov za Amazon Fraud Detector

Kognitivna obdelava dokumentov za avtomatizirano obdelavo hipoteke

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun