Rulați experimente AutoML cu seturi mari de date de parchet folosind Amazon SageMaker Autopilot

Nodul sursă: 1596421

Începând de astăzi, puteți folosi Pilot automat cu Amazon SageMaker pentru a aborda sarcinile de regresie și clasificare pe seturi mari de date de până la 100 GB. În plus, acum vă puteți furniza seturile de date fie în format CSV, fie Parchet Apache tipuri de conținut.

Companiile generează mai multe date ca niciodată. O cerere corespunzătoare este în creștere pentru generarea de informații din aceste seturi mari de date pentru a modela deciziile de afaceri. Cu toate acestea, antrenarea cu succes a algoritmilor de învățare automată (ML) de ultimă generație pe aceste seturi mari de date poate fi o provocare. Autopilot automatizează acest proces și oferă o experiență perfectă pentru rularea învățării automate automate (AutoML) pe seturi de date mari de până la 100 GB.

Autopilot eșantionează automat seturile mari de date pentru a se potrivi limitei maxime acceptate, păstrând în același timp clasa rară în caz de dezechilibru de clasă. Dezechilibrul de clasă este o problemă importantă de care trebuie să fii conștient în ML, mai ales atunci când ai de-a face cu seturi de date mari. Luați în considerare un set de date de detectare a fraudei în care doar o mică parte din tranzacții este de așteptat să fie frauduloasă. În acest caz, Autopilot eșantionează numai clasa majoritară, tranzacțiile nefrauduloase, păstrând în același timp tranzacțiile frauduloase din clasa rară.

Când rulați un job AutoML folosind Autopilot, toate informațiile relevante pentru subeșantionare sunt stocate în Amazon CloudWatch. Navigați la grupul de jurnal pentru /aws/sagemaker/ProcessingJobs, căutați numele jobului dvs. AutoML și alegeți fluxul de jurnal CloudWatch care include -db- în numele ei.

Mulți dintre clienții noștri preferă tipul de conținut Parquet pentru a-și stoca seturile mari de date. Acest lucru se datorează, în general, naturii sale comprimate, suportului pentru structuri avansate de date, eficienței și operațiunilor cu costuri reduse. Aceste date pot ajunge adesea până la zeci sau chiar sute de GB. Acum, puteți aduce direct aceste seturi de date Parquet la Autopilot. Puteți fie să utilizați API-ul nostru, fie să navigați la Amazon SageMaker Studio pentru a crea un job Autopilot cu câteva clicuri. Puteți specifica locația de intrare a setului de date Parquet ca un singur fișier sau mai multe fișiere specificate ca fișier manifest. Autopilot detectează automat tipul de conținut al setului dvs. de date, îl analizează, extrage caracteristici semnificative și antrenează mai mulți algoritmi ML.

Puteți începe să utilizați caiet de probă pentru rularea AutoML folosind Autopilot pe seturile de date Parquet.


Despre Autori

H. Furkan Bozkurt, Inginer de învățare automată, Pilot automat Amazon SageMaker.

Valerio Perrone, Manager de știință aplicată, Pilot automat Amazon SageMaker.

Sursa: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Timestamp-ul:

Mai mult de la Blog de AWS Machine Learning