Rulați experimente AutoML cu seturi mari de date parchet utilizând Amazon SageMaker Autopilot

Republicat de Platon

Urmaritori: 0

Începând de astăzi, puteți folosi Pilot automat cu Amazon SageMaker pentru a aborda sarcinile de regresie și clasificare pe seturi mari de date de până la 100 GB. În plus, acum vă puteți furniza seturile de date fie în format CSV, fie Parchet Apache tipuri de conținut.

Companiile generează mai multe date ca niciodată. O cerere corespunzătoare este în creștere pentru generarea de informații din aceste seturi mari de date pentru a modela deciziile de afaceri. Cu toate acestea, antrenarea cu succes a algoritmilor de învățare automată (ML) de ultimă generație pe aceste seturi mari de date poate fi o provocare. Autopilot automatizează acest proces și oferă o experiență perfectă pentru rularea învățării automate automate (AutoML) pe seturi de date mari de până la 100 GB.

Autopilot eșantionează automat seturile mari de date pentru a se potrivi limitei maxime acceptate, păstrând în același timp clasa rară în caz de dezechilibru de clasă. Dezechilibrul de clasă este o problemă importantă de care trebuie să fii conștient în ML, mai ales atunci când ai de-a face cu seturi de date mari. Luați în considerare un set de date de detectare a fraudei în care doar o mică parte din tranzacții este de așteptat să fie frauduloasă. În acest caz, Autopilot eșantionează numai clasa majoritară, tranzacțiile nefrauduloase, păstrând în același timp tranzacțiile frauduloase din clasa rară.

Când rulați un job AutoML folosind Autopilot, toate informațiile relevante pentru subeșantionare sunt stocate în Amazon CloudWatch. Navigați la grupul de jurnal pentru /aws/sagemaker/ProcessingJobs, căutați numele jobului dvs. AutoML și alegeți fluxul de jurnal CloudWatch care include -db- în numele ei.

Mulți dintre clienții noștri preferă tipul de conținut Parquet pentru a-și stoca seturile mari de date. Acest lucru se datorează, în general, naturii sale comprimate, suportului pentru structuri avansate de date, eficienței și operațiunilor cu costuri reduse. Aceste date pot ajunge adesea până la zeci sau chiar sute de GB. Acum, puteți aduce direct aceste seturi de date Parquet la Autopilot. Puteți fie să utilizați API-ul nostru, fie să navigați la Amazon SageMaker Studio pentru a crea un job Autopilot cu câteva clicuri. Puteți specifica locația de intrare a setului de date Parquet ca un singur fișier sau mai multe fișiere specificate ca fișier manifest. Autopilot detectează automat tipul de conținut al setului dvs. de date, îl analizează, extrage caracteristici semnificative și antrenează mai mulți algoritmi ML.

Puteți începe să utilizați caiet de probă pentru rularea AutoML folosind Autopilot pe seturile de date Parquet.

Despre Autori

H. Furkan Bozkurt, Inginer de învățare automată, Pilot automat Amazon SageMaker.

Valerio Perrone, Manager de știință aplicată, Pilot automat Amazon SageMaker.

Sursa: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Timestamp-ul: Ianuarie 28, 2022

Timestamp-ul: 24 Mai, 2021

Rulați experimente AutoML cu seturi mari de date de parchet folosind Amazon SageMaker Autopilot

Republicat de Platon

Despre Autori

Mai mult de la Blog de AWS Machine Learning

Introducerea unui nou API pentru a opri fluxurile de lucru în curs în Amazon Forecast

Cum să abordați designul conversației: Noțiuni de bază cu Amazon Lex (Partea 2)

Detectează automat momentele sportive în videoclipuri cu Amazon SageMaker

Aerobotica îmbunătățește viteza de antrenament de 24 de ori pe eșantion cu Amazon SageMaker și TensorFlow

Pregătiți datele de la Snowflake pentru învățarea automată cu Amazon SageMaker Data Wrangler

Simplificați și automatizați detectarea anomaliilor în fluxul de date cu Amazon Lookout for Metrics

Anunțarea AWS DeepComposer Chartbusters provoacă lansarea sezonului 2021

Îmbunătățiți eficiența operațională cu monitorizarea integrată a echipamentelor cu TensorIoT alimentat de AWS

Optimizați-vă lucrările de inferență folosind inferența dinamică în loturi cu TorchServe pe Amazon SageMaker

Generați note de întâlnire de înaltă calitate folosind Amazon Transcribe și Amazon Comprehend

Îmbunătățiți narațiunile sportive cu generarea de limbaj natural folosind Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont