Kjør AutoML-eksperimenter med store parkettdatasett med Amazon SageMaker Autopilot

Kilde node: 1596421

Fra i dag kan du bruke Amazon SageMaker Autopilot for å takle regresjons- og klassifiseringsoppgaver på store datasett opptil 100 GB. I tillegg kan du nå gi datasettene dine i enten CSV eller Apache Parkett innholdstyper.

Bedrifter genererer mer data enn noen gang. En tilsvarende etterspørsel øker for å generere innsikt fra disse store datasettene for å forme forretningsbeslutninger. Det kan imidlertid være utfordrende å trene toppmoderne maskinlæringsalgoritmer (ML) på disse store datasettene. Autopilot automatiserer denne prosessen og gir en sømløs opplevelse for å kjøre automatisert maskinlæring (AutoML) på store datasett opptil 100 GB.

Autopilot underprøver de store datasettene dine automatisk for å passe til den maksimale støttede grensen, samtidig som den sjeldne klassen bevares i tilfelle ubalanse i klassen. Klasseubalanse er et viktig problem å være oppmerksom på i ML, spesielt når man har å gjøre med store datasett. Vurder et datasett for oppdagelse av svindel der bare en liten del av transaksjonene forventes å være uredelige. I dette tilfellet undersampler Autopilot bare majoritetsklassen, ikke-svindeltransaksjoner, mens den sjeldne klassen, svindeltransaksjonene bevares.

Når du kjører en AutoML-jobb med autopilot, lagres all relevant informasjon for delprøvetaking i Amazon CloudWatch. Naviger til logggruppen for /aws/sagemaker/ProcessingJobs, søk etter navnet på AutoML-jobben din, og velg CloudWatch-loggstrømmen som inkluderer -db- i navnet.

Mange av våre kunder foretrekker innholdstypen Parkett for å lagre sine store datasett. Dette skyldes generelt dens komprimerte natur, støtte for avanserte datastrukturer, effektivitet og lavkostnadsdrift. Disse dataene kan ofte nå opptil titalls eller til og med hundrevis av GB. Nå kan du ta med disse parkettdatasettene direkte til autopiloten. Du kan enten bruke vår API eller navigere til Amazon SageMaker Studio for å lage en autopilotjobb med noen få klikk. Du kan spesifisere inngangsplasseringen til ditt Parquet-datasett som en enkelt fil eller flere filer spesifisert som en manifestfil. Autopilot oppdager automatisk innholdstypen til datasettet ditt, analyserer det, trekker ut meningsfulle funksjoner og trener flere ML-algoritmer.

Du kan komme i gang med å bruke vår prøve notatbok for å kjøre AutoML ved hjelp av Autopilot på Parquet-datasett.


Om forfatterne

H. Furkan Bozkurt, Maskinlæringsingeniør, Amazon SageMaker Autopilot.

Valerio Perrone, Applied Science Manager, Amazon SageMaker Autopilot.

Kilde: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Tidstempel:

Mer fra AWS maskinlæringsblogg