AWS maskinlæringsblogg

Kjør AutoML-eksperimenter med store parkettdatasett med Amazon SageMaker Autopilot

AITidsstempel: 28. januar 2022 2:48

Kilde node: 1596421

Publisert av Platon

Følgere: 0

Fra i dag kan du bruke Amazon SageMaker Autopilot for å takle regresjons- og klassifiseringsoppgaver på store datasett opptil 100 GB. I tillegg kan du nå gi datasettene dine i enten CSV eller Apache Parkett innholdstyper.

Bedrifter genererer mer data enn noen gang. En tilsvarende etterspørsel øker for å generere innsikt fra disse store datasettene for å forme forretningsbeslutninger. Det kan imidlertid være utfordrende å trene toppmoderne maskinlæringsalgoritmer (ML) på disse store datasettene. Autopilot automatiserer denne prosessen og gir en sømløs opplevelse for å kjøre automatisert maskinlæring (AutoML) på store datasett opptil 100 GB.

Autopilot underprøver de store datasettene dine automatisk for å passe til den maksimale støttede grensen, samtidig som den sjeldne klassen bevares i tilfelle ubalanse i klassen. Klasseubalanse er et viktig problem å være oppmerksom på i ML, spesielt når man har å gjøre med store datasett. Vurder et datasett for oppdagelse av svindel der bare en liten del av transaksjonene forventes å være uredelige. I dette tilfellet undersampler Autopilot bare majoritetsklassen, ikke-svindeltransaksjoner, mens den sjeldne klassen, svindeltransaksjonene bevares.

Når du kjører en AutoML-jobb med autopilot, lagres all relevant informasjon for delprøvetaking i Amazon CloudWatch. Naviger til logggruppen for /aws/sagemaker/ProcessingJobs, søk etter navnet på AutoML-jobben din, og velg CloudWatch-loggstrømmen som inkluderer -db- i navnet.

Mange av våre kunder foretrekker innholdstypen Parkett for å lagre sine store datasett. Dette skyldes generelt dens komprimerte natur, støtte for avanserte datastrukturer, effektivitet og lavkostnadsdrift. Disse dataene kan ofte nå opptil titalls eller til og med hundrevis av GB. Nå kan du ta med disse parkettdatasettene direkte til autopiloten. Du kan enten bruke vår API eller navigere til Amazon SageMaker Studio for å lage en autopilotjobb med noen få klikk. Du kan spesifisere inngangsplasseringen til ditt Parquet-datasett som en enkelt fil eller flere filer spesifisert som en manifestfil. Autopilot oppdager automatisk innholdstypen til datasettet ditt, analyserer det, trekker ut meningsfulle funksjoner og trener flere ML-algoritmer.

Du kan komme i gang med å bruke vår prøve notatbok for å kjøre AutoML ved hjelp av Autopilot på Parquet-datasett.

Om forfatterne

H. Furkan Bozkurt, Maskinlæringsingeniør, Amazon SageMaker Autopilot.

Valerio Perrone, Applied Science Manager, Amazon SageMaker Autopilot.

Kilde: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Tidstempel: Januar 28, 2022

Mer fra AWS maskinlæringsblogg

Aktiver tilgang på tvers av kontoer for Amazon SageMaker Data Wrangler ved hjelp av AWS Lake Formation

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 807927

Tidstempel: April 13, 2021

Konfigurer Amazon Forecast for en SaaS-applikasjon med flere leietakere

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 768044

Tidstempel: Mar 25, 2021

Fra prognoser for etterspørsel til bestilling - En automatisert tilnærming til maskinlæring med Amazon Forecast for å redusere lagerbeholdning, overflødig lagerbeholdning og kostnader

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1204383

Tidstempel: Mar 12, 2021

Distribuert finjustering av en BERT Large-modell for en oppgave som besvarer spørsmål ved hjelp av Hugging Face Transformers på Amazon SageMaker

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1885069

Tidstempel: Jan 20, 2022

Kjør AlphaFold v2.0 på Amazon EC2

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1410044

Tidstempel: November 5, 2021

Oppnå 12 ganger høyere gjennomstrømning og laveste ventetid for PyTorch Natural Language Processing-applikasjoner utenom boksen på AWS Inferentia

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 837419

Tidstempel: Kan 4, 2021

Forbered data for å forutsi kredittrisiko ved hjelp av Amazon SageMaker Data Wrangler og Amazon SageMaker Clarify

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1853229

Tidstempel: Kan 14, 2021

Bygg en datasynsmodell med Amazon Rekognition Custom Labels og sammenlign resultatene med en spesialtrent TensorFlow-modell

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1576512

Tidstempel: Desember 15, 2021

Skaler økningsbevisste produktanbefalinger i sanntid på Shopify med Amazon Personalize og Amazon EventBridge

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 834944

Tidstempel: April 29, 2021

Skaler automatisk Amazon Kendra-spørringskapasitetsenheter med Amazon EventBridge og AWS Lambda

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 839406

Tidstempel: Kan 5, 2021

Forbehandling av PDF-dokumenter med Amazon Textract: Deteksjon og fjerning av visuelle bilder

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 1204412

Tidstempel: Mar 11, 2021

Bygg et kognitivt søk og en helsekunnskapsgraf ved hjelp av AWS AI-tjenester

Kildeklynge:

AWS maskinlæringsblogg

Kilde node: 853385

Tidstempel: Kan 11, 2021