Esegui esperimenti AutoML con set di dati di parquet di grandi dimensioni utilizzando Amazon SageMaker Autopilot

Nodo di origine: 1596421

A partire da oggi, puoi utilizzare Pilota automatico Amazon SageMaker per affrontare attività di regressione e classificazione su set di dati di grandi dimensioni fino a 100 GB. Inoltre, ora puoi fornire i tuoi set di dati in formato CSV o Parquet Apache tipi di contenuto.

Le aziende generano più dati che mai. Sta crescendo una domanda corrispondente per la generazione di insight da questi grandi set di dati per modellare le decisioni aziendali. Tuttavia, addestrare con successo algoritmi di machine learning (ML) all’avanguardia su questi set di dati di grandi dimensioni può essere difficile. Autopilot automatizza questo processo e offre un'esperienza fluida per l'esecuzione del machine learning automatizzato (AutoML) su set di dati di grandi dimensioni fino a 100 GB.

Il pilota automatico sottocampiona automaticamente i tuoi set di dati di grandi dimensioni per soddisfare il limite massimo supportato preservando la classe rara in caso di squilibrio di classe. Lo squilibrio delle classi è un problema importante di cui essere consapevoli nel machine learning, soprattutto quando si ha a che fare con set di dati di grandi dimensioni. Consideriamo un set di dati di rilevamento delle frodi in cui si prevede che solo una piccola parte delle transazioni sia fraudolenta. In questo caso, Autopilot sottocampiona solo le transazioni non fraudolente della classe maggioritaria, preservando le transazioni fraudolente della classe rara.

Quando esegui un processo AutoML utilizzando Autopilot, tutte le informazioni rilevanti per il sottocampionamento vengono archiviate Amazon Cloud Watch. Passare al gruppo di log per /aws/sagemaker/ProcessingJobs, cerca il nome del tuo processo AutoML e scegli il flusso di log CloudWatch che include -db- nel suo nome.

Molti dei nostri clienti preferiscono il tipo di contenuto Parquet per archiviare i propri set di dati di grandi dimensioni. Ciò è generalmente dovuto alla sua natura compressa, al supporto per strutture dati avanzate, all'efficienza e alle operazioni a basso costo. Questi dati possono spesso raggiungere decine o addirittura centinaia di GB. Ora puoi portare direttamente questi set di dati Parquet su Autopilot. Puoi utilizzare la nostra API o accedere a Amazon Sage Maker Studio per creare un lavoro Autopilot con pochi clic. Puoi specificare il percorso di input del tuo set di dati Parquet come file singolo o più file specificati come file manifest. Autopilot rileva automaticamente il tipo di contenuto del set di dati, lo analizza, estrae funzionalità significative e addestra più algoritmi ML.

Puoi iniziare a utilizzare il nostro taccuino di esempio per eseguire AutoML utilizzando Autopilot su set di dati Parquet.


Informazioni sugli autori

H. Furkan Bozkurt, Ingegnere di machine learning, Pilota automatico Amazon SageMaker.

Valerio Perrone, Responsabile delle scienze applicate, Amazon SageMaker Autopilot.

Fonte: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Timestamp:

Di più da Blog di apprendimento automatico AWS