Blog di apprendimento automatico AWS

Esegui esperimenti AutoML con set di dati di parquet di grandi dimensioni utilizzando Amazon SageMaker Autopilot

AITimestamp: 28 gennaio 2022 2:48

Nodo di origine: 1596421

Ripubblicato da Platone

Seguaci: 0

A partire da oggi, puoi utilizzare Pilota automatico Amazon SageMaker per affrontare attività di regressione e classificazione su set di dati di grandi dimensioni fino a 100 GB. Inoltre, ora puoi fornire i tuoi set di dati in formato CSV o Parquet Apache tipi di contenuto.

Le aziende generano più dati che mai. Sta crescendo una domanda corrispondente per la generazione di insight da questi grandi set di dati per modellare le decisioni aziendali. Tuttavia, addestrare con successo algoritmi di machine learning (ML) all’avanguardia su questi set di dati di grandi dimensioni può essere difficile. Autopilot automatizza questo processo e offre un'esperienza fluida per l'esecuzione del machine learning automatizzato (AutoML) su set di dati di grandi dimensioni fino a 100 GB.

Il pilota automatico sottocampiona automaticamente i tuoi set di dati di grandi dimensioni per soddisfare il limite massimo supportato preservando la classe rara in caso di squilibrio di classe. Lo squilibrio delle classi è un problema importante di cui essere consapevoli nel machine learning, soprattutto quando si ha a che fare con set di dati di grandi dimensioni. Consideriamo un set di dati di rilevamento delle frodi in cui si prevede che solo una piccola parte delle transazioni sia fraudolenta. In questo caso, Autopilot sottocampiona solo le transazioni non fraudolente della classe maggioritaria, preservando le transazioni fraudolente della classe rara.

Quando esegui un processo AutoML utilizzando Autopilot, tutte le informazioni rilevanti per il sottocampionamento vengono archiviate Amazon Cloud Watch. Passare al gruppo di log per /aws/sagemaker/ProcessingJobs, cerca il nome del tuo processo AutoML e scegli il flusso di log CloudWatch che include -db- nel suo nome.

Molti dei nostri clienti preferiscono il tipo di contenuto Parquet per archiviare i propri set di dati di grandi dimensioni. Ciò è generalmente dovuto alla sua natura compressa, al supporto per strutture dati avanzate, all'efficienza e alle operazioni a basso costo. Questi dati possono spesso raggiungere decine o addirittura centinaia di GB. Ora puoi portare direttamente questi set di dati Parquet su Autopilot. Puoi utilizzare la nostra API o accedere a Amazon Sage Maker Studio per creare un lavoro Autopilot con pochi clic. Puoi specificare il percorso di input del tuo set di dati Parquet come file singolo o più file specificati come file manifest. Autopilot rileva automaticamente il tipo di contenuto del set di dati, lo analizza, estrae funzionalità significative e addestra più algoritmi ML.

Puoi iniziare a utilizzare il nostro taccuino di esempio per eseguire AutoML utilizzando Autopilot su set di dati Parquet.

Informazioni sugli autori

H. Furkan Bozkurt, Ingegnere di machine learning, Pilota automatico Amazon SageMaker.

Valerio Perrone, Responsabile delle scienze applicate, Amazon SageMaker Autopilot.

Fonte: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Timestamp: Gennaio 28, 2022

Di più da Blog di apprendimento automatico AWS

Rilevamento di anomalie acustiche utilizzando Amazon Lookout for Equipment

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 806060

Timestamp: APRILE 9, 2021

Migliora l'efficienza operativa con il monitoraggio integrato delle apparecchiature con TensorIoT con tecnologia AWS

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 805989

Timestamp: APRILE 8, 2021

Mitigazione degli incendi boschivi attraverso l'apprendimento automatico con AusNet e AWS

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1461654

Timestamp: Novembre 9, 2021

Ottieni un throughput 12 volte superiore e una latenza minima per le applicazioni di elaborazione del linguaggio naturale PyTorch out-of-the-box su AWS Inferentia

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 837419

Timestamp: 4 Maggio 2021

È una conclusione per il mese di Amazon SageMaker, 30 giorni di contenuti, discussioni e notizie

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 872440

Timestamp: 24 Maggio 2021

AWS e NVIDIA per portare le istanze Graviton2 basate su ARM con GPU nel cloud

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 807655

Timestamp: APRILE 12, 2021

Annuncio di soluzioni per i partner di intelligenza artificiale conversazionale

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1542083

Timestamp: Novembre 15, 2021

Previeni la registrazione di account falsi in tempo reale con l'intelligenza artificiale utilizzando Amazon Fraud Detector

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1318224

Timestamp: Ottobre 29, 2021

Amazon Personalize ora può sbloccare segnali intrinseci nel tuo catalogo per consigliare articoli simili

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1133737

Timestamp: Ottobre 14, 2021

HawkEye 360 prevede il rischio delle navi utilizzando la Deep Graph Library e Amazon Neptune

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1133735

Timestamp: Ottobre 15, 2021

Addestra più velocemente i modelli con un data profiler automatizzato per Amazon Fraud Detector

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 1274468

Timestamp: Ottobre 26, 2021

Elaborazione cognitiva dei documenti per l'elaborazione automatizzata dei mutui

Cluster di origine:

Blog di apprendimento automatico AWS

Nodo di origine: 825854

Timestamp: APRILE 23, 2021